搭建標簽體系,學會讓用戶為你干活

0 評論 15983 瀏覽 94 收藏 12 分鐘

編輯導讀:用戶標簽是精細化運營的基礎(chǔ),能有效提高流量的分發(fā)效率和轉(zhuǎn)化效率。用戶由標簽組成,但是這些標簽打那些緯度標簽?由誰來打?怎么打標簽?本文作者對此展開了分析探討,一起來看看~

標簽,主要的作用就是用于商品識別,用來標志產(chǎn)品目標、分類、內(nèi)容等。標簽按照存在形式分,可分實物標簽、網(wǎng)絡(luò)標簽(tag)等。

(1)實物標簽

主要用于標明物品的品名、重量、體積、用途等信息的簡要標牌。有傳統(tǒng)的印刷標簽和現(xiàn)代條碼打印標簽。

適用范圍:包裝:嘜頭標簽、郵政包裹;商品:價格標簽、產(chǎn)品說明標簽;

(2)網(wǎng)絡(luò)標簽(tag)

它是一種互聯(lián)網(wǎng)內(nèi)容組織方式,是相關(guān)性很強的關(guān)鍵字,幫助人們輕松的描述和分類內(nèi)容,以便于檢索和分享,Tag已經(jīng)成為自web 2.0以來的重要元素。

今天我們就來聊聊網(wǎng)絡(luò)標簽,let’s go

背景

假設(shè)一個場景:老板把你叫到辦公室,讓你做一套標簽體系,你會怎樣推進?

常規(guī)思路:調(diào)研市場上同類型產(chǎn)品做法→通過各種渠道,拿到標簽體系結(jié)構(gòu)(或者利用爬蟲爬取標簽體系數(shù)據(jù))→直接套用過來→人工達標、模型訓練→形成自有標簽體系

這是一種快速便捷的方案,但是埋了很多隱性的“坑”,稍不留神就會被坑。

  1. 不同平臺內(nèi)容體量有差異,內(nèi)容調(diào)性與用戶調(diào)性亦有差異,完全照搬內(nèi)容標簽體系,弊大于利。
  2. 標簽體系不完善,不適合自有內(nèi)容生態(tài),就花費大量人力、物力來做,勞民傷財。

怎樣躲“坑”?那得學會靈活運用他人的體系

當拿到搭建標簽體系的任務(wù),首先想到有兩個方案

方案一:調(diào)研同類型產(chǎn)品做法,直接套用其分類標簽體系

優(yōu)點:簡單、高效

缺點:不完全適合自有內(nèi)容生態(tài)

方案二:爬取同類產(chǎn)品內(nèi)容數(shù)據(jù),進行無監(jiān)督訓練,輸出分類標簽結(jié)果。

優(yōu)點:可以更好的了解內(nèi)容生態(tài)中內(nèi)容分布情況,制定合理的分類標簽體系。

缺點:時間周期長,成本高

不管方案一還是方案二,得到的都只是初版標簽體系標準(比如一二級分類體系標準),只能用做建立底層分類標簽,離標簽體系建立還有一段露要走。

當有了底層分類標簽,可以在此基礎(chǔ)上進行多維度標簽建構(gòu):

  1. 情感化標簽
  2. 風格標簽
  3. 實體標簽
  4. 概念標簽

……

多維度標簽有了,怎樣讓內(nèi)容打上這些標簽?

1. 充分調(diào)用用戶生產(chǎn)力,讓作者打標

我們都知道,豆瓣將打標的權(quán)利下放給用戶,在上傳文章、寫電影評論都可選擇或手填標簽,對于內(nèi)容平臺來說,這是一筆巨型財富。但是由于用戶能力水平有高有低,打出的標簽需要進行清洗、消歧等操作后才能使用。

一些資訊平臺、視頻平臺,作者發(fā)布文章時,也會讓作者選擇、填寫內(nèi)容標簽,比如趣頭條、B站等。

B站發(fā)文頁面

問題點:用戶手動填寫的標簽沒有統(tǒng)一標準,標簽名稱不規(guī)范,無法直接使用。筆者拉出所在公司作者手填tag,利用率也就50%-60%左右,需要人工進行標簽分類,比如篩選出實體標簽、概念標簽、風格標簽等。

2. 人工打標

作者手動填寫tag,只能作為tag體系補充的一環(huán),且利用率有限。因此,專門的標注同學、真實用戶打標,是必不可少的一環(huán),更好的保證標簽可用率與準確率。

調(diào)動用戶生產(chǎn)力,讓真實用戶打標簽,不知大家有沒有用過。把打標偽裝成用戶活動,既是用戶運營的手段,也是標簽生產(chǎn)的手段,利用用戶運營的思路來生產(chǎn)標簽,好處多多。

我們來算筆賬——

假設(shè)日活用戶1000萬,圈出100萬用戶做活動,預計每日參與活動用戶20w,真正完成答題用戶7w-8w,剔除無效數(shù)據(jù),最終可用數(shù)據(jù)可以有10w左右,平均成本可靈活調(diào)控。

如果找專人一天標注10w數(shù)據(jù),按照人效1500來算(上限值),那么就需要66個人,人力成本一天也得大幾萬。

對比來看,調(diào)動用戶生產(chǎn)力,優(yōu)勢不言而喻。

第一步:洞察用戶

  • 人口學特征:性別、年齡、職業(yè)等
  • 地理位置特征:所在城市,城市等級
  • 活躍行為特征:最近60天、30天、14天、7天等活躍天數(shù)
  • 閱讀行為特征:最近60天、30天安、14天、7天等閱讀視頻、圖文次數(shù)、時長。

通過這些不同維度的用戶數(shù)據(jù),讓你對用戶做個深度剖析,找到你需要的那部分用戶。

第二步:吸引用戶

將打標簽的項目偽裝成用戶活動,比如要進行影視劇劇名打標,可以開展一個“看視頻猜劇名”的活動。比如要進行相似圖片標注 ,可以開展一個“看圖片找不同”的活動。

怎樣做好偽裝,吸引用戶參與?

  1. 活動名稱接地氣,要點突出,直接要害
  2. 設(shè)計有看點的活動banner
  3. 做好答題頁面交互體驗設(shè)計
  4. 充分利用金幣、獎金競品激勵

第三步:服務(wù)用戶

當把用戶吸引進來之后,需要為它們做好服務(wù),提升活躍留存。

  1. 定期監(jiān)測參與活動用戶質(zhì)量,剔除羊毛黨、質(zhì)量低用戶。
  2. 制定獎懲機制
  3. 收集用戶反饋,對于有用建議及時響應(yīng)。
  4. 由于項目具有周期性,做好用戶召回(利用psuh、站內(nèi)信等手段觸達召回)

再多說一句,當把這套流程機制中臺化,可以滿足不同業(yè)務(wù)場景需求,對于用戶促活、標簽打標等具有很強的實操價值。

3. 模型訓練

常規(guī)的模型訓練流程很簡單,大致分為五個環(huán)節(jié):

標準制定→樣本標注→模型訓練→數(shù)據(jù)評測→上線

隨著業(yè)務(wù)需求增加,對于模型迭代效率要求越來越高,普通的模型訓練流程太繁瑣,需要跨部門溝通,費時費力,因此,搭建一套模型訓練自動化平臺顯得尤為重要,對于簡單的模型,可以由運營或者產(chǎn)品協(xié)調(diào)標注,快速訓練、迭代模型,提升效率。

這里簡單聊聊模型自動化訓練平臺的搭建,或有不足之處,大家一起交流學習。

平臺工具可分四大模塊:數(shù)據(jù)處理、模型訓練、數(shù)據(jù)集打分、模型對比

模塊一:數(shù)據(jù)處理(整合數(shù)據(jù)獲取、數(shù)據(jù)處理兩個小模塊)

(1)數(shù)據(jù)獲取

1)內(nèi)部獲取

  1. 來自內(nèi)部,整合已有工具,平臺加上工具跳轉(zhuǎn)入口;利用sql自行獲取想要樣本標注數(shù)據(jù)。
  2. 來自內(nèi)部,算法側(cè)提供相應(yīng)樣本標注數(shù)據(jù)

2)外部獲取

根據(jù)具體需求,制定內(nèi)容爬取方案,瞭望爬取相應(yīng)內(nèi)容(圖文、視頻、小視頻等全體裁),需要入庫,支持輸入標注平臺、眾包進行數(shù)據(jù)標注。

(2)數(shù)據(jù)處理

  1. 針對內(nèi)外部獲取的數(shù)據(jù)集,支持輸入標注平臺、眾包進行標注,輸出有效標注樣本數(shù)據(jù)集
  2. 針對眾包、標注平臺輸出的有效標注樣本數(shù)據(jù)集,需要有個樣本管理配置平臺,進行數(shù)據(jù)處理,然后將數(shù)據(jù)直接推送至對應(yīng)模型進行訓練。

模塊二:模型訓練

  1. 算法提供每個需求所需模型
  2. 選定所需模型,輸入有效標注數(shù)據(jù)集進行訓練
  3. 支持配置選擇模型參數(shù),比如,基于神經(jīng)網(wǎng)絡(luò)模型,一般可以迭代訓練輪數(shù)、學習率、網(wǎng)絡(luò)層數(shù)、向量寬度、選擇的優(yōu)化器等。
  4. 支持增量與全量任務(wù)訓練,訓練狀態(tài)可視化,便于及時掌握訓練情況
  5. 建立監(jiān)控報警機制,訓練狀態(tài)異常時觸發(fā),保證訓練狀態(tài)正常。

模塊三:數(shù)據(jù)集打分

  1. 已經(jīng)訓練完畢的模型,輸入測試集、驗證集數(shù)據(jù),輸出P\R\F1值
  2. 輸出P\R\F1值后,再次輸入人工評測數(shù)據(jù)集,輸出評測數(shù)據(jù)結(jié)果,人工離線評測,輸出準召率。

模塊四:模型對比

對于準召率達標不同版本模型進行留檔記錄,便于對比迭代前后模型效果

  • 對比維度:模型版本號、訓練完成時間、P\R\F1值、人工評測準召率等

通過作者打標、用戶打標、模型訓練等方式,輸出了各個維度內(nèi)容標簽,存儲于標簽庫中,為各業(yè)務(wù)場景提供底層數(shù)據(jù)支持。

 

本文由 @珂然 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!