今日頭條:AI助力用戶推薦 (上)
眾所周知,字節(jié)跳動旗下的產品,無論是今日頭條還是抖音,均是在AI的賦能下發(fā)展的如魚得水。那么,今日頭條的精準推薦是基于AI的哪些技術?又是如何實踐的呢?本文筆者將推理出今日頭條的底層AI技術力量和對AI的具體應用,共分上下兩篇以饗讀者。
方法:
基于今日頭條用戶分享的圖像、文字及用戶標簽數(shù)據(jù),為用戶推薦潛在的好友,從而更好的為用戶做個性化推薦和精準化服務。
在獲取頭條用戶分享的圖像、文字及用戶標簽的基礎上,通過使用AI里深度學習的方法利用圖像、文字及用戶標簽數(shù)據(jù)來表達用戶興趣特征?;谶@三類特征組合,通過計算用戶之間的余弦相似度來挖掘與目標用戶興趣最相近的若干個候選用戶。
傳統(tǒng)推薦系統(tǒng)原理:
推薦系統(tǒng)最早是由Resnick和Varian于1997年提出的,通過利用電子商務網(wǎng)站向客戶提供商品信息和建議,幫助用戶決定應該購買哪些商品,模擬銷售人員協(xié)助客戶完成購買過程。
傳統(tǒng)推薦系統(tǒng)僅考慮向用戶推薦商品的相似度,或推薦相似商品的廣告等方式解決用戶的信息需求。這種推薦方式用戶需從大量的相似商品,或推薦廣告中,選擇自認為較好的商品或服務。并且是一個非常漫長的過程,且對商品或服務存在一定的信任度。
從另外一個角度分析,傳統(tǒng)推薦系統(tǒng)也只是考慮根據(jù)用戶對某類商品或服務的點擊及關注,向用戶推薦相似商品的方式來解決用戶的需求。
傳統(tǒng)推薦系統(tǒng)弊端:
另外,傳統(tǒng)推薦系統(tǒng)存在著冷啟問題,如:用戶行為數(shù)據(jù)和用戶特征數(shù)據(jù)無法獲取,如無法獲取這兩類數(shù)據(jù),系統(tǒng)便無法對用戶進行產品推薦。
社群化推薦系統(tǒng)的興起:
隨著社交網(wǎng)站的興起,社會化推薦系統(tǒng)逐漸開始流行起來,用戶購買產品的方式逐漸由傳統(tǒng)的系統(tǒng)推薦轉向好友(網(wǎng)友)推薦,更多的時候是基于同類興趣群體,或好友推薦。因為用戶類型較為近似的好友或網(wǎng)友,可能在性格愛好方面有著更多的相似性,如:教育或知識結構的相似性、性格的相似性、工作環(huán)境的相似性、生活環(huán)境的相似性等,都會在社交網(wǎng)站上找到興趣圈或朋友圈。
社會化推薦系統(tǒng)的普及:
頭條類網(wǎng)站伴隨時間的發(fā)展,逐步演化成用戶閱讀新聞資訊內容中必不可缺少的工具。傳統(tǒng)的推薦系統(tǒng),從此由內容信息推薦逐漸演化為社會化關系網(wǎng)站用戶興趣信息推薦,內容或服務信息也正演化精神層次信息需求。
如:我們在頭條上閱讀某條文章然后推薦給我們一個流行的商品或服務,我們希望將購買信息分享到微頭條里的每一個人,這也正是頭條產品社交化的重要性。
頭條將電商社交化:
傳統(tǒng)的電商不再是靠單一的賣商品或服務而存在,更多的是演化到基于社交網(wǎng)絡或微頭條的商品或服務。淘寶上的商品銷售也被證實有一部分來自于好友的推薦。
朋友圈或興趣圈推薦在社交網(wǎng)站的演化過程中扮演著越來越重要的角色,社交網(wǎng)站推薦從最初的用戶引流到新用戶活躍度、再到用戶興趣圈的形成及發(fā)展到現(xiàn)在的網(wǎng)絡社區(qū)構建及用戶關系的演化,社交化推薦系統(tǒng)是幫助用戶解決信息不對稱較好的方法,也是用戶對感興趣信息獲取的一種較好途徑和過濾垃圾信息的一種重要手段。
同時,社交化推薦系統(tǒng)改善了傳統(tǒng)推薦系統(tǒng)中用戶之間的關注度和信任度問題。
頭條用戶推薦原理:
頭條用AI算法給用戶推薦內容和商務及服務,主要根據(jù)用戶在頭條上瀏覽、評價、關注、點贊收藏和發(fā)布的文本數(shù)據(jù)、標簽數(shù)據(jù)和圖像數(shù)據(jù)之間的語義關聯(lián)來構建用戶的興趣表達,通過計算目標用戶和候選用戶之間的余弦相似度來為目標用戶推薦相同或相似的好友,進而為用戶推薦適合用戶的內容和服務。
頭條綜合推薦系統(tǒng):
社會化推薦系統(tǒng)有如下5種類型:
1. 基于內容的推薦
系統(tǒng)關鍵技術根據(jù)用戶已知的偏好、興趣等屬性或商品內容屬性相匹配,為用戶推薦好友或感興趣商品,該推薦技術已經(jīng)用運用于很多領域。
2. 協(xié)同過濾推薦
協(xié)同過濾推薦技術主要通過系統(tǒng)識別擁有相同或相似興趣和偏好的用戶,并為用戶進行推薦。
3. 基于人口統(tǒng)計的推薦
一般是將用戶按其個人屬性(如:性別,年齡,教育背景,居住地,語言等)進行分類,將以上結果做為推薦的基礎,對用戶進行興趣匹配及廣告推薦。
4. 基于領域知識的推薦
一般是基于某個領域的圖推論或是本體構建來對用戶的需求或興趣偏好進行匹配。
5. 混合推薦
將上述的各種推薦系統(tǒng)利用技術手段組合起來,充分發(fā)揮各推薦系統(tǒng)的優(yōu)點,規(guī)避其缺點。在一定程度上提高了推薦效果自從推薦系統(tǒng)問世,就運用到各種領域——如:用戶、書籍、購物、新聞、美食等;
例如:頭條通過利用基于內容的推薦技術設計了一個購物推薦系統(tǒng),采用詞袋模型構建用戶的興趣偏好,根據(jù)用戶對商品的歷史購買或瀏覽行為信息,建立用戶的特征向量,然后根據(jù)用戶的特征向量和商品的內容的匹配程度為用戶推薦新的商品。
6. 頭條用AI技術做好友推薦系統(tǒng)
好友推薦的目的是:讓用戶更便捷的找到熟悉或興趣相似的好友,使得用戶的社交網(wǎng)絡結構也更加真實可信。
用戶找到好友的途徑主要通過好友發(fā)布的各種信息,如:評論信息、用戶標簽、圖像等。
目前,頭條社交網(wǎng)絡好友推薦用到了文本或圖像信息:
通過對用戶微頭條、社交關系和地理位置三類數(shù)據(jù)進行融合來為用戶做好友推薦;
運用微頭條的標簽與社會標注系統(tǒng)中的標簽區(qū)別,通過利用向量空間模型使頭條中用戶產生的標簽向量描述用戶興趣,然后將頭條用戶的興趣發(fā)現(xiàn)問題看做是對用戶進行標簽的推薦,例如用TagRank方法,通過計算標簽的重要度對標簽重新排序實現(xiàn)對頭條用戶的興趣推薦。
還運用了一種基于人臉圖像的好友推薦系統(tǒng),該圖像推薦系統(tǒng)根據(jù)用戶選擇比較感興趣或關注的人臉圖像對用戶進行好友推薦,這種基于好友的推薦系統(tǒng)主要是提取人臉顏色特征、結構特征和紋理特征來建立用戶的外貌偏好對用戶進行了好友推薦。
7. 用戶興趣組合推薦產品架構
用戶推薦流程如下圖:
今日頭條已經(jīng)充分利用用戶發(fā)布的圖像、文章和用戶標簽數(shù)據(jù)等信息,找到了較為有效的用戶興趣表示方法。換言之,用戶興趣識別結果是基于圖像、文章和用戶標簽融合的。
因此,首要任務是獲取頭條用戶發(fā)布的圖像、文章及用戶興趣標簽數(shù)據(jù),并對這些數(shù)據(jù)進行預處理;然后,提取圖像語義特征、文章語義特征和用戶標簽特征,并通過以上三種特征的組合,得到多模態(tài)的用戶興趣表達;最后,通過計算不同用戶之間興趣表達的余弦相似度,選擇最相似的Top-N個用戶推薦給目標用戶。
用戶興趣推薦表示和推薦方法:
用戶興趣推薦是為今日頭條中的某個用戶u∈ U 推薦與其興趣相似的用戶集合U’? U 。
本文筆者LineLian將用戶興趣推薦轉化為一個用戶興趣表示問題——即首先將任意用戶u∈ U 轉化為興趣空間中的高維特征向量 v ,然后在高維特征空間中根據(jù)興趣向量的余弦距離獲得與用戶 u 的興趣特征向量最接近的 k 個特征向量,這些特征向量對應的用戶則為推薦用戶集合U’。
基于余弦相似度的用戶興趣推薦主要有兩個核心步驟:
- 構建特征空間;
- 在特征空間中計算用戶興趣特征向量的相似度。
以下分別對這兩個步驟進行詳細說明:
(1) 構建特征空間本質上是尋找某個特征映射函數(shù) f ,使得該函數(shù)能夠將用戶 u 映射為高維興趣特征空間中的點v ——即 f ( u)→v ,v 也可以稱為用戶 u 在興趣特征空間中的特征向量。
考慮到今日頭條中存在三種不同模態(tài)的信息能夠表征用戶興趣——即頭條圖像、文章和用戶標簽,因此得出一個頭條基于多模數(shù)據(jù)的用戶興趣表征方法。
記用戶 u=[Iimg, Itext, Itag] ,其中 Iimg、Itext、Itag分別對應圖像、文章和用戶標簽三種信息。
- 對于圖像信息 Iimg,LineLian在ImageNet數(shù)據(jù)集上預訓練好的ResNet模型提取圖像中包含的語義作為圖像特征向量——即 vimg=fResNet(Iimg) ;
- 對于文本信息 Itext,LineLian利用在百度百科上預訓練好的Word2Vec模型,通過計算文章中的詞向量平均值作為文本特征向量——即 vtext=Avg(fWord2Vec( I)text) ;
- 對于用戶標簽信息 Itag,可以利用向量空間模型將標簽信息表示為特征向量,即 vtag=fVSM(Itag) 。
最終,用戶的興趣特征向量可以表示為多模向量的組合:
v=fResNet+Word2Vec+VSM( I)img, Itext, Itag=[vimg, vtext, vtag]
(2) 在特征空間中,計算用戶興趣特征向量相似度,實際上就是:選擇合適的數(shù)學計算方法估計特征向量之間的相似度??梢酝ㄟ^計算目標用戶與候選用戶集多模興趣,表達的余弦相似度表示用戶間的相似程度,然后根據(jù)用戶之間的相似度對候選用戶集進行排序,最后將TopN個候選用戶推薦給目標用戶。
余弦相似度的計算方法如下:
sim( v)i,vj=cos( v)i,vj=vi? vj|v|i×|v|j=∑aN( v)ia? vja∑aN( v)ia2× ∑aN( v)ja2
為了更加精細的研究各個模態(tài)特征權重對整個推薦方法的貢獻,可以對各個模態(tài)表達的相似度進行加權如公式如下:
coefficient=∑i∈ Csim(i)×ratio(i)
其中,coefficient為推薦系數(shù),C={文章,標簽,圖像},sim(i)分別表示用戶之間的文本、標簽和圖像相似度,ration(i)分別表示用戶之間的文本、標簽和圖像相似度綜合推薦時所占的比重??梢岳镁W(wǎng)格搜索的方法來探究最佳的權重 ratioi,其中 ratioi∈ [0,1] ,網(wǎng)格搜索的步長為0.1。
總結:
作為智能數(shù)據(jù)推薦,或者AI產品經(jīng)理,在今日頭條用戶關系推薦系統(tǒng)中要明白:
- 推薦系統(tǒng)的歷史成因。
- 推薦模型算法是包含多種其中有Bow /Word2vec/Nesnet等。
- 數(shù)據(jù)包含文本、圖像、標簽、社交網(wǎng)絡數(shù)據(jù)、微數(shù)據(jù)等是是一種糧食來支撐AI神經(jīng)網(wǎng)絡的搭建和運算。
- AI產品經(jīng)理在今日頭條AI助力用戶推薦上篇中明白產品做得是協(xié)調好數(shù)據(jù)、配合算法建模求解、優(yōu)化。
如果你想系統(tǒng)化入門AI產品經(jīng)理,掌握AI產品經(jīng)理的落地工作方法,戳這里>http://996.pm/7bjab
#專欄作家#
連詩路,公眾號:LineLian。人人都是產品經(jīng)理專欄作家,《產品進化論:AI+時代產品經(jīng)理的思維方法》一書作者,前阿里產品專家,希望與創(chuàng)業(yè)者多多交流。
本文原創(chuàng)發(fā)布于人人都是產品經(jīng)理。未經(jīng)許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
花了5K大洋爭取到機會跟LineLian老師交流AI產品三視圖 正視 側視和 俯視來看人工智能產品,受益良多,老師不僅是AI技術和產品設計和算法邏輯清晰,更多的是指導我們做產品的一種綜合素質極高的模式
……