AI產(chǎn)品分析(一):抖音黑科技背后的計(jì)算機(jī)視覺技術(shù)
此次準(zhǔn)備專門寫一系列的文章介紹AI產(chǎn)品,以人工智能技術(shù)相關(guān)的產(chǎn)品體驗(yàn)為主,指明其后背的核心技術(shù)關(guān)鍵詞,這是一個(gè)更加貼近工業(yè)實(shí)踐的嘗試。
首先選取爆紅大佬抖音作為第一個(gè)代表,為了更具針對(duì)性,我們只體驗(yàn)抖音基于計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)的幾項(xiàng)高大上功能,主要從該項(xiàng)功能點(diǎn)使用的基本流程、滿足的用戶需求、技術(shù)關(guān)鍵點(diǎn)及體驗(yàn)的整體感受進(jìn)行分析,希望可以加深大眾對(duì)計(jì)算機(jī)視覺技術(shù)及人工智能產(chǎn)品進(jìn)程的認(rèn)知。
抖音提供的功能很多,照片視頻都不在話下,搞笑如各式貼紙、妝容術(shù)、換頭換臉、圖像風(fēng)格遷移等,浪漫如“吹蒲公英”,嚴(yán)肅如后臺(tái)的“鑒黃”,話不多說,開始我們的體驗(yàn)吧~
1. 美丑胖瘦收放自如
不管有沒有玩過抖音,大家或多或少都在朋友圈或微博看見過如下類似的搞笑照片。所以,大家應(yīng)該就更加能理解,為什么這么多人每天活在抖音里“醉生夢死”,因?yàn)楸绕鹂嚯y的生活,這里真的比較輕松有趣對(duì)吧?
這些看似搞怪的圖片,在抖音里實(shí)現(xiàn)起來其實(shí)很簡單。
其基本流程如下:打開抖音app,點(diǎn)擊屏幕正中間的“+”按鈕,進(jìn)入照片/視頻模塊,選擇道具圖標(biāo),然后在圖標(biāo)工具庫中選中自己想要的效果,則人在畫面中的成像,就可以開始各種作妖。尤其是眼睛、眉毛、嘴巴、鼻子等臉部主要關(guān)鍵部位,可發(fā)生明顯變形,打造出各種連親媽都難以辨認(rèn)的形象。
同時(shí),在錄制小視頻的過程中,除了可以感受到臉部發(fā)生變形,同時(shí)可能還會(huì)相應(yīng)地配備一些配飾,比如:在頭頂配合靈活的“蝴蝶結(jié)小辮兒”,畫面十分生動(dòng)、形象。簡言之,體驗(yàn)的流程簡單且充滿樂趣,對(duì)于很多抖音用戶而言,他們十分樂意去探索這樣多面搞怪的自己。
如圖,是抖音道具圖標(biāo)的極小部分截圖,從中可以感受到整體功能設(shè)計(jì)呈現(xiàn)出多樣性、娛樂性、趣味性的效果。任何產(chǎn)品的功能設(shè)計(jì),其定調(diào)都緊緊圍繞著產(chǎn)品的目標(biāo)用戶,抖音主要的目標(biāo)用戶群體定位為90后追求潮流個(gè)性的年輕人,而這類人群喜歡刺激、渴望表達(dá),但又相對(duì)情緒化,所以他們具有觀看或發(fā)布新鮮內(nèi)容以打發(fā)無聊時(shí)光及獲得表達(dá)自我價(jià)值的需求。
為了更好地滿足用戶的上述需求,抖音提供變美、變丑、變瘦、變胖等功能,使得年輕人的互動(dòng)被極大地多元化,且整個(gè)操作的過程成本極其低廉、步驟也十分簡單。
同時(shí),由于抖音平臺(tái)本身的算法優(yōu)勢,功能的實(shí)時(shí)響應(yīng)性能也很優(yōu)秀,基本只要臉一進(jìn)入畫面,立馬就能實(shí)現(xiàn)拉伸和變形,用戶基本感受不到延時(shí),體驗(yàn)十分流暢。這進(jìn)一步體現(xiàn),抖音的成功,更多的是因?yàn)樗麄兩瞄L于結(jié)合技術(shù),以更輕松的方式解決年輕人的需求痛點(diǎn),抓住大部分用戶的心。
上述臉部變換的功能主要基于人臉關(guān)鍵點(diǎn)檢測技術(shù)實(shí)現(xiàn),該技術(shù)通過定位臉部關(guān)鍵部位,并在關(guān)鍵部位上對(duì)像素點(diǎn)進(jìn)行變換,達(dá)成各種不同的效果。人臉關(guān)鍵點(diǎn)檢測技術(shù)也被廣泛地應(yīng)用于直播及短視頻,如網(wǎng)易的游戲直播、YY直播等,基于該技術(shù)衍生出了很多有趣的功能,帶給用戶越來越新奇刺激的體驗(yàn)。
技術(shù)關(guān)鍵詞:人臉關(guān)鍵點(diǎn)檢測。
2. 換頭不是夢
上一項(xiàng)功能只是變形,抖音里還有更神奇的技能。如圖,為了實(shí)現(xiàn)“換頭”效果,同樣地其制作流程操作為:啟動(dòng)抖音來到拍攝頁面,選中“狗頭”或“豬頭”圖標(biāo),則畫面中自己的臉部就會(huì)被完全遮蔽。同時(shí),如果用戶眨眼或張嘴,會(huì)看到畫面中的相同部位同步變換,錄制小視頻時(shí)眨眼的豬頭十分憨萌,用來撒嬌應(yīng)該百試百靈吧,整體體驗(yàn)十分新奇。
該項(xiàng)功能進(jìn)一步提升了對(duì)年輕用戶的刺激感,因?yàn)閷?duì)某些用戶而言,他們一方面想要尋求刺激、內(nèi)心具有有強(qiáng)烈的表達(dá)自我的意愿,但同時(shí)又不可避免地想要制造一定的神秘感,或用戶本身略帶羞澀感,而這一功能正好滿足了這部分的需求。
那么,到底是基于什么樣的計(jì)算機(jī)視覺技術(shù),可如此精準(zhǔn)地定位并恰到好處地實(shí)現(xiàn)“偷梁換柱”呢?
實(shí)質(zhì)上,該項(xiàng)功能的實(shí)現(xiàn)主要應(yīng)用了圖像語義分割技術(shù)。具體地,抖音通過對(duì)人體進(jìn)行語義分割,獲得人體各個(gè)部位如頭、臉、手、腳的位置及標(biāo)簽,并通過用戶選定的工具模板,將對(duì)應(yīng)部位替換,實(shí)現(xiàn)最終的“換頭”。
相比目標(biāo)檢測而言,圖像語義分割是精確到像素點(diǎn)的分類,因而替換的過程看起來也更加地智能和精準(zhǔn),用戶體驗(yàn)更佳。但體驗(yàn)中發(fā)現(xiàn)不足的是,或許是算法分割準(zhǔn)確率的問題,嘗試張開嘴巴時(shí),隨之張開的卻不是頭像里狗的嘴巴,而是自己的血盆大口,而有些道具在使用中就不會(huì)出現(xiàn)類似情況,這可能也是當(dāng)前產(chǎn)品的一個(gè)小Bug。
技術(shù)關(guān)鍵詞:圖像語義分割。
3. 想要的風(fēng)格全都有
計(jì)算機(jī)視覺里比較熱門的圖像風(fēng)格遷移技術(shù),在抖音里也有所體現(xiàn)。
如圖所示,上述功能實(shí)現(xiàn)的流程為:啟動(dòng)抖音app進(jìn)入拍攝頁面后,在道具庫中選中白色的素描花朵圖標(biāo),隨后對(duì)輸入的鍵盤畫面即可進(jìn)行風(fēng)格的實(shí)時(shí)變換。原來低調(diào)科技風(fēng)的鍵盤,瞬間變成了漫畫素描式風(fēng)格。
同樣地,也可以實(shí)現(xiàn)對(duì)人像的風(fēng)格變換,看到自己的臉在畫面里變成“漫畫臉”,感覺也挺有意思的。
基于圖像風(fēng)格遷移,還可以實(shí)現(xiàn)妝容變換。如圖,是抖音里的一個(gè)貼紙妝的效果,通過妝容的遷移,用戶本身可能不帶妝,但清晰可見畫面中眼線、眉毛、嘴唇都被化上相應(yīng)的妝容,且效果自然貼切。同時(shí)妝容切換只需要重新點(diǎn)擊選中另一個(gè)圖標(biāo)即可,可以很好地幫助那些小仙女用戶實(shí)現(xiàn)快速變妝拍照。
該項(xiàng)功能主要是為了迎合部分追求文藝風(fēng)格的用戶,及大部分愛美女性用戶的需求。
試想若一個(gè)產(chǎn)品可以使得用戶以超低的成本,隨時(shí)體驗(yàn)自己不同風(fēng)格的美,極大地滿足用戶的虛榮心,則該產(chǎn)品的用戶黏度會(huì)越來越高。但體驗(yàn)中也有一個(gè)感受是,抖音里某些功能存在相近或冗余,比如:之前大火的所謂控雨術(shù),在體驗(yàn)中發(fā)現(xiàn)并沒有什么“控制的效果”,同時(shí)對(duì)于道具的分類也不是十分清晰,有點(diǎn)混亂,可能也是由于功能選項(xiàng)實(shí)在是太多了。
技術(shù)關(guān)鍵詞:風(fēng)格遷移。
4. 帶心愛的她去吹“蒲公英”
大家覺得程序員都是呆板、木訥的,然而抖音程序員實(shí)現(xiàn)的“蒲公英”功能卻可以說是相當(dāng)浪漫了。
如圖所示,該功能的基本流程邏輯為:啟動(dòng)抖音app來到拍攝頁面后,選中“吹蒲公英”工具圖標(biāo),畫面里就可以看到有幾株漂亮的蒲公英,用戶只需要對(duì)著屏幕,張大嘴巴做吹氣狀,則畫面里的蒲公英就會(huì)像真的蒲公英一樣四處散開,營造出一種唯美的意境。
想象一下拍攝小視頻時(shí)“吹蒲公英的現(xiàn)場”,畫面感很真實(shí),甚至于相比大自然的真實(shí)場景,更加美好。而且由于是虛幻的,蒲公英永遠(yuǎn)都吹不完,這應(yīng)該戳中了許多抖音小仙女的心。
該功能是抖音獨(dú)創(chuàng),有了它,你就可以帶心愛的她天天吹蒲公英了。
而提出該項(xiàng)功能需求點(diǎn)的初衷,一方面是為了滿足平臺(tái)用戶少女的浪漫情懷,而另一方面也是為了幫助單身男青年實(shí)現(xiàn)低成本“求偶”。同時(shí)這也進(jìn)一步強(qiáng)化了抖音音樂化、文藝化的定位和格調(diào)。
“蒲公英”功能的實(shí)現(xiàn),主要采用了人臉表情識(shí)別技術(shù)。但是在該項(xiàng)功能中,體驗(yàn)不足的是,用戶只有將人臉放置在屏幕正中間,蒲公英的吹散效果才比較好,而且通常都是檢測到動(dòng)作后,一旦觸發(fā),就會(huì)把屏幕中所有的蒲公英都吹散開,沒有辦法實(shí)現(xiàn)單獨(dú)吹某一朵蒲公英的行為??赡苁钱?dāng)前算法在實(shí)際運(yùn)用中,仍無法十分精準(zhǔn)定位和檢測的緣故吧。
不可否認(rèn),抖音的成功還在于,它通過冰冷的技術(shù),創(chuàng)造性地為用戶帶來了暖心的情懷和浪漫,這也是值得許多人工智能產(chǎn)品借鑒的一種精神。
技術(shù)關(guān)鍵詞:表情識(shí)別。
5. 時(shí)刻睜大的“鑒黃”雙眼
自直播、短視頻應(yīng)用興起后,各種監(jiān)管問題層出不窮,而對(duì)于抖音而言,用戶生成的內(nèi)容是海量的,基于此,抖音在用戶看不見的后臺(tái),采用了基于深度學(xué)習(xí)的“圖像分類”技術(shù)對(duì)用戶上傳的圖片、視頻資料進(jìn)行智能監(jiān)管。
在訓(xùn)練鑒黃系統(tǒng)的過程中,輸入如圖所示的大量訓(xùn)練數(shù)據(jù),并且這些數(shù)據(jù)都攜帶有對(duì)應(yīng)標(biāo)簽,標(biāo)簽值標(biāo)明了該圖片是否屬于黃色圖片范疇。則模型通過學(xué)習(xí)并“記住”黃色圖片的特征,并在面臨新的輸入圖片或視頻時(shí),提取相應(yīng)特征后,結(jié)合學(xué)習(xí)的經(jīng)驗(yàn)判斷,該圖片屬于屬于黃色圖片的概率,最終分類概率高于一定閾值的內(nèi)容會(huì)被標(biāo)記敏感選項(xiàng),需進(jìn)行二次分流檢測或人工鑒別。如此對(duì)圖片/視頻資料進(jìn)行分類篩選,以保證內(nèi)容的健康性。
在體驗(yàn)時(shí)也發(fā)現(xiàn),相較其它短視頻或直播類的平臺(tái),抖音的整體環(huán)境的營造以及內(nèi)容的調(diào)性相對(duì)優(yōu)良,色情、暴力及敏感內(nèi)容較少,則抖音背后強(qiáng)大的算法技術(shù)功不可沒。
抖音屬于頭條系產(chǎn)品,在算法的性能及應(yīng)用上本身就具有一定的優(yōu)勢,假以時(shí)日,一定可以推動(dòng)鑒黃算法朝著自動(dòng)化及智能化更上一層樓。
技術(shù)關(guān)鍵詞:圖像分類。
總結(jié)
綜上,我們可切實(shí)地感受到,計(jì)算機(jī)視覺技術(shù)已不僅僅停留在理論層面,而是落地到許多產(chǎn)品中,為用戶帶來了許多活力與驚喜,而且往往在落地的過程中,“腦洞”和用戶痛點(diǎn)的捕捉十分重要,因?yàn)榧夹g(shù)本身沒有溫度。
但是出色的AI產(chǎn)品人,一定懂得如何結(jié)合用戶的需求,從技術(shù)中看到無限可能,為用戶創(chuàng)造更優(yōu)秀新奇的體驗(yàn),這也是人工智能落地的核心要義所在。
人工智能正不知不覺地慢慢改變?nèi)祟惖纳?,作為?jì)算機(jī)視覺的從業(yè)或愛好者,也應(yīng)當(dāng)保持對(duì)行業(yè)產(chǎn)品動(dòng)態(tài)的持續(xù)關(guān)注~
作者:Luna,公眾號(hào):有三AI,一個(gè)專注于人工智能技術(shù)與產(chǎn)品落地的公眾號(hào),希望可以和熱愛AI的人有更深入交流,一起見證AI改變生活!
本文由 @?AI產(chǎn)品小白菜 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Pexels ,基于 CC0 協(xié)議
對(duì)刷抖音的年輕人的小小提醒:
抖音里的虛擬世界是人創(chuàng)造的,不可避免帶有人的唯心主義色彩。天行健,君子以自強(qiáng)不息。地勢坤,君子以厚德載物。本就身為普通人,更要努力奮斗。娛樂并沒有錯(cuò),但是不可以沉溺其中。
對(duì)政府的和企業(yè)的小小提醒:
如果計(jì)算機(jī)技術(shù)用于工業(yè)可以給員工帶來更多經(jīng)濟(jì)利益,我想會(huì)有更多的計(jì)算機(jī)人員為工業(yè)企業(yè)效力。我相信計(jì)算機(jī)專業(yè)人員的想象力會(huì)給政府和企業(yè)帶來巨大的經(jīng)濟(jì)效益,給他們一個(gè)試錯(cuò)的平臺(tái)和機(jī)會(huì),不久之后他們就會(huì)政府和企業(yè)大吃一驚。
對(duì)計(jì)算機(jī)專業(yè)人員的小小提醒:
人性不僅僅只有惡的一面,國民也不僅僅是實(shí)驗(yàn)的小白鼠。計(jì)算機(jī)技術(shù)只是工具,如果還懂國學(xué)的精神,自己不久就會(huì)成為家喻戶曉的大師。
換頭這個(gè)并非基于分割實(shí)現(xiàn),應(yīng)該是人臉驅(qū)動(dòng)加人臉關(guān)鍵點(diǎn),avatar技術(shù)
問一下,那個(gè)人臉慢慢變老的技術(shù)是什么?
深度學(xué)習(xí)