為了讀懂你,AI究竟有多努力?

1 評(píng)論 4959 瀏覽 16 收藏 17 分鐘

為了讀懂人類語(yǔ)言表達(dá)的意思以及捕捉文字背后的情感,人工智能的對(duì)話系統(tǒng)都進(jìn)行了哪些改進(jìn)與發(fā)展呢?本文將以此為題展開分析說(shuō)明。

今天我們不聊算法,也不聊數(shù)學(xué),寫一篇人人都能看懂的小學(xué)生作文。

01

1966年,來(lái)自麻省理工學(xué)院的計(jì)算機(jī)科學(xué)家Joseph Weizenbaum發(fā)布了一款名為“ELIZA”的聊天機(jī)器人。Eliza 的知識(shí)范圍有限,只能和特定領(lǐng)域的人聊天。但是在Eliza 剛出現(xiàn)時(shí),很多用戶認(rèn)為他們是在和真人對(duì)話。注意看以下這段對(duì)話:

?從以上對(duì)話來(lái)看,很難不被認(rèn)為是一名已婚婦女在向她的心理醫(yī)生大吐苦水,沒(méi)有人會(huì)認(rèn)為這是一次人機(jī)交互的對(duì)話。但實(shí)際上,ELIZA并沒(méi)有嘗試去理解用戶的輸入是什么意思。

如果你細(xì)心看對(duì)話的內(nèi)容你會(huì)發(fā)現(xiàn),ELIZA經(jīng)常在復(fù)述用戶說(shuō)過(guò)的單詞。它的實(shí)現(xiàn)方式很聰明,主要是采用一種“將計(jì)就計(jì)”的策略,將用戶的陳述重新表達(dá)為問(wèn)題并返回給用戶。

盡管這些對(duì)話都是通過(guò)規(guī)則匹配方式實(shí)現(xiàn)的,但是一些巧妙的關(guān)鍵詞提取可以讓它比較自然地接話,讓用戶覺(jué)得眼前的這個(gè)“人”具有共情能力。ELIZA甚至被用來(lái)假冒過(guò)心理醫(yī)生,并且有許多和它對(duì)話過(guò)的人都不相信這只是一個(gè)程序。

在我看來(lái),雖然ELIZA只是渾水摸魚,重復(fù)敘述者所說(shuō)的內(nèi)容,但是它的出現(xiàn),對(duì)后續(xù)聊天機(jī)器人的設(shè)計(jì)思路有很大的啟發(fā)。通過(guò)規(guī)則匹配不能讓機(jī)器人很好地引導(dǎo)交互對(duì)話,但是卻能夠滿足任務(wù)式對(duì)話的需要。

時(shí)間來(lái)到了1995年,一名叫Richard S. Wallace的科學(xué)家觀察到一個(gè)現(xiàn)象。他發(fā)現(xiàn)組成人們?nèi)粘U勗捴黝}的句子不過(guò)幾千句,如果他做一個(gè)對(duì)話機(jī)器人,想要覆蓋所有的日常用語(yǔ),甚至包括一些不常用的話語(yǔ),大概只需要4萬(wàn)個(gè)回答就足夠了。只要將這些問(wèn)答結(jié)果全部輸入到程序中,那么它就可以回應(yīng)95%以上的日常對(duì)話了。

說(shuō)干就干, 于是誕生了一款名為“ALICE”的聊天機(jī)器人。我們看看這款機(jī)器人的對(duì)話過(guò)程:

這次的對(duì)話就更加像是兩個(gè)真人之間的交流了,而且也看不到ALICE在復(fù)述對(duì)話者的內(nèi)容,而是嘗試與之交談,甚至在言語(yǔ)中透露出一點(diǎn)小個(gè)性出來(lái)。

ALICE就像是ELIZA的加強(qiáng)版,使用更大的語(yǔ)料庫(kù),使用更先進(jìn)的關(guān)鍵詞匹配技術(shù),甚至是好幾個(gè)答案對(duì)應(yīng)一個(gè)問(wèn)題,可以隨機(jī)顯示或者根據(jù)邏輯判斷,選出合適的答案。這樣就顯得回答不會(huì)那么死板,更像是真人之間的交流。實(shí)現(xiàn)思路雖然很簡(jiǎn)單,但這種方式已經(jīng)能夠滿足大多數(shù)任務(wù)型對(duì)話的場(chǎng)景。

自從蘋果公司在2011年發(fā)布Siri以后,多個(gè)智能個(gè)人助理(IPA)出現(xiàn)并且進(jìn)入市場(chǎng),比如谷歌助手、微軟的Cortana以及亞馬遜的Alexa等等。

除了物料庫(kù)、匹配邏輯的進(jìn)一步升級(jí)以外,這類個(gè)人助理還可以訪問(wèn)手機(jī)里的多個(gè)數(shù)據(jù)源,如音樂(lè)、電影、日歷、電子郵箱和個(gè)人資料。因此它們可以提供不同場(chǎng)景下的大量服務(wù),例如播放音樂(lè)、查天氣、撥打電話、發(fā)短信等等,都是這類IPA的基操。

雖然以上對(duì)話看起來(lái)已經(jīng)很智能了,但總覺(jué)得差了點(diǎn)什么。Siri僅僅是在接收指令,然后給出反饋,其實(shí)也沒(méi)有理解我們?cè)谡f(shuō)什么,甚至很難去分析我們的要求。

當(dāng)我詢問(wèn)Siri最近有什么好看的電影時(shí),它沒(méi)辦法直接回答,只能根據(jù)我的問(wèn)題到網(wǎng)路上檢索然后反饋結(jié)果。雖然這種交互已經(jīng)能夠滿足我們?nèi)粘4蟛糠秩蝿?wù)式對(duì)話,但是距離我們所想的“智能”好像還是有一些距離。

02

為什么讓機(jī)器理解語(yǔ)言這么難?主要是因?yàn)橐韵聝煞矫娴脑颍?/p>

1.一方面是因?yàn)檎Z(yǔ)言的規(guī)律錯(cuò)綜復(fù)雜,不是用簡(jiǎn)單的統(tǒng)計(jì)就可以計(jì)算出概率的。不同的語(yǔ)言之間語(yǔ)法結(jié)構(gòu)不用,并且同一種語(yǔ)言對(duì)于同一個(gè)意思有不同的表達(dá)方式,同一個(gè)表達(dá)也可能有不同的理解。我們?nèi)ソ⒁粋€(gè)語(yǔ)料庫(kù)相當(dāng)于重新為人類語(yǔ)言建立一個(gè)百科全書,工作量十分巨大;

2.另一個(gè)方面的原因是使用語(yǔ)言有特定的語(yǔ)境。語(yǔ)言是在特定的環(huán)境中,為了生活的需要而產(chǎn)生的,所以特定的環(huán)境必然會(huì)在語(yǔ)言上打上特定的烙印。

例如“百度”原本是一家企業(yè)的名字,但是經(jīng)過(guò)該企業(yè)的市場(chǎng)教育后,大家想說(shuō)“搜索一下”時(shí),很自然就說(shuō)成了“百度一下”。這時(shí)候這個(gè)名詞就賦予了一個(gè)新的特定動(dòng)作,這些都是讓計(jì)算機(jī)難以理解的表達(dá)方式。

以上原因都說(shuō)明,僅僅讓計(jì)算機(jī)能夠理解人類的語(yǔ)言已經(jīng)是一件非常具有挑戰(zhàn)性的事情。如果我們用統(tǒng)計(jì)的方式去實(shí)現(xiàn)“理解”,讓計(jì)算機(jī)通過(guò)配對(duì)的方式計(jì)算適合輸出的語(yǔ)句,由于語(yǔ)言的不規(guī)律性和組合性會(huì)產(chǎn)生非常多的組合方式,顯然是不太現(xiàn)實(shí)的。

計(jì)算機(jī)能夠做的事情就是將語(yǔ)言通過(guò)數(shù)學(xué)的形式表現(xiàn)出來(lái)。但是到目前為止,語(yǔ)言的組合到底能不能用數(shù)學(xué)模型去刻畫還沒(méi)有一個(gè)清晰的答案。

自然語(yǔ)言本身是人類對(duì)世界各種具象以及抽象事物以及事物之間的聯(lián)系和變化的一套完整的符號(hào)化描述,它是簡(jiǎn)化了底層物理感知的世界模型。這意味著自然語(yǔ)言處理的輸入是離散的抽象符號(hào),它直接跳過(guò)了計(jì)算機(jī)感知世界的過(guò)程,直接關(guān)注以現(xiàn)實(shí)世界為依托的各種抽象概念、語(yǔ)義和邏輯推理。

人工智能的終極挑戰(zhàn)是理解人類的語(yǔ)言,因此我們需要?jiǎng)?chuàng)造更接近人類大腦思考方式的模型才能模擬語(yǔ)言如何表達(dá)。同時(shí)也因?yàn)檫@個(gè)原因,自然形成了自然語(yǔ)言處理這個(gè)領(lǐng)域。我們稱之為自然語(yǔ)言處理而不是自然語(yǔ)言理解,因?yàn)檎嬲龅阶層?jì)算機(jī)理解語(yǔ)言實(shí)在是太困難。

03

雖然要“理解語(yǔ)言”比較困難,但如果只是想“處理語(yǔ)言”,還是有方法的。

目前業(yè)界主流處理語(yǔ)言的方法是:循環(huán)神經(jīng)網(wǎng)絡(luò)+長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(RNN+LSTM),此處不展開討論算法的原理,感興趣的同學(xué)買一本《100個(gè)案例搞懂人工智能》看看。

這套解決方案,主要是為了解決上述提到的語(yǔ)境與語(yǔ)言規(guī)律性的問(wèn)題?;叵胛覀兂踔凶鲇⒄Z(yǔ)考試的時(shí)候,肯定也遇到過(guò)這種情況,幾個(gè)單詞可能不認(rèn)識(shí),但是聯(lián)系上下文看就能理解這句話大概是什么意思了。LSTM就是這樣的設(shè)計(jì)思路,讓算法能夠結(jié)合上下文的語(yǔ)境去判斷這句話是在說(shuō)什么。

關(guān)于LSTM的原理,在知乎上天雨栗同學(xué)的解釋非常直觀,我給大家簡(jiǎn)單理一理。拿一個(gè)簡(jiǎn)單的情感分類問(wèn)題為例:

比如這句話,我們?nèi)サ舫R姷耐S迷~以后,這句話里:

  • 正面詞匯:“好”x2、“喜歡”x1,共3個(gè);
  • 負(fù)面詞匯:“沒(méi)有”x1、“不”x1,共2個(gè);

由于句子中正面詞匯更多,所以機(jī)器會(huì)更加傾向判斷這句話傳遞的是積極情感,但實(shí)際上這句話表達(dá)的是負(fù)面情感,句中兩個(gè)“好”前面都有“沒(méi)有”去否定,“喜歡”前面也有“不”去否定,但是普通的算法捕抓不到這種關(guān)系,所以需要借助LSTM,那它具體是怎么做的呢?

由于LSTM存在傳遞關(guān)系,如圖中LSTM中連接的箭頭所示,它能夠捕抓到這種否定關(guān)系,從而輸出正確的情感系數(shù),所以它對(duì)語(yǔ)言的“處理”能力更勝一籌。

靠著LSTM這個(gè)利器,自然語(yǔ)言處理的準(zhǔn)確度比以往上升了一大截。這個(gè)進(jìn)步就像是小孩子在剛開始學(xué)習(xí)語(yǔ)言的時(shí)候,只會(huì)一個(gè)單詞一個(gè)單詞的咿呀學(xué)語(yǔ),現(xiàn)在積累多了長(zhǎng)大了以后,已經(jīng)學(xué)會(huì)了閱讀一整句話的意思。那么機(jī)器在理解用戶意圖的時(shí)候,會(huì)更加完整,作出的判斷也會(huì)更加智能。

04

做到這一步,還沒(méi)完。開發(fā)能夠與人類進(jìn)行共情對(duì)話的機(jī)器人,是人工智能領(lǐng)域最長(zhǎng)久的目標(biāo)之一。上述所有對(duì)話系統(tǒng)的設(shè)計(jì)目的,都是在對(duì)話中模仿人類的行為。

雖然這些系統(tǒng)在商業(yè)使用上也算成功,但它們大多數(shù)基于人工編寫的規(guī)則,僅能在有特定限制條件的環(huán)境下才能表現(xiàn)良好,說(shuō)白了Siri只能處理手機(jī)事物相關(guān)的問(wèn)題,沒(méi)辦法回答淘寶訂單退貨怎么處理;而所謂的智能音響,也只是幫你轉(zhuǎn)譯語(yǔ)音指令而已。

能進(jìn)行開放域聊天的社交聊天機(jī)器人,一直以來(lái)都是一個(gè)難以企及的目標(biāo)。但近幾年情況有所轉(zhuǎn)變,特別是微軟小冰的出現(xiàn)。

小冰的主要設(shè)計(jì)目標(biāo)是成為能與用戶形成長(zhǎng)期情感聯(lián)系的AI伴侶。作為一款能進(jìn)行開放域聊天的社交聊天機(jī)器人,能與人類用戶建立這樣的長(zhǎng)期關(guān)系的能力使小冰不僅有別于早期的社交聊天機(jī)器人,而且也不同于Siri這類任務(wù)型個(gè)人助理。

上圖展示了一位用戶與小冰在兩個(gè)月時(shí)間里建立感情聯(lián)系的過(guò)程片段。

該用戶與小冰第一次會(huì)話時(shí),探討了小冰的功能與特性;

兩周后,這位用戶開始和小冰討論他的興趣愛(ài)好;

四周后,他開始將小冰當(dāng)成朋友,并且詢問(wèn)她與現(xiàn)實(shí)生活相關(guān)的問(wèn)題;

七周后,小冰就像他的女朋友一樣,成為了他生活的陪伴者。

雖然看起來(lái)是個(gè)宅男孤獨(dú)終老的悲傷故事,但這個(gè)對(duì)話過(guò)程展現(xiàn)了小冰強(qiáng)大的對(duì)話技巧。不但智商高,俏皮可愛(ài),而且有很強(qiáng)的共情能力。在與話者情緒比較低落的時(shí)候,會(huì)主動(dòng)安慰他,甚至?xí)鲃?dòng)挑起一些話題,提高與話者對(duì)話的欲望。

翻閱了小冰團(tuán)隊(duì)發(fā)布的論文后發(fā)現(xiàn),小冰是基于一個(gè)共情計(jì)算框架開發(fā)的。這個(gè)框架能夠讓小冰有能力動(dòng)態(tài)地識(shí)別人類的感受和狀態(tài),理解用戶意圖并且響應(yīng)用戶的需求。也就是說(shuō),小冰除了“智商”的建設(shè)以外,還注重“情商”和“個(gè)性”的建設(shè)。

情商建設(shè)的關(guān)鍵點(diǎn)在于共情能力和社會(huì)技能的建設(shè)。

共情能力是指站在對(duì)方立場(chǎng)上理解、感受他心理的能力,也就是我們常說(shuō)的換位思考。具備共情能力的小冰,需要從對(duì)話中識(shí)別用戶的情緒、檢測(cè)情緒的變化、理解用戶的情感需求,根據(jù)這些數(shù)據(jù)建立用戶檔案,動(dòng)態(tài)跟蹤用戶情緒的變化。

社會(huì)技能說(shuō)白了就是“會(huì)聊天”,向北方同學(xué)學(xué)習(xí)嘮嗑。在上面的對(duì)話片段中,小冰給出了具有幽默感、會(huì)安慰人的社交技巧,并且能夠判斷是否將對(duì)話推向另一個(gè)話題,或者主動(dòng)保持傾聽。

這里也強(qiáng)烈建議國(guó)內(nèi)某些經(jīng)常被吐槽的“智能客服”趕緊增加共情能力的建設(shè),別在用戶氣沖沖反饋問(wèn)題的時(shí)候只會(huì)傻乎乎回答“抱歉,客服正忙,請(qǐng)稍候”。(雖然轉(zhuǎn)到人工客服很多時(shí)候也沒(méi)什么用)

對(duì)個(gè)性的定義是特有的行為、認(rèn)知和情緒模式的集合。這句話聽起來(lái)有點(diǎn)繞,簡(jiǎn)單理解就是要展現(xiàn)出來(lái)比較統(tǒng)一的人設(shè),不要今天讓與話者感覺(jué)是鄰家知心大姐姐,明天又感覺(jué)像是懵懂的初中生。

小冰的角色設(shè)定是18歲的女孩,她總是很可靠、富有同情心、還有一些幽默感。盡管她的知識(shí)非常淵博,但她從來(lái)不會(huì)表現(xiàn)得自負(fù),只會(huì)在適當(dāng)?shù)臅r(shí)候展示自己的機(jī)智和創(chuàng)造力。

比如上述例子中,對(duì)話片段20里小冰機(jī)智地回答了某些敏感問(wèn)題,然后巧妙地將話題轉(zhuǎn)向了對(duì)雙方都更合適的新話題。各位宅男以后不知道怎么跟女生聊天的時(shí)候,不妨向小冰學(xué)習(xí)學(xué)習(xí)。

除了智商、情商、個(gè)性的建設(shè)以外,小冰還有很多精妙的設(shè)計(jì),例如社交聊天的分層決策,選取不同的技能來(lái)處理不同類型的對(duì)話模式等等。從收集到的數(shù)據(jù)來(lái)看,小冰已經(jīng)有能力解讀用戶的情感需求,并能像一個(gè)可靠、有情感共鳴和善解人意的朋友那樣參與到人際交流中。

以上對(duì)話系統(tǒng)的發(fā)展過(guò)程,也是人工智能行業(yè)發(fā)展的一個(gè)縮影,從不那么智能,到一點(diǎn)一點(diǎn)的智能匯集,走過(guò)了漫長(zhǎng)的道路。雖然不快,但這條路走得踏實(shí)。

#專欄作家#

阿翹,微信公眾號(hào):阿翹AKIU。平安科技資深產(chǎn)品經(jīng)理,《產(chǎn)品經(jīng)理進(jìn)階:100個(gè)案例搞懂人工智能》作者;擅長(zhǎng)人工智能技術(shù)在金融領(lǐng)域的商業(yè)化應(yīng)用,實(shí)踐經(jīng)驗(yàn)豐富,對(duì)產(chǎn)品設(shè)計(jì)方法論有深入洞察。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,不得轉(zhuǎn)載。

題圖來(lái)自 Pixabay,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大佬,我轉(zhuǎn)到朋友圈可以嗎 ?

    來(lái)自北京 回復(fù)