如何評(píng)測(cè)一個(gè)智能對(duì)話系統(tǒng)(一)

2 評(píng)論 8089 瀏覽 31 收藏 9 分鐘

本文從對(duì)話系統(tǒng)的分類介紹與評(píng)測(cè)目標(biāo)進(jìn)行分析,解釋了如何評(píng)測(cè)一個(gè)智能對(duì)話系統(tǒng)。

自然語(yǔ)言對(duì)話作為新一代的人機(jī)交互媒介,已經(jīng)創(chuàng)建了廣泛的應(yīng)用程序。長(zhǎng)期以來(lái),研究人員一直在探索機(jī)器產(chǎn)生自然回復(fù)的不同方法,包括基于檢索的回復(fù),端到端的生成回復(fù),以及問(wèn)答和推薦系統(tǒng)。 從智能家居設(shè)備到智能電話助手,從客戶服務(wù)到情感陪伴,我們周圍已經(jīng)出現(xiàn)了各式各樣的聊天機(jī)器人。 然而,智能對(duì)話系統(tǒng)的表現(xiàn)往往因不同的應(yīng)用場(chǎng)景和目標(biāo)而異,因此行業(yè)內(nèi)一直都沒(méi)有一個(gè)統(tǒng)一的對(duì)話質(zhì)量評(píng)測(cè)標(biāo)準(zhǔn)。

近年來(lái),“如何評(píng)測(cè)一個(gè)智能對(duì)話系統(tǒng)”這個(gè)開(kāi)放的問(wèn)題引起了相關(guān)領(lǐng)域研究人員的極大關(guān)注。在過(guò)去的幾年時(shí)間里,我一直致力于探索智能對(duì)話系統(tǒng)的評(píng)測(cè)方法。由我設(shè)計(jì)的對(duì)話評(píng)測(cè)方法已經(jīng)在多款智能對(duì)話產(chǎn)品上得到驗(yàn)證,有效推動(dòng)了產(chǎn)品的持續(xù)優(yōu)化和迭代。與此同時(shí),該評(píng)測(cè)方法被nlpcc2019選為開(kāi)放域?qū)υ捪到y(tǒng)競(jìng)賽的評(píng)測(cè)標(biāo)準(zhǔn),受到了領(lǐng)域?qū)<业恼J(rèn)可。

那么,對(duì)于這樣一個(gè)看似無(wú)解的問(wèn)題,我是如何著手進(jìn)行設(shè)計(jì)的呢?

首先,對(duì)話評(píng)測(cè)是一個(gè)非常大的概念,它涉及到很多不同領(lǐng)域的知識(shí),而且非常的主觀,無(wú)法用一個(gè)統(tǒng)一的標(biāo)準(zhǔn)評(píng)判。說(shuō)白了,這個(gè)問(wèn)題就是在評(píng)價(jià)一個(gè)人說(shuō)話的水平,只不過(guò)被評(píng)價(jià)的對(duì)象是一個(gè)機(jī)器人。但是,這個(gè)事情也不是完全無(wú)章可循。我們可以通過(guò)聚焦和拆解的方法把這個(gè)大問(wèn)題分成多個(gè)可量化的小問(wèn)題。

想要有效的評(píng)測(cè)一個(gè)對(duì)話系統(tǒng),我們首先要知道被評(píng)測(cè)對(duì)話系統(tǒng)的目標(biāo)是什么。換句話說(shuō),就是我們期待對(duì)話系統(tǒng)給我們帶來(lái)什么樣的價(jià)值。只要明確了目標(biāo),我們就可以圍繞目標(biāo)建立標(biāo)準(zhǔn),再通過(guò)標(biāo)準(zhǔn)引伸出評(píng)測(cè)的方法。

智能對(duì)話系統(tǒng)的分類

談到對(duì)話系統(tǒng)的目標(biāo),就不得不提及對(duì)話系統(tǒng)的分類。一般來(lái)說(shuō),人機(jī)交互的對(duì)話場(chǎng)景一共分為三大類別,分別是任務(wù)類對(duì)話,問(wèn)答類對(duì)話,和閑聊類對(duì)話。這是目前業(yè)界比較公認(rèn)的方法,其依據(jù)是這三類對(duì)話系統(tǒng)背后所運(yùn)用到的核心技術(shù)與實(shí)現(xiàn)方法截然不同。

不過(guò),在真實(shí)的應(yīng)用場(chǎng)景中,幾乎每款對(duì)話類產(chǎn)品都同時(shí)具備了上述提到的至少兩類對(duì)話系統(tǒng)的特征。目前市面上的對(duì)話系統(tǒng)往往同時(shí)具備解決任務(wù)的能力,回答問(wèn)題的能力和閑聊的能力。因此我們不能單純的以這樣的分類方式為對(duì)話系統(tǒng)分別設(shè)計(jì)評(píng)測(cè)方法,而是應(yīng)該跳出技術(shù)的實(shí)現(xiàn)框架,從應(yīng)用的角度尋找所有智能對(duì)話系統(tǒng)共同存在的特征,并以這些特征作為考量條件去設(shè)計(jì)評(píng)測(cè)方法。我將這些特征總結(jié)為對(duì)話系統(tǒng)的對(duì)話情境,對(duì)話場(chǎng)景以及對(duì)話目的。

智能對(duì)話評(píng)測(cè)的考量條件

對(duì)話情境-上下文內(nèi)容

在對(duì)話系統(tǒng)中,回答內(nèi)容的好壞與其上文的內(nèi)容有著直接的關(guān)聯(lián),在評(píng)價(jià)回答內(nèi)容的時(shí)候,最主要的一個(gè)限制條件就是上文問(wèn)題的內(nèi)容。在評(píng)判一個(gè)對(duì)話系統(tǒng)生成答案好與壞的時(shí)候,測(cè)試者需要結(jié)合上文的內(nèi)容才能對(duì)答案作出比較公正和正確的判斷。這當(dāng)中不僅需要判斷當(dāng)前對(duì)話內(nèi)容的質(zhì)量,還涉及到對(duì)話所表達(dá)內(nèi)容邏輯的一致性與情感的合理性。上下文內(nèi)容對(duì)于多輪對(duì)話的生成起著至關(guān)重要的影響。一組對(duì)話內(nèi)容被放在不同的對(duì)話情境下會(huì)表現(xiàn)出皆然不同的效果。因此,在對(duì)一組對(duì)話內(nèi)容進(jìn)行評(píng)測(cè)時(shí),有必要充分理解其所在的對(duì)話情境。

對(duì)話場(chǎng)景 – 機(jī)器人扮演的角色

在不同的應(yīng)用場(chǎng)景下,對(duì)話系統(tǒng)需要扮演不同的角色以實(shí)現(xiàn)用戶特定的需求和意愿。目前比較主流的應(yīng)用場(chǎng)景包括家庭場(chǎng)景,早教場(chǎng)景,客服場(chǎng)景和車載場(chǎng)景。一個(gè)特定的場(chǎng)景下的對(duì)話內(nèi)容,總是包含特定的術(shù)語(yǔ)或套路,以及相關(guān)領(lǐng)域的知識(shí)庫(kù)或知識(shí)圖譜。這一類的對(duì)話往往可以返回一些約定俗成的回答或解決方案。在對(duì)對(duì)話系統(tǒng)進(jìn)行判定之前,測(cè)試人需要通過(guò)想象力將自己置身于該場(chǎng)景中。理解對(duì)話系統(tǒng)所嘗試扮演的角色,能夠幫助我們更加客觀的對(duì)其進(jìn)行評(píng)測(cè)。

對(duì)話目的 – 話題與意圖

在現(xiàn)實(shí)生活中,人與人的自然語(yǔ)言對(duì)話可分為兩大類,即有目的的對(duì)話和無(wú)目的的對(duì)話。有目的的對(duì)話可以根據(jù)提問(wèn)者或主動(dòng)發(fā)起對(duì)話者來(lái)引導(dǎo)當(dāng)前對(duì)話的目的。在對(duì)話結(jié)束時(shí),我們可以通過(guò)判斷對(duì)話目的是否達(dá)成而判斷對(duì)話的質(zhì)量。事實(shí)上,在實(shí)際對(duì)話過(guò)程中,對(duì)話的目的并不總是能夠被清晰的定義。在對(duì)話評(píng)測(cè)時(shí),我們不能只關(guān)心有明確目的的對(duì)話,而忽略無(wú)目的的對(duì)話。在無(wú)目的的對(duì)話內(nèi)容中依然會(huì)有信息的傳遞,和情感的交互。因此,無(wú)論對(duì)話內(nèi)容是否有明確的話題和意圖,我們都應(yīng)該關(guān)注其傳達(dá)的信息和情感。

對(duì)話系統(tǒng)的評(píng)測(cè)目標(biāo)

上文所描述的這些對(duì)話系統(tǒng)通用的考量條件,就是我們?cè)u(píng)判一個(gè)智能對(duì)話系統(tǒng)的先覺(jué)條件。當(dāng)明確了評(píng)判條件以后,我們就能給一組對(duì)話內(nèi)容進(jìn)行定義,以此來(lái)對(duì)一個(gè)智能對(duì)話系統(tǒng)進(jìn)行評(píng)測(cè)。

首先好的對(duì)話內(nèi)容應(yīng)該是符合語(yǔ)義情境的,上下文內(nèi)容應(yīng)該是緊密關(guān)聯(lián)的,并且是邏輯自洽的。接下來(lái),好的對(duì)話內(nèi)容應(yīng)該可以滿足特定的應(yīng)用場(chǎng)景,對(duì)話的內(nèi)容表達(dá)是清晰明確的,同時(shí)切合用戶期待的。最后,無(wú)論話題是開(kāi)放領(lǐng)域還是垂直領(lǐng)域的,無(wú)論意圖是達(dá)成還是未達(dá)成,好的對(duì)話內(nèi)容都應(yīng)該是具備的信息和情感的。

總結(jié)

至此,我們把“如何評(píng)價(jià)一個(gè)智能對(duì)話系統(tǒng)”這個(gè)問(wèn)題轉(zhuǎn)化為“如何定義一個(gè)好的智能對(duì)話系統(tǒng)”,并通過(guò)實(shí)際對(duì)話類產(chǎn)品在真實(shí)應(yīng)用場(chǎng)景中的使用情況,歸納出對(duì)話評(píng)測(cè)系統(tǒng)的考量條件與標(biāo)準(zhǔn)尺度。有了明確的尺度,智能對(duì)話評(píng)測(cè)的任務(wù)設(shè)計(jì)也就變得有章可循了。

一般來(lái)說(shuō),對(duì)話評(píng)測(cè)的工作主要從兩個(gè)方面進(jìn)行處理:自動(dòng)評(píng)測(cè)和人工評(píng)測(cè)。我將在下一篇文章中介紹當(dāng)前主流的自動(dòng)機(jī)器對(duì)話評(píng)測(cè)任務(wù),和人工標(biāo)注方法。我將分析這些任務(wù)和方法的不足之處,并闡述我自己是如何結(jié)合自動(dòng)評(píng)測(cè)與人工標(biāo)注來(lái)設(shè)計(jì)智能對(duì)話評(píng)測(cè)方法的。

 

本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來(lái)自 Unsplash ,基于 CC0 協(xié)議

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 大佬可以轉(zhuǎn)發(fā)嗎?

    來(lái)自北京 回復(fù)
    1. 給的citation就好啦。請(qǐng)問(wèn)您準(zhǔn)備在哪里發(fā)呢

      來(lái)自加拿大 回復(fù)