如何評測一個智能對話系統(tǒng)(四)
編輯導(dǎo)語:隨著科技的不斷發(fā)展,智能設(shè)備逐漸深入我們的生活中;在上一篇文章中作者介紹了智能對話系統(tǒng)標(biāo)注數(shù)據(jù)的采樣,標(biāo)注問題的設(shè)計以及問題背后的技術(shù)原理;本文作者將帶我們繼續(xù)了解對話系統(tǒng)的特征,我們一起來看一下。
在上一章中我們介紹了分布式對話系統(tǒng)評測方法的具體實現(xiàn)細(xì)節(jié),包括數(shù)據(jù)的分類和采樣,標(biāo)注問題的設(shè)計與其背后的技術(shù)原理;我們詳細(xì)闡述了獲取標(biāo)注數(shù)據(jù),以及制定語言數(shù)據(jù)話題類型的方法;同時,我們還介紹了基于6個維度的信息特征而分解出來的12個封閉式問題;我們將數(shù)據(jù)與問題相互對應(yīng),就形成一份可操作,可統(tǒng)計的對話評測標(biāo)注任務(wù)。
接下來,我將介紹如何通過分布式對話評測方法對一個對話系統(tǒng)進(jìn)行評估;基于智能對話系統(tǒng)的特征,我們將評測任務(wù)分為兩大類:單輪對話評測任務(wù);多輪對話評測任務(wù)。
我們先來對這兩個概念做一個定義:
單輪對話:
在單輪對話的場景中,我們向被測試的對話系統(tǒng)發(fā)送一組自然語言語句,該對話系統(tǒng)將針對每一個輸入語句進(jìn)行理解,并給出相應(yīng)的輸出內(nèi)容;這里我們期待對話系統(tǒng)能夠還原真實人類的對話場景,較好的理解每一個輸入語句,并給出合理且得體的回復(fù)。
多輪對話:
在多輪對話的場景中,我們圍繞一個固定的話題,向?qū)υ捪到y(tǒng)發(fā)送一連串的自然語言內(nèi)容;對話系統(tǒng)需要結(jié)合上下文內(nèi)容,在設(shè)定話題的范圍內(nèi),連續(xù)的給出相關(guān)聯(lián)的回復(fù)內(nèi)容,并將話題不斷的延續(xù)下去。
為什么要對單輪對話場景和多輪對話場景分別做評測呢?
這就涉及到智能對話系統(tǒng)的自身的特性與技術(shù)瓶頸。我們在之前的文章中介紹過,智能對話系統(tǒng)共分為三個類型,即問答型,任務(wù)型,以及開放型(閑聊型);每一類型的對話系統(tǒng)都有自己獨特的實現(xiàn)方式,同時也存在著特定的優(yōu)勢與短板,不同的對話系統(tǒng)會根據(jù)其目標(biāo)場景和服務(wù)對象進(jìn)行差異化的設(shè)計。
因此,為了確保評測任務(wù)的客觀性和有效性,我們將單輪對話場景與多輪對話場景分離開來,分別制定了不同的評測任務(wù)。
具體的評測任務(wù)如下:
一、單輪對話評測
首先,我們將預(yù)設(shè)數(shù)據(jù)集中的1500條數(shù)據(jù)逐一輸入被測試的問答系統(tǒng)當(dāng)中,并將系統(tǒng)所輸出的答案記錄下來,從而生成1500組問答對;我們將在這1500組問答對中隨機抽取500組作為評測任務(wù)數(shù)據(jù)集。
接下來,我們將前一篇文章所總結(jié)的6個評測維度與12個評測問題進(jìn)行分類,目的是便于人工標(biāo)注和統(tǒng)計。
我們將“回復(fù)是不是符合正確的語法”和“回復(fù)內(nèi)容是不是不可以被接受(色情,暴力,消極、辱罵,政治等)”這兩個問題單獨挑選出來作為一組獨立的評判標(biāo)準(zhǔn);我們把這組評判標(biāo)準(zhǔn)定義為“一級評判標(biāo)準(zhǔn)”。
我們將「內(nèi)容關(guān)聯(lián)度」和「邏輯關(guān)聯(lián)度」合并成「關(guān)聯(lián)度」。這樣一來,6個評測維度就整合成5個大類的指標(biāo),每類指標(biāo)下包含2個是否類型的判斷題(共10道題);我們把這組評判標(biāo)準(zhǔn)定義為“二級評判標(biāo)準(zhǔn)”。
評測人員需要對500組評測數(shù)據(jù)分別進(jìn)行人工評判,并將判斷的結(jié)果記錄下來,評測順序為先做一級評判,再做二級評判。
下圖為參考范例:
當(dāng)評測人員完成評判后,會對每組數(shù)據(jù)的評測結(jié)果進(jìn)行打分,打分方法如下圖所示:
為了確保評測的客觀性,每組評測數(shù)據(jù)需要由至少3名測試人員依照同樣的標(biāo)準(zhǔn),分別進(jìn)行打分,對話系統(tǒng)的最終評測得分將會權(quán)衡多個測試人員的得分情況。
評測的最終分?jǐn)?shù)為所有500組問答數(shù)據(jù)評判結(jié)果的分?jǐn)?shù)總和,即滿分 = 總測試題數(shù) 500 * 評測維度 5 * 判斷指標(biāo) 2 * 參與評測人數(shù) 3 = 15000;我們可以將被評測對話系統(tǒng)的實際分?jǐn)?shù)(介于0到15000之間)線性轉(zhuǎn)換成滿分為100的分?jǐn)?shù),就得出了被評測對話系統(tǒng)的量化表現(xiàn)分?jǐn)?shù)(單輪)。
二、多輪對話評測
相較于單輪對話場景,多輪對話評測任務(wù)主要考核的是一個智能對話系統(tǒng)的持續(xù)對話能力,而不僅僅是其在每一輪對話的表現(xiàn);這次,我們從數(shù)據(jù)集中的1500條數(shù)據(jù)中選取20條對系統(tǒng)行評測;這里需要注意的是,被選的20條數(shù)據(jù)需要覆蓋數(shù)據(jù)集中全部的16個話題。
接下來,我們將選取出來的20條數(shù)據(jù)作為起始內(nèi)容(首個問題)輸入到被測試的對話系統(tǒng)當(dāng)中,從而展開對話內(nèi)容;測試人員將嘗試與對話系統(tǒng)進(jìn)行實時的多輪次對話交互,并在每次系統(tǒng)返回內(nèi)容后,針對所返回的內(nèi)容進(jìn)行評測;當(dāng)評測人員認(rèn)為對話內(nèi)容無法繼續(xù)進(jìn)行下去時,則測試結(jié)束。
多輪對話的評測主要分為兩個部分,對話質(zhì)量,以及對話數(shù)量。對話質(zhì)量和對話數(shù)量的評測方式又分別包括每一輪的表現(xiàn)情況和總體的表現(xiàn)情況;這里,我們只關(guān)心系統(tǒng)的「關(guān)聯(lián)度」和「發(fā)散性」這兩個核心維度指標(biāo)。
考慮到多輪對話場景的復(fù)雜性和主觀性,我們將多輪對話評測的最大次數(shù)鎖定在5次,同時建議至少5名測試人員參與測試。
評測標(biāo)準(zhǔn)與計分方式如下表所示:
當(dāng)被測試對話系統(tǒng)能夠圍繞同一個話題進(jìn)行等于或多于5輪對話,且在每一輪對話都滿足規(guī)定的評測指標(biāo)時,我們則認(rèn)為該對話系統(tǒng)在多輪對話的場景中獲得了滿分;即滿分 =總測試題數(shù)20 * 評測類別 2 * 評測指標(biāo) 4 * 最大對話輪次 5 *? 參與評測人數(shù) 5 = 4000。
同樣的,我們將被評測對話系統(tǒng)的實際分?jǐn)?shù)(介于0到4000之間)線性轉(zhuǎn)換成滿分為100的分?jǐn)?shù),就得出了被評測對話系統(tǒng)的量化表現(xiàn)分?jǐn)?shù)。(多輪)
至此,我們就將一整套開放領(lǐng)域的智能對話系統(tǒng)評測任務(wù)介紹完了。為了確保評測任務(wù)的合理性和嚴(yán)謹(jǐn)性,我們還針對評測任務(wù)中的判斷題進(jìn)行了inter-rater reliability(評分者信度)的分析,采取了Free Marginal Kappa(Randolph, J. J. 2005)的計算方式,得到了不錯的結(jié)果。
另外,我們還將任務(wù)的評測結(jié)果與傳統(tǒng)Liker Questionnaire(里克特量表)的統(tǒng)計結(jié)果進(jìn)行了詳細(xì)的對比;對比結(jié)果顯示,我們提出的評測方法在少數(shù)據(jù)、少人力投入的情況下,依然能夠獲得較好的結(jié)果。
歡迎有興趣的讀者嘗試用不同的方式對本評測任務(wù)進(jìn)行驗證,這部分內(nèi)容我就不在這里展開了。
三、總結(jié)
這套評測方法的目標(biāo)并不是實現(xiàn)完全自動化的智能對話評測,而是嘗試提出一個更高效、更可靠的人工評測方法。
本評測方法最大的特點就是采取了多維度分布式的方式,嘗試將原本抽象的自然語言能力進(jìn)行了量化拆解;圍繞客觀性,合理性,和易操作性的原則,將原本需要海量人力標(biāo)柱且難以評估的難題,優(yōu)化成一個需要較少人力和時間即可完成的任務(wù);此外,我們還專門為這套評測方法量身打造了一組測試數(shù)據(jù)集,從而最大程度的保障評測的系統(tǒng)性和科學(xué)性。
當(dāng)然,這套智能對話評測方法還有很多的不足之處。
首先,我們依然是以人工標(biāo)柱為主要方式進(jìn)行評測,這就導(dǎo)致我們無法完全避免評測的主觀性;另外,我們并不認(rèn)為這套評測方法可以通用于所有的智能對話場景。
我們的評測方法并沒有較強的學(xué)術(shù)權(quán)威性,更多的是希望能夠幫助企業(yè)級的智能對話產(chǎn)品進(jìn)行表現(xiàn)能力的分析、評估和比較。
我們鼓勵大家使用同樣的評測標(biāo)準(zhǔn)、統(tǒng)一的測試數(shù)據(jù)集、同樣的標(biāo)柱方式,針對不同對話系統(tǒng)的評測結(jié)果進(jìn)行橫向?qū)Ρ龋瑥亩@得有意義的參考數(shù)據(jù)和有價值的評測結(jié)果。
本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載
題圖來自 Unsplash ,基于 CC0 協(xié)議
- 目前還沒評論,等你發(fā)揮!