日本一区免费看,一级片一级片,久久精品无码日韩一区二区Aⅴ

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

如何評測一個智能對話系統(tǒng)（四）

單贏

2021-01-21

0 評論 9488 瀏覽 19 收藏

11 分鐘

編輯導(dǎo)語：隨著科技的不斷發(fā)展，智能設(shè)備逐漸深入我們的生活中；在上一篇文章中作者介紹了智能對話系統(tǒng)標(biāo)注數(shù)據(jù)的采樣，標(biāo)注問題的設(shè)計以及問題背后的技術(shù)原理；本文作者將帶我們繼續(xù)了解對話系統(tǒng)的特征，我們一起來看一下。

在上一章中我們介紹了分布式對話系統(tǒng)評測方法的具體實現(xiàn)細(xì)節(jié)，包括數(shù)據(jù)的分類和采樣，標(biāo)注問題的設(shè)計與其背后的技術(shù)原理；我們詳細(xì)闡述了獲取標(biāo)注數(shù)據(jù)，以及制定語言數(shù)據(jù)話題類型的方法；同時，我們還介紹了基于6個維度的信息特征而分解出來的12個封閉式問題；我們將數(shù)據(jù)與問題相互對應(yīng)，就形成一份可操作，可統(tǒng)計的對話評測標(biāo)注任務(wù)。

接下來，我將介紹如何通過分布式對話評測方法對一個對話系統(tǒng)進(jìn)行評估；基于智能對話系統(tǒng)的特征，我們將評測任務(wù)分為兩大類：單輪對話評測任務(wù)；多輪對話評測任務(wù)。

我們先來對這兩個概念做一個定義：

單輪對話：

在單輪對話的場景中，我們向被測試的對話系統(tǒng)發(fā)送一組自然語言語句，該對話系統(tǒng)將針對每一個輸入語句進(jìn)行理解，并給出相應(yīng)的輸出內(nèi)容；這里我們期待對話系統(tǒng)能夠還原真實人類的對話場景，較好的理解每一個輸入語句，并給出合理且得體的回復(fù)。

多輪對話：

在多輪對話的場景中，我們圍繞一個固定的話題，向?qū)υ捪到y(tǒng)發(fā)送一連串的自然語言內(nèi)容；對話系統(tǒng)需要結(jié)合上下文內(nèi)容，在設(shè)定話題的范圍內(nèi)，連續(xù)的給出相關(guān)聯(lián)的回復(fù)內(nèi)容，并將話題不斷的延續(xù)下去。

為什么要對單輪對話場景和多輪對話場景分別做評測呢？

這就涉及到智能對話系統(tǒng)的自身的特性與技術(shù)瓶頸。我們在之前的文章中介紹過，智能對話系統(tǒng)共分為三個類型，即問答型，任務(wù)型，以及開放型（閑聊型）；每一類型的對話系統(tǒng)都有自己獨特的實現(xiàn)方式，同時也存在著特定的優(yōu)勢與短板，不同的對話系統(tǒng)會根據(jù)其目標(biāo)場景和服務(wù)對象進(jìn)行差異化的設(shè)計。

因此，為了確保評測任務(wù)的客觀性和有效性，我們將單輪對話場景與多輪對話場景分離開來，分別制定了不同的評測任務(wù)。

具體的評測任務(wù)如下：

一、單輪對話評測

首先，我們將預(yù)設(shè)數(shù)據(jù)集中的1500條數(shù)據(jù)逐一輸入被測試的問答系統(tǒng)當(dāng)中，并將系統(tǒng)所輸出的答案記錄下來，從而生成1500組問答對；我們將在這1500組問答對中隨機抽取500組作為評測任務(wù)數(shù)據(jù)集。

接下來，我們將前一篇文章所總結(jié)的6個評測維度與12個評測問題進(jìn)行分類，目的是便于人工標(biāo)注和統(tǒng)計。

我們將“回復(fù)是不是符合正確的語法”和“回復(fù)內(nèi)容是不是不可以被接受（色情，暴力，消極、辱罵，政治等）”這兩個問題單獨挑選出來作為一組獨立的評判標(biāo)準(zhǔn)；我們把這組評判標(biāo)準(zhǔn)定義為“一級評判標(biāo)準(zhǔn)”。

我們將「內(nèi)容關(guān)聯(lián)度」和「邏輯關(guān)聯(lián)度」合并成「關(guān)聯(lián)度」。這樣一來，6個評測維度就整合成5個大類的指標(biāo)，每類指標(biāo)下包含2個是否類型的判斷題（共10道題）；我們把這組評判標(biāo)準(zhǔn)定義為“二級評判標(biāo)準(zhǔn)”。

評測人員需要對500組評測數(shù)據(jù)分別進(jìn)行人工評判，并將判斷的結(jié)果記錄下來，評測順序為先做一級評判，再做二級評判。

下圖為參考范例：

當(dāng)評測人員完成評判后，會對每組數(shù)據(jù)的評測結(jié)果進(jìn)行打分，打分方法如下圖所示：

為了確保評測的客觀性，每組評測數(shù)據(jù)需要由至少3名測試人員依照同樣的標(biāo)準(zhǔn)，分別進(jìn)行打分，對話系統(tǒng)的最終評測得分將會權(quán)衡多個測試人員的得分情況。

評測的最終分?jǐn)?shù)為所有500組問答數(shù)據(jù)評判結(jié)果的分?jǐn)?shù)總和，即滿分 = 總測試題數(shù) 500 * 評測維度 5 * 判斷指標(biāo) 2 * 參與評測人數(shù) 3 = 15000；我們可以將被評測對話系統(tǒng)的實際分?jǐn)?shù)（介于0到15000之間）線性轉(zhuǎn)換成滿分為100的分?jǐn)?shù)，就得出了被評測對話系統(tǒng)的量化表現(xiàn)分?jǐn)?shù)（單輪）。

二、多輪對話評測

相較于單輪對話場景，多輪對話評測任務(wù)主要考核的是一個智能對話系統(tǒng)的持續(xù)對話能力，而不僅僅是其在每一輪對話的表現(xiàn)；這次，我們從數(shù)據(jù)集中的1500條數(shù)據(jù)中選取20條對系統(tǒng)行評測；這里需要注意的是，被選的20條數(shù)據(jù)需要覆蓋數(shù)據(jù)集中全部的16個話題。

接下來，我們將選取出來的20條數(shù)據(jù)作為起始內(nèi)容（首個問題）輸入到被測試的對話系統(tǒng)當(dāng)中，從而展開對話內(nèi)容；測試人員將嘗試與對話系統(tǒng)進(jìn)行實時的多輪次對話交互，并在每次系統(tǒng)返回內(nèi)容后，針對所返回的內(nèi)容進(jìn)行評測；當(dāng)評測人員認(rèn)為對話內(nèi)容無法繼續(xù)進(jìn)行下去時，則測試結(jié)束。

多輪對話的評測主要分為兩個部分，對話質(zhì)量，以及對話數(shù)量。對話質(zhì)量和對話數(shù)量的評測方式又分別包括每一輪的表現(xiàn)情況和總體的表現(xiàn)情況；這里，我們只關(guān)心系統(tǒng)的「關(guān)聯(lián)度」和「發(fā)散性」這兩個核心維度指標(biāo)。

考慮到多輪對話場景的復(fù)雜性和主觀性，我們將多輪對話評測的最大次數(shù)鎖定在5次，同時建議至少5名測試人員參與測試。

評測標(biāo)準(zhǔn)與計分方式如下表所示：

當(dāng)被測試對話系統(tǒng)能夠圍繞同一個話題進(jìn)行等于或多于5輪對話，且在每一輪對話都滿足規(guī)定的評測指標(biāo)時，我們則認(rèn)為該對話系統(tǒng)在多輪對話的場景中獲得了滿分；即滿分 =總測試題數(shù)20 * 評測類別 2 * 評測指標(biāo) 4 * 最大對話輪次 5 *? 參與評測人數(shù) 5 = 4000。

同樣的，我們將被評測對話系統(tǒng)的實際分?jǐn)?shù)（介于0到4000之間）線性轉(zhuǎn)換成滿分為100的分?jǐn)?shù)，就得出了被評測對話系統(tǒng)的量化表現(xiàn)分?jǐn)?shù)。（多輪）

至此，我們就將一整套開放領(lǐng)域的智能對話系統(tǒng)評測任務(wù)介紹完了。為了確保評測任務(wù)的合理性和嚴(yán)謹(jǐn)性，我們還針對評測任務(wù)中的判斷題進(jìn)行了inter-rater reliability（評分者信度）的分析，采取了Free Marginal Kappa(Randolph, J. J. 2005)的計算方式，得到了不錯的結(jié)果。

另外，我們還將任務(wù)的評測結(jié)果與傳統(tǒng)Liker Questionnaire（里克特量表）的統(tǒng)計結(jié)果進(jìn)行了詳細(xì)的對比；對比結(jié)果顯示，我們提出的評測方法在少數(shù)據(jù)、少人力投入的情況下，依然能夠獲得較好的結(jié)果。

歡迎有興趣的讀者嘗試用不同的方式對本評測任務(wù)進(jìn)行驗證，這部分內(nèi)容我就不在這里展開了。

三、總結(jié)

這套評測方法的目標(biāo)并不是實現(xiàn)完全自動化的智能對話評測，而是嘗試提出一個更高效、更可靠的人工評測方法。

本評測方法最大的特點就是采取了多維度分布式的方式，嘗試將原本抽象的自然語言能力進(jìn)行了量化拆解；圍繞客觀性，合理性，和易操作性的原則，將原本需要海量人力標(biāo)柱且難以評估的難題，優(yōu)化成一個需要較少人力和時間即可完成的任務(wù)；此外，我們還專門為這套評測方法量身打造了一組測試數(shù)據(jù)集，從而最大程度的保障評測的系統(tǒng)性和科學(xué)性。

當(dāng)然，這套智能對話評測方法還有很多的不足之處。

首先，我們依然是以人工標(biāo)柱為主要方式進(jìn)行評測，這就導(dǎo)致我們無法完全避免評測的主觀性；另外，我們并不認(rèn)為這套評測方法可以通用于所有的智能對話場景。

我們的評測方法并沒有較強的學(xué)術(shù)權(quán)威性，更多的是希望能夠幫助企業(yè)級的智能對話產(chǎn)品進(jìn)行表現(xiàn)能力的分析、評估和比較。

我們鼓勵大家使用同樣的評測標(biāo)準(zhǔn)、統(tǒng)一的測試數(shù)據(jù)集、同樣的標(biāo)柱方式，針對不同對話系統(tǒng)的評測結(jié)果進(jìn)行橫向?qū)Ρ龋瑥亩@得有意義的參考數(shù)據(jù)和有價值的評測結(jié)果。

本文由 @單師傅?原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載

題圖來自 Unsplash ，基于 CC0 協(xié)議

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App