模型評測怎么做?一篇文章看懂

思敏
0 評論 3723 瀏覽 23 收藏 19 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

一次標(biāo)準(zhǔn)流程的測評能夠輔助大家更好的對模型進(jìn)行深入了解。本文作者分享了自己對大模型進(jìn)行測評的整個過程,其中有不少可以借鑒的點,供大家參考。

前段時間公司非常看好AI賽道,所以想要將AI能力集合至公司內(nèi)的產(chǎn)品中,助力產(chǎn)品降本增效。在調(diào)研初期,我也走了比較多的彎路,在這篇文章里,詳細(xì)說說模型測評怎么做,應(yīng)該如何制作文檔有助于匯報。

由于我們是工業(yè)低代碼產(chǎn)品,在b端中也屬于較為復(fù)雜的,之前也非常認(rèn)真的撰寫過操作手冊、搭建規(guī)范,也研究過更為易讀的方式,但依舊不能提升用戶對產(chǎn)品的熟悉速度,所以公司前段時間希望能夠利用AI快速解決這個問題。

之前我一直對測評這件事的目的不是特別明確,除了確定大模型的價格、功能還需要測評什么。一次標(biāo)準(zhǔn)流程的測評能夠輔助大家更好的對模型進(jìn)行深入了解,如驗證算法模型的有效性,為技術(shù)選型提供依據(jù);發(fā)現(xiàn)模型潛在的問題,判斷是否可以優(yōu)化或選擇其他模型;還可以識別模型在特定數(shù)據(jù)集上的表現(xiàn),這樣能夠確保它的準(zhǔn)確性和可靠性。另外模型測評不是一個人的工作,中間有很多的工作(如性能指標(biāo)之類的)需要算法同學(xué)協(xié)助。

以下是我根據(jù)工作中遇到的常見評測內(nèi)容及方法進(jìn)行的匯總內(nèi)容(僅供參考),希望能給大家一些幫助。

一、前期準(zhǔn)備

在正式開始測評前,我們先看一下可能會存在的誤區(qū)和需要準(zhǔn)備的一些資料。

1. 模型評測的誤區(qū)

  • 過度依賴單一指標(biāo):只關(guān)注準(zhǔn)確率或其他單一指標(biāo),忽略了其他重要的性能指標(biāo)。不同的應(yīng)用場景可能需要不同的性能指標(biāo),如精確度、召回率、F1分?jǐn)?shù)等,綜合考慮多個指標(biāo)可以更全面地評估模型性能。
  • 忽略模型的可解釋性:只關(guān)注模型的預(yù)測結(jié)果,不關(guān)注模型的決策過程。模型的可解釋性對于建立用戶信任和滿足法規(guī)要求非常重要,也需要配合一個標(biāo)準(zhǔn)的提示詞框架對模型進(jìn)行限定,可以讓模型回答的更加符合要求。
  • 沒有標(biāo)準(zhǔn)的打分指南:不同評估者給出的結(jié)果可能差異較大,難以達(dá)成共識、影響團(tuán)隊對模型性能的準(zhǔn)確理解和決策。需要制定一套詳細(xì)的評估指南,包括評估指標(biāo)、評分標(biāo)準(zhǔn)和操作流程。

2. 測評的基本流程

模型評測的一般步驟和流程包括以下幾個關(guān)鍵階段:

3. 收集必要信息

需要收集模型評測所需的數(shù)據(jù)、文檔等,本次我們公司是想要驗證知識庫在低代碼產(chǎn)品中的可落地性,所以使用的數(shù)據(jù)為產(chǎn)品的標(biāo)準(zhǔn)培訓(xùn)手冊。通常訓(xùn)練數(shù)據(jù)集需要以下幾份不同用法的數(shù)據(jù),但是可以根據(jù)企業(yè)需求進(jìn)行選擇。

  • 訓(xùn)練數(shù)據(jù)集:用于模型的初始學(xué)習(xí)過程。
  • 驗證數(shù)據(jù)集:用于模型調(diào)參和超參數(shù)優(yōu)化。
  • 測試數(shù)據(jù)集:用于評估模型的最終性能。
  • 標(biāo)注數(shù)據(jù):如果模型需要進(jìn)行監(jiān)督學(xué)習(xí),需要有標(biāo)簽的數(shù)據(jù)。

4. 評測指標(biāo)詳解

在模型評測中,確認(rèn)企業(yè)測評的目的后首先就需要確認(rèn)所需的測評指標(biāo),只有有了指標(biāo)才能更好的確定模型提問 的問題。下面的各項指標(biāo)用于衡量模型的不同方面,能幫助開發(fā)者和決策者了解模型在實際應(yīng)用中的表現(xiàn):

大模型基礎(chǔ)能力

  • 多輪對話理解:評估模型是否能夠理解并記住多輪對話中的上下文信息。
  • 意圖識別理解:模型是否能夠準(zhǔn)確識別用戶的需求和意圖。
  • 信息檢索:評估模型是否能夠快速從企業(yè)知識庫中檢索到相關(guān)信息。
  • 信息呈現(xiàn):評估模型提供的信息是否準(zhǔn)確、全面,并且易于理解。

性能指標(biāo)

  • 準(zhǔn)確率 (Accuracy): 正確預(yù)測的數(shù)量除以總預(yù)測數(shù)量,反映模型整體的預(yù)測準(zhǔn)確性。
  • 精確度 (Precision): 正確預(yù)測為正類的數(shù)量除以預(yù)測為正類的總數(shù)量,反映模型預(yù)測為正類的準(zhǔn)確性。
  • 召回率 (Recall): 正確預(yù)測為正類的數(shù)量除以實際為正類總數(shù)量,反映模型找出所有正類的能力。
  • F1分?jǐn)?shù): 精確度和召回率的調(diào)和平均數(shù),是一個綜合考慮精確度和召回率的指標(biāo)。
  • ROC曲線和AUC: 接收者操作特征曲線下面積,衡量模型在所有分類閾值上的性能。

效率指標(biāo)

  • 響應(yīng)時間: 模型完成單個預(yù)測所需的時間,影響用戶體驗和系統(tǒng)性能。
  • 資源消耗: 模型運行時對計算資源(如CPU、GPU、內(nèi)存)的需求。
  • 吞吐量: 模型在單位時間內(nèi)能處理的數(shù)據(jù)量。

穩(wěn)定性和魯棒性

  • 穩(wěn)定性: 模型在不同時間或不同數(shù)據(jù)集上的一致性和可靠性。
  • 魯棒性: 模型對輸入數(shù)據(jù)中的噪聲、異常值或小的變化保持性能的能力。

安全性和隱私保護(hù)

  • 數(shù)據(jù)保護(hù): 確保模型處理的數(shù)據(jù)符合數(shù)據(jù)保護(hù)法規(guī),如GDPR。
  • 訪問控制: 模型提供的訪問控制機(jī)制,防止未授權(quán)訪問。
  • 隱私泄露風(fēng)險: 評估模型是否可能導(dǎo)致敏感信息泄露。

成本效益分析

  • 成本分析: 評估模型部署和運維的總成本,包括硬件、軟件、人力等。
  • 投資回報率 (ROI): 評估模型帶來的收益與成本之間的關(guān)系。
  • 長期成本效益: 考慮模型的長期維護(hù)和升級成本。

可擴(kuò)展性和兼容性

  • 可擴(kuò)展性: 模型適應(yīng)數(shù)據(jù)量增加或功能擴(kuò)展的能力。
  • 技術(shù)升級: 模型適應(yīng)新技術(shù)或框架升級的能力。
  • 平臺兼容性: 模型在不同操作系統(tǒng)、硬件平臺或環(huán)境中運行的能力。

5. 確定評測問題

根據(jù)指標(biāo)確定提問問題 ,本次公司內(nèi)部主要圍繞企業(yè)業(yè)務(wù)場景:提升產(chǎn)品易用性,降低投訴率。需要借助大模型完成以下功能:

  • 在低代碼產(chǎn)品中,通過對話結(jié)合產(chǎn)品內(nèi)組件自動生成靜態(tài)頁面、自動選擇圖標(biāo)等,能快速提升用戶搭建的頁面質(zhì)量(此功能需要結(jié)合Agent);
  • 企業(yè)知識庫,用戶/應(yīng)用團(tuán)隊/合作伙伴能夠通過單輪/多輪對話快速了解操作方式;
  • 產(chǎn)品智能助手:能夠通過用戶所處頁面判斷場景,提供可能的指導(dǎo)方案(此功能需要結(jié)合Agent);

通常測評問題可以分為:功能性測評、非功能性測評。功能性的測評是關(guān)注大模型是否提供了預(yù)期的功能和行為,比如能夠通過閱讀提供的幫助手冊回答用戶關(guān)于產(chǎn)品操作的問題;非功能性測評注系統(tǒng)或模型的性能、安全性、可用性等非功能方面,比如回答一個問題需要多少時長、能夠為未來的功能集成提供更好的環(huán)境,這部分有很多的指標(biāo)是需要算法同學(xué)協(xié)助進(jìn)行的。

以我們公司的項目為例,我的功能性測評為:

非功能性測評

6. 確定打分指南

產(chǎn)品經(jīng)理需要制定一套標(biāo)準(zhǔn)的打分指南,能夠便于對模型評分進(jìn)行解釋,而不是過于主觀的進(jìn)行評分,示例:

4??:完全滿足要求,一字不改。直接采用。

3??:不完全滿足,有小瑕疵但可接受。小改之后采用。

2??:不完全滿足,有大瑕疵,雖然可以改,但改起來也比較麻煩。不會改,直接拋棄。

1??:完全不滿足,都是錯的,都是偏題。無法用。

7. 數(shù)據(jù)預(yù)處理

在我們確認(rèn)目標(biāo)并開始測試前,需要對已有的文檔進(jìn)行預(yù)處理,因為公司之前的文檔是我寫給團(tuán)隊內(nèi)部及合作伙伴的參考操作手冊 ,所以必然存在一些口語上的問題、格式不統(tǒng)一等,為了讓大模型更好的理解企業(yè)文檔中的內(nèi)容,所以我進(jìn)行了如下操作:

數(shù)據(jù)規(guī)范化 (Data Normalization)

  • 縮放數(shù)值:將數(shù)據(jù)縮放到特定的范圍或比例,例如0到1之間,以消除不同數(shù)值范圍和量綱的影響。
  • 歸一化:將數(shù)據(jù)轉(zhuǎn)換為具有統(tǒng)一比例的格式,常用的方法包括最小-最大歸一化、Z分?jǐn)?shù)歸一化等。
  • 編碼分類變量:將分類變量轉(zhuǎn)換為模型可處理的格式,如使用獨熱編碼(One-Hot Encoding)或標(biāo)簽編碼(Label Encoding)。
  • 特征工程:創(chuàng)建新的特征或修改現(xiàn)有特征,以提高模型的性能,例如通過多項式特征擴(kuò)展或交互項。
  • 降維:使用PCA(主成分分析)等技術(shù)減少特征的數(shù)量,同時盡量保留原始數(shù)據(jù)的變異性。
  • 解釋:對文檔中獨有的黑話進(jìn)行解釋,避免大模型理解出現(xiàn)偏差。

數(shù)據(jù)清洗 (Data Cleaning)

  • 去除重復(fù)記錄:檢查文檔中的重復(fù)行,并刪除它們以避免在分析中產(chǎn)生偏差。
  • 處理缺失值:識別文檔中的缺失值,要決定是填充它們、刪除它們還是保留它們。
  • 糾正錯誤和異常值:識別文檔錄入錯誤和異常值,進(jìn)行糾正/刪除,以保證數(shù)據(jù)的準(zhǔn)確性。
  • 格式統(tǒng)一:確保文檔中的內(nèi)容遵循統(tǒng)一的格式,比如日期和時間格式。
  • 文本數(shù)據(jù)清洗:對于文本數(shù)據(jù),建議去除無意義的填充詞(如“啊”、“嗯”等),標(biāo)點符號,或者進(jìn)行詞干提取和詞形還原。
  • 文本化:去除文檔中的圖片,并將內(nèi)容以文本的方式補(bǔ)充在文檔中。
  • 分詞:對于文本數(shù)據(jù),進(jìn)行分詞處理,將句子分解為單詞或短語。
  • 停用詞過濾:從文本數(shù)據(jù)中移除常見的但對分析沒有太大意義的詞,如“的”、“和”、“是”等。
  • 詞袋模型:將文本轉(zhuǎn)換為詞袋模型,即文本中單詞的出現(xiàn)頻率。
  • TF-IDF:計算單詞在文檔中的重要性,用于評估單詞的相關(guān)性。

二、模型測評

真正的測評部分就比較簡單了,搭建好流程以后將自己的問題提給大模型,然后進(jìn)行打分即可。這部分主要說下我們使用的平臺-Dify。

Dify是一個開源的大語言模型(LLM)應(yīng)用開發(fā)平臺,允許開發(fā)者通過直觀的界面或者代碼方式來創(chuàng)建AI應(yīng)用,管理模型,上傳文檔形成知識庫,創(chuàng)建自定義工具(API),并對外提供服務(wù)。

開發(fā)者擁有高度的定制化能力和對項目的控制權(quán),適合那些尋求靈活解決方案的專業(yè)開發(fā)者,并且企業(yè)使用收費不高。

(非廣告,主要是工作中在用這個平臺,coze沒有用過沒法對比,大家根據(jù)自己的需求選擇)

我這邊主要介紹一下基礎(chǔ)流程,創(chuàng)建賬號??接入模型??創(chuàng)建Agent/知識庫助手??配置流程??配置提示詞(可以對模型角色進(jìn)行限定,回答的內(nèi)容會更加精準(zhǔn))??完成。具體的操作大家還是要看下官方手冊

官方操作文檔:https://docs.dify.ai/v/zh-hans/guides/application_orchestrate/agent

ps:提示詞模版(僅供參考):

– Role: 企業(yè)應(yīng)用知識庫檢索助手

– Background: 用戶需要一個能夠快速檢索企業(yè)知識庫并提供專業(yè)建議的助手,以解決工作中遇到的問題。

– Profile: 作為一個專業(yè)的企業(yè)應(yīng)用助手,我具備深入企業(yè)知識庫、理解用戶需求并提供解決方案的能力。

– Skills: 知識庫檢索、問題分析、建議生成、信息整合。

– Goals: 提供快速準(zhǔn)確的知識庫檢索服務(wù),幫助用戶找到問題的答案并給出專業(yè)建議。

– Constrains: 檢索結(jié)果需確保準(zhǔn)確性和相關(guān)性,建議應(yīng)基于最佳實踐和企業(yè)標(biāo)準(zhǔn)。

– OutputFormat: 結(jié)果應(yīng)以清晰、條理化的形式呈現(xiàn),包括直接答案、相關(guān)文檔鏈接和進(jìn)一步的操作建議。

– Workflow:

1. 接收用戶的檢索請求和問題描述。

2. 在企業(yè)知識庫中進(jìn)行關(guān)鍵詞匹配和內(nèi)容檢索。

3. 分析檢索結(jié)果,提取關(guān)鍵信息和建議。

4. 向用戶提供答案和建議,并根據(jù)需要提供進(jìn)一步的指導(dǎo)。

– Examples:

– 用戶請求:檢索關(guān)于“項目管理”的最佳實踐。

助手回應(yīng):檢索到關(guān)于項目管理的最佳實踐文檔,并提供關(guān)鍵點摘要和相關(guān)操作步驟。

– 用戶請求:解決“供應(yīng)鏈中斷”的問題。

助手回應(yīng):提供供應(yīng)鏈中斷的常見原因分析、預(yù)防措施和應(yīng)急響應(yīng)方案。

– Initialization: 歡迎使用企業(yè)應(yīng)用知識庫檢索助手。請告訴我您需要檢索的內(nèi)容或需要解決的問題,我將為您提供專業(yè)的幫助。

三、結(jié)果分析與可視化

結(jié)果分析與可視化是模型評測過程中的重要環(huán)節(jié),它幫助我們直觀理解模型性能并傳達(dá)評測發(fā)現(xiàn),使用圖表和圖形展示結(jié)果能夠很好的分析模型的優(yōu)勢和不足。將之前評測的不同問題進(jìn)行打分,然后利用數(shù)據(jù)可視化工具或者excel轉(zhuǎn)換為圖表即可。

四、撰寫評測報告

撰寫報告時明確報告的結(jié)構(gòu)和內(nèi)容,所處案例和使用場景一定要貼合企業(yè)需求,盡可能清晰、準(zhǔn)確地呈現(xiàn)評測結(jié)果,也便于企業(yè)后續(xù)進(jìn)行存檔和查閱。

五、模型優(yōu)化建議

模型優(yōu)化是一個持續(xù)的過程,能夠提升模型的性能、可擴(kuò)展性、和實用性??梢躁P(guān)注以下幾個方面:

  • 框架選擇: 考慮更換或組合不同的算法/Agent流程,找到最適合當(dāng)前數(shù)據(jù)和任務(wù)的模型。
  • 對模型預(yù)測錯誤的案例進(jìn)行深入分析,識別錯誤模式和原因。
  • 選擇模型時考慮未來可能的擴(kuò)展,如支持新功能或處理更大規(guī)模的數(shù)據(jù)。
  • 加強(qiáng)流程的安全性,防止?jié)撛诘臄?shù)據(jù)泄露和惡意攻擊。
  • 讓用戶參與到模型優(yōu)化過程中,收集他們的反饋和建議。
  • 在模型部署后,持續(xù)監(jiān)控模型的性能和用戶反饋,快速響應(yīng)問題。

六、結(jié)語

目前平臺的知識庫功能已經(jīng)上線了一段時間,Agent輔助搭建頁面、藍(lán)圖等功能也內(nèi)測了好幾輪。

總的來說,AI對復(fù)雜系統(tǒng)的提效還是挺多的,只是前期要把所需文檔準(zhǔn)備好,尤其是企業(yè)知識庫這塊,操作手冊、公司文檔可以說是最重要的東西,系統(tǒng)的操作手冊搭建也是需要很長一段時間沉淀下來。

agent輔助功能則需要不斷的沉淀系統(tǒng)的標(biāo)準(zhǔn)化場景,盡量給AI提供足夠多的樣本進(jìn)行學(xué)習(xí),生成的內(nèi)容會更加符合需求。

以上是一些個人總結(jié),各位看官有疑問可以隨時提出,一起討論。

本文由 @13號小星球 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
15220人已学习12篇文章
用户故事在软件开发过程中被作为描述需求的一种表达形式,本专题的文章分享了如何讲好用户故事。
专题
19728人已学习13篇文章
什么是中台?为什么要建中台?中台建设的切入点在哪?本专题的文章将提供这些问题的解答。
专题
32226人已学习19篇文章
一个合格的购物车是怎么设计出来的?
专题
15742人已学习12篇文章
用户增长是一个复杂体系,涉及产品、运营、市场、技术等多个环节的相互配合,本专题的文章分享了用户增长方法论。
专题
12380人已学习12篇文章
瑞幸咖啡和茅台的这次联名合作,无疑让联名营销这类营销方式又掀起了热度。本专题的文章分享了联名营销指南。
专题
11730人已学习12篇文章
本专题的文章分享了营销增长指南。