AI數(shù)據(jù)中心實(shí)戰(zhàn):量化標(biāo)簽的AI效能革命

0 評論 3363 瀏覽 12 收藏 29 分鐘
B端产品经理要负责对目标行业和市场进行深入的分析和调研,了解客户的需求、痛点、期望和行为,找到产品的价值主张 🔗

在當(dāng)今人工智能快速發(fā)展的浪潮中,數(shù)據(jù)中心作為AI系統(tǒng)的核心基礎(chǔ)設(shè)施,扮演著至關(guān)重要的角色。本文通過一位資深產(chǎn)品經(jīng)理的實(shí)戰(zhàn)經(jīng)驗(yàn)分享,深入探討了AI數(shù)據(jù)中心在量化標(biāo)簽領(lǐng)域的創(chuàng)新實(shí)踐。

數(shù)據(jù)是AI的食糧,巧婦也會(huì)難為無米之炊。在通常的定義中,AI數(shù)據(jù)中心不僅承擔(dān)著數(shù)據(jù)處理與分析,模型訓(xùn)練與優(yōu)化,還能通過實(shí)時(shí)推理和低延遲響應(yīng),來進(jìn)行數(shù)據(jù)的應(yīng)用和版本控制。

而我也曾設(shè)計(jì)過AI產(chǎn)品的數(shù)據(jù)中心,只不過我的經(jīng)驗(yàn)是圖像識別領(lǐng)域的,而且不是通用數(shù)據(jù),而是小樣本量的醫(yī)療圖像數(shù)據(jù),所以不一定適合所有的AI產(chǎn)品。不過希望也能通過分享給大家?guī)硪恍┪宜伎嫉慕嵌群驮O(shè)計(jì)的考量,如果這些能對大家有所啟發(fā)和思考,就請您不吝小手,「點(diǎn)贊收藏分享」這篇文章。

以下我將會(huì)從「數(shù)據(jù)中心的作用,數(shù)據(jù)中心的模塊,數(shù)據(jù)中心的主要數(shù)據(jù)流程,數(shù)據(jù)中心的用戶角色,達(dá)成的效果、注意的事項(xiàng)、遺憾和未達(dá)成的部分」七大板塊進(jìn)行闡述。

一、數(shù)據(jù)中心的作用

經(jīng)過我和數(shù)據(jù)中心的各類目標(biāo)用戶進(jìn)行討論和了解后,我大概理清了其中部分的思路。就是從使用環(huán)境、用戶角色、數(shù)據(jù)流程、應(yīng)用場景和使用需求著手。在通過1周多的時(shí)間,整理出一個(gè)大概的需求列表,并從中擴(kuò)展放大,最后形成了下面的內(nèi)容,「數(shù)據(jù)中心的作用是什么?」

1.串聯(lián)數(shù)據(jù)使用流程

數(shù)據(jù)使用流程總體步驟其實(shí)并不多,不外乎就是「采集-標(biāo)記-訓(xùn)練-測試-反饋」。但一旦加入了不同的用戶角色和應(yīng)用場景后,就開始變得復(fù)雜了。

我通過進(jìn)一步的梳理,得出了以下流程表

附圖1.數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’

從上圖可看出「反饋」串聯(lián)著整個(gè)流程。另外,數(shù)據(jù)集又會(huì)因?yàn)閳鼍?,分別形成訓(xùn)練數(shù)據(jù)集、訓(xùn)練測試集、應(yīng)用測試集,又通過不同的反饋流程重新回到數(shù)據(jù)流程中。這樣就形成了數(shù)據(jù)中心的另外一層核心的作用。

2.提高數(shù)據(jù)的流轉(zhuǎn)效率

通過不停的“反饋”,數(shù)據(jù)的流轉(zhuǎn)效率和數(shù)據(jù)應(yīng)用范圍就會(huì)不斷增加和豐富。比如

  • 「協(xié)助算法研發(fā)團(tuán)隊(duì)對模型進(jìn)行更新與動(dòng)態(tài)優(yōu)化」
  • 「增加數(shù)據(jù)多樣性與泛化能力」

通過不同的數(shù)據(jù)標(biāo)簽。比如,來源類標(biāo)簽、標(biāo)記類標(biāo)簽、訓(xùn)練類標(biāo)簽、測試類標(biāo)簽、反饋標(biāo)簽等等;數(shù)據(jù)標(biāo)簽可以反映出數(shù)據(jù)不同流程和階段中產(chǎn)生的主動(dòng)性和被動(dòng)性的標(biāo)記,然后將相同、相近、相反或不同類別標(biāo)簽的數(shù)據(jù)整合成集,就能在不同的使用和應(yīng)用場景中批量調(diào)用和記錄標(biāo)記了。

3.協(xié)助系統(tǒng)應(yīng)用的實(shí)時(shí)分析與決策支持

模型優(yōu)化和實(shí)時(shí)的數(shù)據(jù)協(xié)同,加上數(shù)據(jù)流程中不斷產(chǎn)生和變化的數(shù)據(jù)標(biāo)簽,再通過貫穿整個(gè)流程「反饋」,為數(shù)據(jù)增加一層新類型的標(biāo)簽,「量化標(biāo)簽」。

你也可以理解成“閾值‘’權(quán)重‘等等,因?yàn)橹暗臉?biāo)簽大多都是有還是沒有,即0或者1,現(xiàn)在通過反饋分析,增加了量化標(biāo)簽后,數(shù)據(jù)就變得維度更復(fù)雜了。加上實(shí)時(shí)的數(shù)據(jù)協(xié)同,就可以給到整體流程更多更豐富的決策支持了。

二、數(shù)據(jù)中心的模塊

根據(jù)上文「數(shù)據(jù)中心的作用」中的數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’,我原來是梳理出七大模塊,但由于我最后的實(shí)際方案把“數(shù)據(jù)庫安全”通過其它手段達(dá)成了,最后就沒有把該模塊列入進(jìn)去了。最終整理出六大模塊

  1. 「數(shù)據(jù)采集與導(dǎo)入」
  2. 「標(biāo)記分配與標(biāo)記操作」
  3. 「數(shù)據(jù)測試」
  4. 「測試標(biāo)準(zhǔn)」
  5. 「用戶權(quán)限」
  6. 「量化賦值」

其中,前面4個(gè)模塊分別對應(yīng)著不同節(jié)點(diǎn)的數(shù)據(jù)流程,最后兩個(gè)則是數(shù)據(jù)中心的管理員對各流程中的用戶角色權(quán)限進(jìn)行定義和管理,和涉及數(shù)據(jù)全流程的量化賦值模塊。

三、數(shù)據(jù)中心主要的數(shù)據(jù)流程

根據(jù)上面整理的六大模塊,我先將前面4個(gè)模塊分別用不同的數(shù)據(jù)流程來解釋各自模塊的作用和意義,章節(jié)最后我將補(bǔ)充全數(shù)據(jù)流程都參與的量化賦值流程。

1.數(shù)據(jù)采集流程

這個(gè)主要的用戶角色是運(yùn)維人員,因?yàn)槲业漠a(chǎn)品應(yīng)用場景是醫(yī)療,所以需要將原始醫(yī)療數(shù)據(jù)進(jìn)行導(dǎo)入操作和批處理操作,具體流程如下

附圖2.數(shù)據(jù)采集流程圖

編輯數(shù)據(jù)來源就是將數(shù)據(jù)的采集時(shí)間、設(shè)備、機(jī)構(gòu)、操作用戶、數(shù)據(jù)類型等標(biāo)簽添加在數(shù)據(jù)中,為最原始的數(shù)據(jù)添加第一批的數(shù)據(jù)標(biāo)簽「來源標(biāo)簽」。

2.標(biāo)記流程

這個(gè)主要的用戶角色是“標(biāo)記管理員”和“標(biāo)記用戶”,而且流程更像是工單系統(tǒng),所以我最后也是通過工單流程對其進(jìn)行梳理和設(shè)計(jì)的,具體流程如下:

附圖3.標(biāo)記流程圖

其中,如果遇上特殊情況,數(shù)據(jù)預(yù)處理和標(biāo)記操作部分,也會(huì)有其它用戶角色參與。比如,數(shù)據(jù)預(yù)處理流程的優(yōu)化和修改,醫(yī)學(xué)專家修改標(biāo)記操作流程和規(guī)范,還有提供標(biāo)記修正和金標(biāo)準(zhǔn)標(biāo)記。另外,重新指派是支線流程,不是主流程,而是標(biāo)記指派后,指派無法完成的情況下才會(huì)出現(xiàn)的支線流程。

3.測試流程

這個(gè)流程其實(shí)包含了訓(xùn)練測試和應(yīng)用測試,但其實(shí)大體上分別不大,只是在環(huán)境和測試標(biāo)準(zhǔn)、測試數(shù)據(jù)集上有所區(qū)別,所以我就不將它們分開來講了,具體流程如下:

附圖4.測試流程圖

為了流程的簡潔,我將很多流程節(jié)點(diǎn)省略了很多支線流程和步驟,比如測試集的創(chuàng)建、編輯;模型的創(chuàng)建、算法參數(shù)的創(chuàng)建、編輯(參數(shù)的類型、類型是文本、數(shù)值還是選項(xiàng)),測試數(shù)據(jù)集的創(chuàng)建、編輯等等。還有數(shù)據(jù)查重這個(gè),其實(shí)是因?yàn)檫@個(gè)數(shù)據(jù)中心是搭建在小樣本數(shù)據(jù)庫前提下的,為了提升數(shù)據(jù)的有效利用,訓(xùn)練數(shù)據(jù)有可能會(huì)和測試數(shù)據(jù)有所重合,因此特地增設(shè)此步驟來防止對測試結(jié)果的影響。

以上的都是根據(jù)數(shù)據(jù)流程來梳理的,下面的就是根據(jù)系統(tǒng)管理需要補(bǔ)充的流程。

4.管理流程

這里面包括3個(gè)主要流程,系統(tǒng)管理員流程、標(biāo)記管理員流程、算法管理員流程:

  • 系統(tǒng)管理員:「創(chuàng)建(刪除)用戶 – 查看用戶 – 編輯用戶權(quán)限」
  • 標(biāo)記管理員:「創(chuàng)建(編輯)‘標(biāo)記數(shù)據(jù)集’ – 選擇‘標(biāo)記數(shù)據(jù)集’ – 指派標(biāo)記用戶 – 查看標(biāo)記進(jìn)程 – 創(chuàng)建(編輯)標(biāo)記摘要 – 提交標(biāo)記數(shù)據(jù)」
  • 算法管理員:「創(chuàng)建(編輯)算法模型 – 創(chuàng)建(編輯/禁用)算法參數(shù) – 創(chuàng)建(編輯/禁用)測試標(biāo)準(zhǔn)」

其中,系統(tǒng)管理員主要就是創(chuàng)建用戶和編輯用戶權(quán)限,比如標(biāo)記用戶和標(biāo)記管理員用戶的權(quán)限,一個(gè)是指派,另一個(gè)是接受指派并進(jìn)行標(biāo)記操作。

算法管理員里其實(shí)是三個(gè)單獨(dú)的流程,主要是為測試流程里,提供模型、參數(shù)、測試標(biāo)準(zhǔn)等的各種選項(xiàng)和范圍,對標(biāo)簽進(jìn)行統(tǒng)一化和規(guī)則一致性管理,防止各團(tuán)隊(duì)中研發(fā)成員有各自的習(xí)慣和方式,造成標(biāo)簽混亂、重復(fù)和冗余。

5.量化賦值流程

這個(gè)算是數(shù)據(jù)中心最核心的模塊和功能之一了,詳細(xì)說起來可以很復(fù)雜,但其實(shí)本質(zhì)就是通過不斷的數(shù)據(jù)反饋和用戶反饋,將其進(jìn)行分析后量化一個(gè)值賦予于數(shù)據(jù)之上,形成數(shù)據(jù)的量化標(biāo)簽(即閾值權(quán)重)。

附圖5.量化賦值流程圖

其中就如上文【附圖1.數(shù)據(jù)中心‘?dāng)?shù)據(jù)使用流程圖’】里的反饋環(huán)節(jié),就可以通過流程流轉(zhuǎn)重新回到數(shù)據(jù)流程里的將近每個(gè)環(huán)節(jié),來對流程進(jìn)行優(yōu)化調(diào)整。

四、數(shù)據(jù)中心的用戶角色

經(jīng)過數(shù)據(jù)中心的主要流程梳理,我已經(jīng)能很好地洞見到,數(shù)據(jù)中心應(yīng)該具有的用戶角色,還有其在系統(tǒng)中的作用和需求目的?,F(xiàn)在我將根據(jù)不同的用戶角色,分別講講他們各自在系統(tǒng)中權(quán)限和操作內(nèi)容。

1.運(yùn)維用戶

這個(gè)角色權(quán)限比較簡單,但也很重要,因?yàn)檫@個(gè)角色是唯一一個(gè)能接觸到數(shù)據(jù)的實(shí)際物理承載體的,這個(gè)我將在后面的「注意事項(xiàng)」章節(jié)進(jìn)行說明,這里先按下不表。

  1. 數(shù)據(jù)采集與數(shù)據(jù)導(dǎo)入
  2. 數(shù)據(jù)來源標(biāo)簽管理
  3. 轉(zhuǎn)處理數(shù)據(jù)
  4. 生成待標(biāo)記數(shù)據(jù)集

2.標(biāo)記管理員

這個(gè)角色主要就是為了管理“標(biāo)記流程”所建立的,數(shù)據(jù)在這里需要經(jīng)過指派和流轉(zhuǎn),最后進(jìn)入到核心數(shù)據(jù)庫中,讓‘訓(xùn)練測試’和‘應(yīng)用測試’等流程隨時(shí)調(diào)用。

  • 數(shù)據(jù)預(yù)處理
  • 標(biāo)記數(shù)據(jù)集管理
  • 標(biāo)記工單指派
  • 標(biāo)記摘要管理

數(shù)據(jù)預(yù)處理和標(biāo)記數(shù)據(jù)集管理部分,有可能會(huì)有算法研發(fā)團(tuán)隊(duì)成員加入?yún)f(xié)助完成,因此此角色有可能會(huì)與其它用戶角色權(quán)限疊加

3.標(biāo)記用戶

這個(gè)角色主要就是接收‘標(biāo)記管理員’的工單指派,根據(jù)標(biāo)記摘要要求完成工單指派,即標(biāo)記數(shù)據(jù)集的標(biāo)記。

  • 標(biāo)記數(shù)據(jù)
  • 完成/返回工單

只要涉及到工單,不得不注意的就是工單的異常處理,這里也是一樣。一旦指派因意外無法按時(shí)或者按需完成時(shí),返回工單就起到閉環(huán)管理的作用了;比如,因?yàn)槠渌麡?biāo)注需求等級較高且無空余可指派任務(wù)空間時(shí),讓已指派的標(biāo)記用戶退回未完成或者未開始的工單就尤為重要了。

4.算法研發(fā)管理員

這個(gè)是屬于傾向管理標(biāo)簽的角色,通常是對模型、訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集、訓(xùn)練測試、應(yīng)用測試等等的標(biāo)簽進(jìn)行統(tǒng)一管理。避免數(shù)據(jù)標(biāo)簽沒有統(tǒng)一的規(guī)則而造成的混亂。

  • 創(chuàng)建/編輯算法模型
  • 創(chuàng)建/編輯/禁用算法參數(shù)
  • 創(chuàng)建/禁用測試標(biāo)準(zhǔn)參數(shù)

這里算法模型是允許進(jìn)行創(chuàng)建和編輯,但沒有給予刪除的權(quán)限,是因?yàn)槟P陀锌赡茈S著研發(fā)和模型優(yōu)化,會(huì)有進(jìn)一步的變化,因此可以提供編輯權(quán)限,但由于模型涉及測試結(jié)果的展示,因此只允許編輯如算法模型名稱和摘要的權(quán)限,但不允許刪除;

算法參數(shù)方面,可以允許參數(shù)有限度的編輯。比如增加參數(shù)選項(xiàng)里‘?dāng)?shù)據(jù)增強(qiáng)’可以從2個(gè)選項(xiàng)‘混合裁剪’、‘切除增強(qiáng)’增加到‘混合裁剪’、‘切除增強(qiáng)’、‘幾何翻轉(zhuǎn)’3個(gè)選項(xiàng),但不允許刪除原來的選項(xiàng),也不允許修改原選項(xiàng)。但可以禁用原來的選項(xiàng),比如只保留一個(gè)選項(xiàng),其余選項(xiàng)禁用。測試標(biāo)準(zhǔn)參數(shù)也允許創(chuàng)建和禁用,但不允許編輯。

算法參數(shù)和測試標(biāo)準(zhǔn)參數(shù)為什么不允許刪除,只允許禁用,而算法參數(shù)為什么只允許有程度的編輯,這個(gè)我將在后面的「注意事項(xiàng)」章節(jié)進(jìn)行說明,請留意。

5.算法研發(fā)用戶

這個(gè)是使用數(shù)據(jù)中心最核心的用戶之一了。根據(jù)流程,用戶會(huì)進(jìn)行頻繁和循環(huán)的各類操作,而且都會(huì)占用系統(tǒng)大量的資源。所以必須通過流程合理對其操作和流程進(jìn)行簡化。

  • 創(chuàng)建/調(diào)用訓(xùn)練數(shù)據(jù)集,包括創(chuàng)建(編輯/更新)數(shù)據(jù)集摘要
  • 創(chuàng)建/調(diào)用訓(xùn)練測試集,包括創(chuàng)建(編輯/更新)數(shù)據(jù)集摘要
  • 調(diào)用模型和算法參數(shù)創(chuàng)建訓(xùn)練,包括創(chuàng)建(編輯/更新)訓(xùn)練摘要
  • 查看/對比訓(xùn)練測試結(jié)果
  • 查看/對比應(yīng)用測試結(jié)果

這里面最經(jīng)常使用的就是訓(xùn)練測試流程和查看對比測試結(jié)果了,這里能非常直觀地查看各類測試參數(shù)下的測試結(jié)果,還可以通過進(jìn)行橫向的測試結(jié)果對比,來對算法模型的優(yōu)化提供分析支持。創(chuàng)建和調(diào)用數(shù)據(jù)集更像是給整個(gè)數(shù)據(jù)集的數(shù)據(jù)都統(tǒng)一打上的一個(gè)數(shù)據(jù)標(biāo)簽,然后讓不同流程中的節(jié)點(diǎn)可以直接批量調(diào)用。

6.量化標(biāo)簽用戶

數(shù)據(jù)中心里對數(shù)據(jù)進(jìn)行唯一完全自定義標(biāo)簽的用戶。根據(jù)流程,反饋信息可以通過標(biāo)簽的形式對數(shù)據(jù)增加多樣性維度與數(shù)據(jù)泛化能力,從而體現(xiàn)出數(shù)據(jù)間的價(jià)值差別,并與應(yīng)用場景、用戶體驗(yàn)產(chǎn)生一定程度的相關(guān)性。

  • 創(chuàng)建/編輯/停用量化標(biāo)簽
  • 編輯/關(guān)聯(lián)/取消關(guān)聯(lián)測試標(biāo)準(zhǔn)參數(shù)

在‘自動(dòng)駕駛里的行人防碰撞剎停系統(tǒng)’中,針對測試對象‘真實(shí)的人類生物’、‘具有人類形象的3D實(shí)物’、‘包含人形象的平面實(shí)物’,三個(gè)選項(xiàng)中,不僅有識別正確(True Positive)、識別錯(cuò)誤(False Positive)2個(gè)維度,還有‘未識別’的維度,還有識別錯(cuò)誤的不同應(yīng)用場景維度。

比如同樣是識別錯(cuò)誤,將

  1. ‘具有人類形象的3D實(shí)物’識別為‘真實(shí)的人類生物’
  2. ‘真實(shí)的人類生物’識別為‘具有人類形象的3D實(shí)物’
  3. ‘包含人形象的平面實(shí)物’識別‘具有人類形象的3D實(shí)物’

這三種識別錯(cuò)誤是不一樣的,前面2種錯(cuò)誤不太影響應(yīng)用場景下的使用,第3種將帶來應(yīng)用場景中不好的用戶體驗(yàn),這時(shí)的測試對象(即測試數(shù)據(jù)本身)就具有不同測試價(jià)值和維度了,也就是原來的數(shù)據(jù)僅有0和1兩個(gè)維度,現(xiàn)在還有未檢出,即0、1、2,再通過用戶體驗(yàn)給數(shù)據(jù)帶來的量化標(biāo)簽,很有可能就是0、1、2、0.5四個(gè)維度了。

比如:

‘具有人類形象的3D實(shí)物’識別出并正確值為2。

‘具有人類形象的3D實(shí)物’識別出但分類為‘真實(shí)的人類生物’值為1。

‘具有人類形象的3D實(shí)物’識別出但分類為‘包含人形象的平面實(shí)物’值為0.5。

‘具有人類形象的3D實(shí)物’未識別出值為0。

這樣,數(shù)據(jù)就突然有新的量化標(biāo)簽,并根據(jù)標(biāo)簽對測試進(jìn)行重新的分析和對比了。

看到這里,你應(yīng)該能明白數(shù)據(jù)中心的重要性和大概的作用了吧。

「那接下來我將對數(shù)據(jù)中心在實(shí)踐中達(dá)成的效果進(jìn)行簡略說明?!?/p>

五、達(dá)成的效果

1.數(shù)據(jù)統(tǒng)一處理,流程和用戶角色規(guī)范了數(shù)據(jù)標(biāo)簽的使用

通過數(shù)據(jù)中心的建立,所有針對數(shù)據(jù)的操作,基本都可以通過數(shù)據(jù)中心達(dá)成,避免了數(shù)據(jù)的不規(guī)則不合理地使用,杜絕了數(shù)據(jù)丟失和操作不統(tǒng)一帶來的負(fù)面效應(yīng)。

2.促進(jìn)了模型更新與動(dòng)態(tài)優(yōu)化

數(shù)據(jù)流轉(zhuǎn)效率比之前提升超600%,迭代優(yōu)化模型周期也減少的近60%,同時(shí)還能實(shí)時(shí)部署更新,還能自動(dòng)排期進(jìn)行計(jì)劃訓(xùn)練任務(wù)。

3.多模態(tài)數(shù)據(jù)融合與決策協(xié)同

這個(gè)是最驚喜的部分,由于涉及比較核心的數(shù)據(jù),所以不方便用真實(shí)的案例和頁面來展示,我就通過舉例來讓大家理解一下吧。

先看一個(gè)測試結(jié)果的表

附圖6.測試結(jié)果表格

這個(gè)表其實(shí)沒有什么特別的,只是如果在數(shù)據(jù)中心里,每個(gè)測試參數(shù)的結(jié)果都可以鏈接到具體的數(shù)據(jù)列表上,并顯示參數(shù)值是如何得出的,而且哪些測試對象的檢出結(jié)果是如何都一一列出,是不是就有所不同了?

然后我再來一張測試結(jié)果的表,這次是不是就有所不同了

附圖7.測試結(jié)果對比表格

這里就可以通過數(shù)據(jù)中心的測試對比來進(jìn)行橫向的測試對比,那對于算法團(tuán)隊(duì)而言,要進(jìn)行模型測試對比就會(huì)更方便和直觀了。不僅如此,我還加入了一個(gè)詳情對比的功能細(xì)節(jié),就是如果通過測試參數(shù)查看具體的對比詳情時(shí),比如準(zhǔn)確率的測試對比時(shí),就會(huì)出現(xiàn)詳細(xì)的對比詳情,如類似下圖的對比表格

附圖8.準(zhǔn)確率詳情對比表格

如果查看精確率的詳細(xì)對比時(shí),就會(huì)出現(xiàn)如類似下圖的對比表格

附圖9.精確率的對比表格

「OK,還有更勁爆的就是,每個(gè)單獨(dú)的數(shù)據(jù)上都會(huì)有各類的標(biāo)記標(biāo)簽、數(shù)據(jù)集標(biāo)簽、測試標(biāo)簽,就如上面示意圖上的表格項(xiàng)一樣,每一個(gè)參數(shù)都相當(dāng)于在數(shù)據(jù)上的標(biāo)簽,然后通過標(biāo)簽的流轉(zhuǎn),你可以隨意進(jìn)行鏈接流轉(zhuǎn)?!贡热缦旅娴臄?shù)據(jù)及標(biāo)簽流轉(zhuǎn)示意圖中,紅色框選的部分

附圖10.數(shù)據(jù)及標(biāo)簽流轉(zhuǎn)示意圖

試想一下,一個(gè)數(shù)據(jù)上有不同的數(shù)據(jù)標(biāo)簽,比如「標(biāo)記標(biāo)簽」(標(biāo)記類型、標(biāo)記對象、標(biāo)記歷史等等),「數(shù)據(jù)集標(biāo)簽」(關(guān)聯(lián)的數(shù)據(jù)集,不管是訓(xùn)練數(shù)據(jù)集、測試數(shù)據(jù)集),「測試標(biāo)簽」(關(guān)聯(lián)的訓(xùn)練和模型,測試參數(shù)及其結(jié)果等等)都可以通過標(biāo)簽進(jìn)行流轉(zhuǎn)查看,不僅對于算法研發(fā)的團(tuán)隊(duì)成員,還有數(shù)據(jù)流程中的標(biāo)記用戶,運(yùn)維用戶都是極大地效率提升。

好了,說了那么多,看到這里的大家應(yīng)該對這個(gè)數(shù)據(jù)中心能達(dá)成什么效果更深入的了解了。

那么我就進(jìn)行最后一章的內(nèi)容了。

七、注意事項(xiàng)

1.測試記錄的生成規(guī)則

這里為什么需要特別注意呢?因?yàn)闇y試記錄涉及了很多標(biāo)簽,比如模型、數(shù)據(jù)集、測試參數(shù)、測試結(jié)果,如果每次查看都重新生成,會(huì)消耗太多的系統(tǒng)資源,但如果用快照的形式保存,那相應(yīng)的標(biāo)簽變化就體現(xiàn)不出來了。比如

測試記錄里的模型使用了現(xiàn)在已禁用的模型參數(shù),如果和新的不含已禁用參數(shù)模型的測試結(jié)果進(jìn)行對比時(shí),就會(huì)出現(xiàn)參數(shù)不對齊的情況,影響測試結(jié)果的對比。

我最終的妥協(xié)辦法就是:

  1. 測試完成后生成快照(含模型、參數(shù)、數(shù)據(jù)集標(biāo)簽);
  2. 調(diào)用時(shí)校驗(yàn)當(dāng)前參數(shù)與快照一致性;
  3. 不一致時(shí)自動(dòng)觸發(fā)重新生成并覆蓋舊快照。

2.標(biāo)簽的編輯權(quán)限

這里就是上文“數(shù)據(jù)中心的用戶角色”章節(jié)中“算法研發(fā)管理員”角色里提到的標(biāo)簽的編輯權(quán)限。為什么要對其進(jìn)行限制呢?因?yàn)椋槍Σ糠忠褎?chuàng)建和使用的標(biāo)簽,比如算法參數(shù),測試標(biāo)準(zhǔn)參數(shù)標(biāo)簽,數(shù)據(jù)集標(biāo)簽等等,所有涉及到測試記錄的標(biāo)簽,均只允許創(chuàng)建、調(diào)用;「但部分參數(shù)允許一定范圍的編輯,比如增加選項(xiàng),擴(kuò)大原先數(shù)值的選取范圍等等?!故O碌木庉嬀椭荒芡ㄟ^禁用的方式,依然可以讓系統(tǒng)調(diào)取,但不能提供刪除各種涉及測試記錄標(biāo)簽的權(quán)限。

3.數(shù)據(jù)的安全

當(dāng)全公司最核心的資產(chǎn)都存放在一個(gè)地方時(shí),安全往往都是「最重要、最重要、最重要」的。那如何保證數(shù)據(jù)的安全呢?我則從兩個(gè)地方出發(fā)考慮

1)「訪問限制和硬件隔離」

對所有用戶不提供任何的數(shù)據(jù)接口和網(wǎng)絡(luò)接口(運(yùn)維用戶導(dǎo)入數(shù)據(jù)除外),均只提供操作鍵鼠和顯示器。數(shù)據(jù)中心離線部署,不對外聯(lián)網(wǎng),從物理層面上杜絕數(shù)據(jù)讀取拷貝和通過網(wǎng)絡(luò)向外發(fā)送的可能。

2)「數(shù)據(jù)備份和硬件設(shè)備冗余」

對數(shù)據(jù)中心數(shù)據(jù)進(jìn)行自動(dòng)執(zhí)行計(jì)劃數(shù)據(jù)備份,并采用獨(dú)立磁盤冗余陣列分散存儲和保證數(shù)據(jù)冗余;執(zhí)行定期維護(hù)服務(wù)器和存儲設(shè)備的運(yùn)維計(jì)劃,配置RAID或集群節(jié)點(diǎn)防止單點(diǎn)故障;搭建UPS防止斷電停電對系統(tǒng)和數(shù)據(jù)造成的致命威脅,同時(shí)使用多個(gè)HYCU備份控制器進(jìn)行數(shù)據(jù)保護(hù);

八、遺憾和未達(dá)成的部分

這里我就簡單講講,其實(shí)主要是時(shí)間和成本的問題,最終數(shù)據(jù)中心系統(tǒng)沒有做成和模型環(huán)境一致并可直接操作調(diào)用的聯(lián)動(dòng)狀態(tài),即沒有辦法按照我設(shè)計(jì)的流程里那樣,直接調(diào)用算法模型,直接通過數(shù)據(jù)中心里的算法參數(shù)來運(yùn)行模型訓(xùn)練。

還是需要通過人為手動(dòng)進(jìn)行操作,就像按方抓藥一樣,先制定好訓(xùn)練計(jì)劃并通過數(shù)據(jù)中心系統(tǒng)錄入信息,再通過手動(dòng)操作運(yùn)行模型訓(xùn)練,但訓(xùn)練后的測試結(jié)果是可以直接自動(dòng)導(dǎo)入到數(shù)據(jù)中心里,自動(dòng)生成測試結(jié)果的。雖然有點(diǎn)美中不足,但相對于之前,效率還是提升了非常大的。

另外一個(gè)的就是模型參數(shù)和測試參數(shù)部分,沒有提供自定義的批量操作功能,每次都需要用戶自行選擇勾選和設(shè)置,這是我沒考慮周全的地方。

九、結(jié)語

在醫(yī)療圖像識別場景下小樣本數(shù)據(jù)中心的設(shè)計(jì)與實(shí)踐里,我圍繞數(shù)據(jù)全生命周期管理展開,涵蓋數(shù)據(jù)采集、標(biāo)注、測試、反饋優(yōu)化等核心流程。并通過提出數(shù)據(jù)中心六大模塊(采集、標(biāo)記、測試、標(biāo)準(zhǔn)、權(quán)限、量化賦值),并詳細(xì)解釋了各模塊的交互邏輯與用戶角色分工(如運(yùn)維、標(biāo)記管理員、算法研發(fā)團(tuán)隊(duì)等)。通過引入“量化標(biāo)簽”機(jī)制,數(shù)據(jù)維度從二元標(biāo)簽擴(kuò)展為多級閾值權(quán)重,顯著提升模型泛化能力和決策支持效率。

補(bǔ)充了一些簡單的案例展示了測試結(jié)果的多維度對比功能,是如何支持算法團(tuán)隊(duì)快速優(yōu)化模型,最終實(shí)現(xiàn)數(shù)據(jù)流轉(zhuǎn)效率提升600%、模型迭代周期縮短60%的顯著效果。遺憾在于未完全實(shí)現(xiàn)模型訓(xùn)練與數(shù)據(jù)中心的自動(dòng)化聯(lián)動(dòng),但整體設(shè)計(jì)作為小樣本醫(yī)療AI系統(tǒng)的高效運(yùn)行,我認(rèn)為應(yīng)該是提供了可復(fù)用的方法論的。

「最后,希望這篇文章的內(nèi)容能讓各位有所啟發(fā)?!?/p>

本文由人人都是產(chǎn)品經(jīng)理作者【薰闕的產(chǎn)品思考】,微信公眾號:【薰闕的產(chǎn)品思考】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!