逼真到離譜!1000個人類「克隆」進西部世界,AI相似度85%細(xì)節(jié)太炸裂
在人工智能的前沿領(lǐng)域,一項突破性的研究成果將我們帶入了一個全新的虛擬世界。1000個基于真實人類訪談創(chuàng)建的AI智能體,以驚人的85%相似度模擬人類行為,讓我們不禁思考:AI的極限究竟在哪里?
真實人類被「投放」進AI世界,這是什么魔幻操作?
更可怕的是,根據(jù)真實人類生產(chǎn)的智能體,居然能以85%的準(zhǔn)確度,還原出他們的行為。
也就是說,人類在真實世界是怎么回答問題的,智能體在虛擬世界中也一樣。人類幾乎擁有了跟自己完全相似的虛擬復(fù)制體!
去年,斯坦福爆火25個智能體小鎮(zhèn),讓西部世界走進現(xiàn)實。
時隔一年多,原班人馬團隊讓1000多個AI智能體放入虛擬小鎮(zhèn),去模擬真實人類的一切態(tài)度和行為。
論文地址:https://arxiv.org/pdf/2411.10109
不同以往,這次他們采用了一種新奇的研究方式——訪談,去創(chuàng)建生成式智能體。
通過招募1052名參與者,涵蓋了不同性別、年齡、地區(qū)等,每人接受GPT-4o采訪了2個小時。
然后將得到的訪談內(nèi)容作為文字提示,輸入語言模型中,復(fù)刻出每個個體對應(yīng)的AI智能體。
所有智能體在綜合社會調(diào)查中的回答,與原參與者兩周后自我復(fù)現(xiàn)答案準(zhǔn)確率接近85%,并在人格預(yù)測、實驗復(fù)制中表現(xiàn)與人類相當(dāng)。
毫無疑問,我們距離能夠模仿人類的AI智能體已經(jīng)非常接近了
有網(wǎng)友稱,這就是克隆人的智慧。
還有人驚嘆道,機器能夠提前預(yù)判你的預(yù)判,這一天竟然真的來了!
AI在模擬人類行為方面達(dá)到85%的準(zhǔn)確率,無疑是一個巨大的成就。這一突破,直接為AI處理高度復(fù)雜交互(如個性化醫(yī)療建議)鋪平了道路。
01 拒絕刻板印象,讓AI反映真實人類
為什么要做一個這樣的研究呢?
團隊成員之一Joon Sung Park介紹到,這是為了「讓故事更完整」。
去年的西部世界小鎮(zhèn),團隊是希望借生成式智能體來指出這樣一個未來——
在無法直接參與或觀察的情況下(比如衛(wèi)生政策,產(chǎn)品發(fā)布,外部沖擊等),人類可以用AI來模擬生活,來更好地了解自己。
然而,研究者卻深深感覺,這個故事是不完整的,并不還原真實的人類世界。
為了讓這些模擬變得可信,他們覺得自己應(yīng)該避免將這些「AI人」變量簡化為人口統(tǒng)計學(xué)的刻板印象,對其準(zhǔn)確性的評估,也應(yīng)該不僅僅是通過平均處理效應(yīng)的成功或失敗來衡量。
該怎么辦呢?團隊在個體模型中找到了答案。
他們創(chuàng)建了反映真實個體的生成式智能體,并通過衡量它們在多大程度上能夠重現(xiàn)個體對綜合社會調(diào)查、大五人格測試、經(jīng)濟博弈以及隨機對照試驗的反應(yīng),來驗證這些模型的有效性。
令人驚喜的是,智能體的表現(xiàn)極為出色。
它們在綜合社會調(diào)查中,對被試反應(yīng)的復(fù)現(xiàn)準(zhǔn)確率達(dá)到了85%,與被試兩周后復(fù)現(xiàn)自己答案的準(zhǔn)確性相當(dāng),而且在預(yù)測人格特質(zhì)和實驗結(jié)果上同樣出色。
與僅基于人口統(tǒng)計描述的智能體相比,這種基于訪談的智能體在種族和意識形態(tài)群體之間減少了準(zhǔn)確性偏差。
研究者認(rèn)為,這是因為后者更能反映真實個體的各種獨特因素。
總之,這項研究為模擬個體開辟了新的可能性。而模擬的基礎(chǔ),就是對構(gòu)成我們社會的個體進行準(zhǔn)確建模。
這項工作也標(biāo)志著:生成式AI可以代表真實人類的時代,從此正式開啟!
現(xiàn)在,作者已經(jīng)將開源存儲庫和用于這項工作的Python包上傳到Github,包括他本人的智能體
02 創(chuàng)建1000+類人生成式智能體
若想創(chuàng)建一個能夠反映影響個人態(tài)度、信仰、行為等多樣因素的智能體,前提是需要對真實個人擁有深度理解。
為此,研究團隊決采用了基本的社會科學(xué)方法——「深度訪談」方法,將預(yù)設(shè)問題和基于受訪者回答的適應(yīng)性相結(jié)合。
通過分層抽樣招募的1000+參與者,是具有典型代表的樣本。不同個體覆蓋了不同年齡、宗教、性別、教育水平、政治意識形態(tài)。
這么多人的采訪,當(dāng)然要交給AI。
為此,研究人員開發(fā)了一個AI面試官,對每個參與者完成了2小時語音訪談,并生成的錄音平均長度為6,491個單詞。
這里采訪的方案,借鑒了「American Voices Project」對社會科學(xué)家采訪的一部分,從參與者的生活故事、到他們對當(dāng)前社會問題的看法,涵蓋非常之廣。
比如,從童年、教育、到家庭和人際關(guān)系,給我講講你任何經(jīng)歷過的生活故事;你如何看待種族主義和社會治安?
根據(jù)采訪結(jié)構(gòu)和時間限制,AI面試官根據(jù)每人的回答動態(tài)生成后續(xù)問題。
03 研究平臺和交互界面
為了創(chuàng)建「生成式智能體」,作者開發(fā)了一種新穎的智能體架構(gòu),將參與者完整訪談記錄和大模型相結(jié)合。
其中,整份記錄都會被「注入」到模型提示中,指示模型根據(jù)訪談數(shù)據(jù)模仿該參與者的行為。
在需要多步驟決策的實驗中,智能體會通過簡短的文本描述,被賦予先前刺激及其對應(yīng)反應(yīng)的記憶。
生成式智能體能夠?qū)θ魏挝谋敬碳ぷ鞒龇磻?yīng),包括強制選擇提示、調(diào)查問卷、多階段互動場景。
為了評估這些智能體模擬人類的前景,研究團隊評估了四個部分:
- 綜合社會調(diào)查(General Social Survey)
- 大五人格測試問卷(Big Five Inventory)
- 五個著名的行為經(jīng)濟學(xué)博弈(包括獨裁者博弈、信任博弈、公共品博和囚徒困境)
- 五個包含控制和實驗條件的社會科學(xué)實驗
他們使用前三個部分,來評估生成式智能體在預(yù)測個體態(tài)度、特質(zhì)和行為方面的準(zhǔn)確性,而復(fù)制研究評估其預(yù)測群體層面,處理效果和效應(yīng)量的能力。
由于個體在調(diào)查和行為研究中的回答,往往隨時間表現(xiàn)出不一致性,作者還將將參與者自身的態(tài)度和行為一致性作為歸一化因子:模擬某個個體態(tài)度或行為的準(zhǔn)確性取決于這些態(tài)度和行為在時間上的一致性。
為了解決這種自我一致性水平的差異,他們要求每位參與者在兩周內(nèi)完成兩次測試。
其中主要因變量是歸一化準(zhǔn)確率(Normalized Accuracy),其計算方法為:智能體預(yù)測個體回答的準(zhǔn)確性/個體自身回答的復(fù)現(xiàn)準(zhǔn)確性。
歸一化準(zhǔn)確率用1.0表示,生成式智能體預(yù)測個體回答的準(zhǔn)確性與個體兩周后復(fù)現(xiàn)自己回答的準(zhǔn)確性相同。
對于連續(xù)型結(jié)果,作者計算的是歸一化相關(guān)性。
1. 預(yù)測個體態(tài)度和行為綜合社會調(diào)查
評估的第一部分便是GSS,以評估受訪者對廣泛主題的人口背景、行為、態(tài)度和信仰,包括公共政策、種族關(guān)系、性別和宗教。
對于GSS,生成式智能體以0.85的平均歸一化準(zhǔn)確率預(yù)測了參與者的反應(yīng)。
顯然,這些基于訪談構(gòu)建的智能體,性能優(yōu)于基于人口統(tǒng)計和人物角色的智能體,歸一化分?jǐn)?shù)高出14-15%。
基于人口統(tǒng)計的生成式智能體實現(xiàn)了0.71歸一化準(zhǔn)確率,而基于角色的智能體達(dá)到了0.70。
2. 大五人格測試
評估第二個部分,使用BFI-44預(yù)測參與者的大五人格特質(zhì),該測試評估五個人格維度:開放性、盡責(zé)性、外向性、親和性和神經(jīng)質(zhì)。
每個維度由8-10個李克特量表(Likert scale)問題的綜合得分計算得出。
對于大五人格測試,生成式智能體達(dá)到了0.80的歸一化相關(guān)性。
與GSS的結(jié)果類似,基于訪談的生成式智能體的表現(xiàn)優(yōu)于基于人口統(tǒng)計(歸一化相關(guān)性=0.55)和基于角色(歸一化相關(guān)性=0.75)的智能體。
基于訪談的智能體在預(yù)測大五人格特質(zhì)時,還產(chǎn)生了更低的平均絕對誤差(MAE),事后成對Tukey測試確認(rèn)基于訪談的智能體顯著優(yōu)于其他兩組。
3. 經(jīng)濟博弈
評估第三個部分包含五個著名的經(jīng)濟博弈,旨在引出參與者在有真實利害關(guān)系的決策情境中的行為。
這些博弈包括:獨裁者博弈、第一玩家和第二玩家的信任博弈、公共品博弈、囚徒困境。
為確保參與者的真實投入,研究提供了金錢獎勵。
研究人員將每個博弈的輸出值歸一化到0-1的范圍內(nèi),并比較生成式智能體的預(yù)測值與參與者的實際值。
由于這些是連續(xù)性測量,他們計算了相關(guān)系數(shù)和歸一化相關(guān)性。
平均而言,生成式智能體達(dá)到了0.66的歸一化相關(guān)性。
然而,在經(jīng)濟博弈中,各智能體之間的平均絕對誤差(MAE)沒有顯著差異。
4. 基礎(chǔ)對比研究
在探索性分析中,作者通過將基于訪談的生成式知恩個體與一個基線復(fù)合智能體進行比較,測試了訪談的有效性和效率。
這個基線復(fù)合代理是基于參與者的GSS、大五人格和經(jīng)濟博弈響應(yīng)數(shù)據(jù)構(gòu)建的。
這里,隨機抽樣了100名參與者,并排除了同類問題的問答對,建立復(fù)合智能體作為參照。
結(jié)果顯示,復(fù)合智能體在GSS歸一化準(zhǔn)確率為0.76,在大五人格歸一化相關(guān)性和經(jīng)濟博弈歸一化相關(guān)性分別為0.64和0.31。
在消融實驗中,即使刪除80%訪談內(nèi)容,基于訪談構(gòu)建的智能體,仍舊優(yōu)于復(fù)合智能體。其中,GSS歸一化準(zhǔn)確率為0.79。
另外,在通過GPT-4將訪談記錄轉(zhuǎn)換為要點總結(jié)(僅保留事實內(nèi)容,移除原始語言特征),結(jié)果同樣如此。
實驗復(fù)現(xiàn)結(jié)果,AI與人類高度一致
實驗評估的第四部分,就是讓生成式智能體參與5個社會科學(xué)實驗,檢測它們是否預(yù)測社會科學(xué)家常用實驗環(huán)境中的處理效應(yīng)。
這些實驗來自一項大規(guī)模復(fù)現(xiàn)工作中收錄的已發(fā)表研究,包括研究感知意圖如何影響責(zé)任歸屬,以及公平性如何影響情緒反應(yīng)。
最新研究中,人類參與者和生成式智能體都完成了全部五項研究,并使用與原始研究相同的統(tǒng)計方法計算了p值和處理效應(yīng)量。
如下表所示,人類成功復(fù)現(xiàn)了5項研究中的4項,其中1項失敗。而生成式智能體也復(fù)現(xiàn)了相同的四項研究,同樣未能復(fù)現(xiàn)第五項。
生成式智能體估算的效應(yīng)量與參與者的效應(yīng)量高度相關(guān),相比之下參與者內(nèi)部一致性相關(guān)系數(shù)為0.99,得出歸一化相關(guān)系數(shù)為0.99。
在生成式智能體人口統(tǒng)計學(xué)平等差異(DPD)實驗中,與人口統(tǒng)計信息或角色描述構(gòu)建的智能體相比,基于訪談的生成式智能體在所有任務(wù)中都顯示出較低的DPD。
這表明基于訪談的生成式智能體能更有效地減輕偏見。
04 如何創(chuàng)建一個合格的AI訪談員
為了確保智能體所需的豐富訓(xùn)練數(shù)據(jù)具有高質(zhì)量和一致性,研究者開發(fā)了下面這個AI訪談智能體。
之所以選擇訪談而非問卷調(diào)查,就是希望訪談能提供更全面、細(xì)致的信息,從而讓智能體在廣泛的話題和領(lǐng)域中,實現(xiàn)更高保真度的態(tài)度和行為模擬。
另外,選用AI訪談智能體而非人類訪談員,也能確保所有被試之間互動風(fēng)格和質(zhì)量的一致。
1. AI訪談員架構(gòu)
一個合格的AI訪談員,需要知道何時提出問題,以及如何提出有意義的根據(jù)問題。
在遵守訪談提綱的同時,它還要隨機應(yīng)變,靈活調(diào)整,幫助被試打開話匣子,分享他們可能沒想起來的內(nèi)容。
為了賦予AI訪談員這種能力,研究者特意設(shè)計了一種訪談架構(gòu),讓研究者能控制訪談的整體內(nèi)容和結(jié)構(gòu),同時允許智能體有一定的自由度,來探索采訪腳本中硬編碼的后續(xù)問題。
智能體會將被試的話語和訪談腳本作為輸入,以后續(xù)問題的形式生成 下一步行動,或決定使用語言模型繼續(xù)下一個問題模塊。反思模塊有助于架構(gòu)從正在進行的訪談中簡潔地總結(jié)和推斷見解,使智能體更有效地生成后續(xù)問題用語言模型進行下一個問題模塊
訪談架構(gòu)將訪談協(xié)議和受訪者最近的回答作為輸入,輸出一個動作:1)繼續(xù)提問提綱中的下一個問題;或2)根據(jù)對話內(nèi)容提出一個跟進問題。
訪談提綱是一系列有序的問題清單,每個問題都標(biāo)注了預(yù)設(shè)時間。在一個新問題塊開始時,AI訪談員會逐字提問腳本中的問題。
當(dāng)被試回答后,AI訪談員會利用語言模型,在問題塊的時間限制內(nèi)動態(tài)決定最佳下一步。
比如,當(dāng)詢問被試關(guān)于童年經(jīng)歷時,如果回答中提到「我出生在新罕布什爾……我很喜歡那里的自然環(huán)境」,但未具體提及喜歡的地點,訪談員可能會生成并提問一個跟進問題:「在新罕布什爾,有沒有特別喜歡的步道或戶外地點,或者在童年時留下深刻印象的地方?」
反之,當(dāng)詢問職業(yè)時,如果回答是「我是牙醫(yī)」,訪談員會判斷問題已經(jīng)完全得到回答,然后進入下一個問題。
跟進問題的推理和生成,都是通過提示語言模型完成的。然而,為了訪談員生成有效的行動,語言模型需要記住并推理先前的對話內(nèi)容,才能根據(jù)分享信息提出有意義的跟進問題。
這里就出現(xiàn)了一個問題:盡管現(xiàn)代語言模型的推理能力不斷提高,但如果提示內(nèi)容過長,它們?nèi)匀浑y以全面考慮所有信息。
如果毫無選擇地包含訪談至今的所有內(nèi)容,可能會逐漸降低訪談員生成根據(jù)問題的表現(xiàn)。
為了解決這個問題,研究者讓訪談架構(gòu)包含一個反思模塊,該模塊能夠動態(tài)地綜合到目前為止的對話內(nèi)容,并輸出一份總結(jié)性筆記,描述訪談員可以對參與者作出的推斷。
例如,對于前面提到的參與者,該模塊可能生成如下反思內(nèi)容:
然后,在提示語言模型生成訪談員的行動時,研究者也沒有使用完整的訪談記錄,而是用了訪談員積累的簡潔但描述性強的反思筆記,以及最近5,000字符的訪談記錄。讓AI訪談員「開口說話」
為了讓被試感覺自己在和真正的人類交談,并且和面試官建立融洽的關(guān)系,團隊使用了低延遲語音。
被試發(fā)言后,AI面試官通常會在4秒內(nèi)做出回應(yīng)。
也就是說,短短4秒內(nèi),AI就完成推理、生成、返回語音響應(yīng)的全過程!因此,人類被試也會感覺無比絲滑。
參與者的語音響應(yīng),是使用OpenAI的Whisper模型轉(zhuǎn)錄的,這個模型能將語音音頻轉(zhuǎn)換為文本。
為了讓被試對自己的回答進行反思,研究者會對GPT-4o使用以下提示:
而為了讓GPT-4o動態(tài)生成新問題,研究者會對它使用以下提示:
果然,這樣調(diào)試出來的AI訪談員非常具有同理心,能連續(xù)和人類被試進行順暢的對話。
聽到被試的童年經(jīng)歷后,ta會說「聽說你的童年并不美好,我感到很遺憾,能告訴我你在高中的更多經(jīng)歷嗎?」
聽完被試的高中經(jīng)歷后,ta會貼心地進行總結(jié),然后繼續(xù)提問:「謝謝你與我分享這些。聽起來高中對你來說是一個特別有挑戰(zhàn)性、但成長很多的時期。高中畢業(yè)后,你選擇了怎樣的道路?是去上了大學(xué)還是直接進入職場了呢?」
2. 讓智能體模仿人類行為
那么,智能體為什么對他們的「人類原型」模仿得這么像呢?
生成式AI之所以能模擬人類行為,是因為語言模型能提供支持,然后通過一組記憶來定義其行為。
這些記憶以文本形式存儲在數(shù)據(jù)庫(或「記憶流」)中,在需要時被檢索出來,通過語言模型生成智能體的行為。
同時,系統(tǒng)配備一個反思模塊,將這些記憶綜合為反思內(nèi)容,從智能體記憶中的部分或全部文本中選擇內(nèi)容,以提示語言模型推導(dǎo)出有用的見解,從而增強智能體行為的可信度。
傳統(tǒng)的智能體,通常依賴于手動設(shè)定的特定場景下的行為,而生成性智能體,則利用語言模型生成類似人類的響應(yīng),后者能反映其記憶中描述的人格特質(zhì),并適用于各種情境,因而這種角色扮演會格外逼真。專家反思,彌補單一思維鏈缺陷
同時,研究者引進了一種「專家反思」,來從訪談記錄中明確推導(dǎo)出關(guān)于參與者的高層次、更抽象的見解
這是因為,僅僅將參與者的訪談記錄直接提示語言模型,以單一的思維鏈預(yù)測其反應(yīng),可能導(dǎo)致模型忽略受訪者未明確表達(dá)的潛在信息。
在該模塊中,研究者提示模型對參與者的數(shù)據(jù)生成反思,但并非僅要求模型從訪談中推導(dǎo)見解,而是要求它采用領(lǐng)域?qū)<业纳矸荨?/p>
具體來說,他們要求模型生成四組反思,每次以社會科學(xué)四個分支領(lǐng)域的不同專家身份進行:心理學(xué)家、行為經(jīng)濟學(xué)家、政治學(xué)家和人口統(tǒng)計學(xué)家。
每個智能體的記憶包括采訪記錄和專家對該記錄的反思的輸出。這些思考是使用語言模型生成的簡短綜合,用于推斷可能未明確說明的參與者的見解。專家社會科學(xué)家(例如心理學(xué)家、行為經(jīng)濟學(xué)家)的角色,則會引導(dǎo)這些反思
例如,對于某一訪談記錄,不同專家身份生成了不同的見解:
心理學(xué)家會認(rèn)為,被試者很重視自己的獨立性,喜歡出差,對母親的過度管束感到不滿,對個人自由表現(xiàn)出了強烈渴望。
在行為經(jīng)濟學(xué)家看來,他能夠?qū)⒇攧?wù)目標(biāo)與休閑需求很好地結(jié)合起來,追求平衡的生活。
政治科學(xué)家看來,他自認(rèn)是共和黨人,并大力支持該黨派的理念,但同時也兼具兩黨的立場。
人口統(tǒng)計學(xué)家的答案則是,他是一名庫存專家,月薪3000到5000美元,家庭月收入7000美元,工作具有一定的穩(wěn)定性和靈活性。
對于每位被試,研究者都會把ta的訪談記錄提示給GPT-4,并要求它為每位專家生成最多20條觀察或反思,從而生成了四組反思。
這些提示根據(jù)每位專家的角色進行了定制。比如針對人口統(tǒng)計學(xué)專家的提示示例如下:
想象一下,你是一位人口統(tǒng)計學(xué)專家(擁有博士學(xué)位),在觀察這次采訪時做了筆記。寫下對受訪者的人口統(tǒng)計特征和社會地位的觀察/反思。(你的觀察應(yīng)該多于 5個且少于20個,考慮上述訪談內(nèi)容的深度,選擇有意義的數(shù)字。)
這些反思生成后,就會被保存在智能體的記憶中。
需要預(yù)測被試的回答時,研究者會讓語言模型對問題進行分類,判斷哪個專家最適合回答該問題,然后檢索出該專家生成的所有反思。
研究者會將反思附加到參與者的訪談記錄中,并用其作為提示輸入GPT-4,以生成預(yù)測回答。
參考資料:
https://arxiv.org/abs/2411.10109
https://x.com/percyliang/status/1858556930626908569
本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
哇,這聽起來像是科幻電影里的場景!AI能達(dá)到這種相似度真的很驚人,未來感十足,讓人期待又有點小害怕。??????