精品国产三级A∨电影,男男女女爽爽爽视频免费,久久久国产精品va麻豆

搜索

APP

起點(diǎn)課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

開通會員

發(fā)布

注冊 | 登錄

MIT驚人證明：大語言模型就是「世界模型」

新智元

2023-10-06

0 評論 2939 瀏覽 6 收藏

🔗 B端产品经理需要进行售前演示、方案定制、合同签订等，而C端产品经理需要进行活动策划、内容运营、用户激励等

大語言模型就是「世界模型」？大家對這方面的知識了解嗎？又了解多少呢？大家一起來看看下邊的內(nèi)容吧！

MIT的兩位學(xué)者發(fā)文力證：大語言模型能夠理解世界！他們的工作表明，LLM不僅僅學(xué)習(xí)了表面的統(tǒng)計(jì)數(shù)據(jù)，還學(xué)習(xí)了包括空間和時間等基本維度的世界模型。

在大語言模型內(nèi)部，是否有一個世界模型？

LLM是否具有空間感？并且在多個時空尺度上都是如此？

最近，MIT的幾位研究者發(fā)現(xiàn)，答案是肯定的！

他們發(fā)現(xiàn)，在Llama-2-70B竟然能夠描繪出研究人員真實(shí)世界的文字地圖。

在空間表征上，研究者對世界各地?cái)?shù)以萬計(jì)的城市、地區(qū)和自然地標(biāo)的名稱運(yùn)行了Llama-2模型。

他們在最后的token激活時訓(xùn)練了線性探測器，然后發(fā)現(xiàn)：Llama-2可以預(yù)測每個地方真實(shí)緯度和經(jīng)度。

在時間表征上，研究者對過去3000年名人的名字、1950年以來的歌曲、電影和書籍的名稱以及2010年代的《紐約時報(bào)》頭條新聞運(yùn)行了模型，并訓(xùn)練了線性探針（linear probe）成功預(yù)測到了名人的死亡年份、歌曲電影書籍的發(fā)布日期和新聞的出版日期。

總之，一切結(jié)論都顯示：LLM不僅僅是隨機(jī)鸚鵡——Llama-2包含世界的詳細(xì)模型，毫不夸張地說，人類甚至在大語言模型中發(fā)現(xiàn)了一個「經(jīng)度神經(jīng)元」！

這項(xiàng)工作一推出，立馬獲得熱烈反響。作者在推上轉(zhuǎn)發(fā)了論文的概要，不到15個小時閱讀量就已超過140萬！

網(wǎng)友們紛紛驚呼：這項(xiàng)工作太了不起了！

有人表示：在直覺上，這是合理的。因?yàn)榇竽X正是提煉了我們的物理世界，將其存儲在生物網(wǎng)絡(luò)中。當(dāng)我們「看到」事物時，它們實(shí)際上就是我們的大腦在內(nèi)部處理的投射。

令人難以置信的是，你們竟然能夠?qū)Υ诉M(jìn)行建模！

有人持相同觀點(diǎn)，表示或許是我們試圖模仿大腦的方式欺騙了造物主。

一、LLM不是隨機(jī)鸚鵡

此前，許多人就這樣猜想：大語言模型表現(xiàn)出的驚人能力，或許只是因?yàn)樗鼘W(xué)習(xí)了大量膚淺的統(tǒng)計(jì)數(shù)據(jù)集合，而并不是因?yàn)樗且粋€包含數(shù)據(jù)生成過程的連貫?zāi)Ｐ停ㄒ布词澜缒Ｐ停?/p>

2021年，華盛頓大學(xué)語言學(xué)家Emily M. Bender發(fā)表了一篇論文，認(rèn)為大型語言模型不過是「隨機(jī)鸚鵡」（stochastic parrots）而已，它們并不理解真實(shí)世界，只是統(tǒng)計(jì)某個詞語出現(xiàn)的概率，然后像鸚鵡一樣隨機(jī)產(chǎn)生看起來合理的字句。

B端产品经理的能力模型与学习提升

B端产品经理面临的第一大挑战，是如何正确的分析诊断业务问题。这也是最难的部分，产品设计知识对这部分工作基本没有帮助，如果想做好业务分析诊断，必须具备扎实 ...

查看详情 >

由于神經(jīng)網(wǎng)絡(luò)的不可解釋性，學(xué)術(shù)界也弄不清楚語言模型到底是不是隨機(jī)鸚鵡，各方觀點(diǎn)差異分歧極大。

由于缺乏廣泛認(rèn)可的測試，模型是否能「理解世界」也成為了哲學(xué)問題，而非科學(xué)問題。

然而MIT的研究者發(fā)現(xiàn)，LLM在多個尺度上都學(xué)習(xí)了空間和時間的線性表征，而這些表征對不同的提示變化具有穩(wěn)健性，并且在不同的環(huán)境類型（如城市和地標(biāo)）中具有統(tǒng)一性。

他們甚至發(fā)現(xiàn)，LLM還具有獨(dú)立的「空間神經(jīng)元」和「時間神經(jīng)元」，可以可靠地編碼空間和時間坐標(biāo)。

也就是說，LLM絕不僅僅是學(xué)習(xí)了表面的統(tǒng)計(jì)數(shù)據(jù)，而是獲得了關(guān)于空間和時間等基本維度的結(jié)構(gòu)化知識。

總之，大語言模型能夠理解世界。

二、LLM能理解空間和時間

在這篇論文中，研究人員提出了一個問題：LLM是否能通過數(shù)據(jù)集內(nèi)容形成世界（以及時間）模型。

研究人員試圖通過從LLM中提取真實(shí)的世界地圖，來回答這個問題。

具體來說，研究人員構(gòu)建了六個數(shù)據(jù)集，其中包含跨越多個時空維度的地點(diǎn)或事件名稱以及相應(yīng)的空間或時間坐標(biāo)：

其中包括了世界范圍內(nèi)的地址，美國國內(nèi)的地址和紐約市范圍內(nèi)的地址。

另外數(shù)據(jù)集還包括了不同的時間坐標(biāo)：

歷史人物的死亡年份
過去 3000 年的歷史
20 世紀(jì) 50 年代以來藝術(shù)作品和娛樂節(jié)目的發(fā)布日期
2010年至2020年新聞頭條的發(fā)布日期

使用 Llama 2 系列模型，研究人員訓(xùn)練了線性回歸探針（probe），研究了這些地點(diǎn)和事件在模型每一層的名稱的內(nèi)部激活，來預(yù)測它們的真實(shí)世界位置或時間。

這些探索性的實(shí)驗(yàn)揭示了模型在整個早期層中構(gòu)建空間和時間表征的證據(jù)，然后在模型中點(diǎn)附近達(dá)到穩(wěn)定狀態(tài)，這個過程的結(jié)果在較大的模型的表現(xiàn)始終優(yōu)于較小的模型。

進(jìn)一步，研究人員證明這些表征是

線性的，因?yàn)榉蔷€性探針表現(xiàn)不佳
對提示的變化能有很高的魯棒性
不同類型的概念之間是相似的（例如，城市和自然地標(biāo)之間是相似的）

研究人員認(rèn)為，對于這個結(jié)果的一種可能的解釋是，模型僅學(xué)習(xí)了從地方到國家的映射，而探針實(shí)際上學(xué)習(xí)了這些不同群體在地理空間（或時間）上如何相關(guān)的全球地理結(jié)構(gòu)。

為了研究這一點(diǎn)，研究人員進(jìn)行了一系列穩(wěn)健性檢查，以了解探針如何在不同的數(shù)據(jù)分布上進(jìn)行泛化以及在 PCA 組件上訓(xùn)練的探針如何執(zhí)行。

研究人員的研究結(jié)果表明，探針記住了這些概念的「絕對位置」，但模型確實(shí)具有一些反映「相對定位」的表征。

換句話說，探針學(xué)習(xí)了從模型中的坐標(biāo)到人類可解釋坐標(biāo)的映射。
最后，研究人員使用探針來尋找作為空間或時間函數(shù)激活的單個神經(jīng)元，提供強(qiáng)有力的證據(jù)證明該模型確實(shí)使用了這些特征。

1. 準(zhǔn)備工作

為了進(jìn)行調(diào)查，研究人員構(gòu)建了六個實(shí)體名稱（人物、地點(diǎn)、事件等）的數(shù)據(jù)集，其中還包括了它們各自的位置或發(fā)生的時間，每個數(shù)據(jù)集的規(guī)模大小不同。

對于每個數(shù)據(jù)集，研究人員包含多種類型的實(shí)體，例如城市等人口稠密的地方和湖泊等自然地標(biāo)，以研究不同對象類型的統(tǒng)一表示。

此外，研究人員優(yōu)化并且豐富了相關(guān)元數(shù)據(jù)（metadata），以便能夠通過更詳細(xì)的細(xì)分來分析數(shù)據(jù)，識別訓(xùn)練測試泄漏的來源。

2. 位置信息

研究人員構(gòu)建了世界、美國和紐約市的三個地名數(shù)據(jù)集。研究人員的世界數(shù)據(jù)集是根據(jù) DBpedia Lehmann 等人查詢的原始數(shù)據(jù)構(gòu)建的。

進(jìn)一步，研究人員囊括了人口稠密的位置、自然位置和結(jié)構(gòu)性位置（例如建筑物或基礎(chǔ)設(shè)施）。然后，研究人員將這些內(nèi)容與維基百科文章進(jìn)行匹配，并過濾掉三年內(nèi)頁面瀏覽量不低于5000次的實(shí)體。

研究人員的美國數(shù)據(jù)集包括了城市、縣、郵政編碼、大學(xué)、自然地點(diǎn)和結(jié)構(gòu)的名稱，其中人口稀少或查看位置類似地被過濾掉。

紐約市數(shù)據(jù)集包含城市內(nèi)的學(xué)校、教堂、交通設(shè)施和公共住房等位置。

3. 時間信息

研究人員的三個時間數(shù)據(jù)集包括：

(1) 公元前 1000 年至公元 2000 年之間去世的歷史人物的姓名和職業(yè)，

(2) 使用維基百科頁面瀏覽量過濾技術(shù)從DBpedia構(gòu)建了包括1950年至 2020 年歌曲、電影和書籍的標(biāo)題和作者；

(3) 2010 年至 2020 年《紐約時報(bào)》新聞頭條，來自撰寫時事新聞的新聞欄目。

4. 數(shù)據(jù)準(zhǔn)備

研究人員所有的實(shí)驗(yàn)都是使用基礎(chǔ)版的Llama 2系列模型展開的，涵蓋 70 億到 700 億個參數(shù)。

對于每個數(shù)據(jù)集，研究人員通過模型運(yùn)行每個實(shí)體名稱，可能會在前面加上一個簡短的提示，并將隱藏狀態(tài)（殘留流，residual stream）的激活（activation）保存在每層的最后一個實(shí)體token上。

對于一組n個實(shí)體，這會為每個層生成一個激活數(shù)據(jù)集。

5. 探針

為了尋找LLM中空間和時間表征的證據(jù)，研究人員使用標(biāo)準(zhǔn)探針技術(shù)。

它在網(wǎng)絡(luò)激活（network activations）上擬合一個簡單的模型，用來預(yù)測與標(biāo)記輸入數(shù)據(jù)相關(guān)的一些目標(biāo)標(biāo)簽（target label）。特別是，給定激活數(shù)據(jù)集 A ∈ Rn×dmodel 和包含時間或二維緯度和經(jīng)度坐標(biāo)的目標(biāo) Y，研究人員擬合了線性嶺回歸探針（fit linear ridge regression probes）。

從而獲得了線性探針：

對樣本外數(shù)據(jù)的高預(yù)測性能表明基礎(chǔ)模型在其表示中具有可線性解碼的時間和空間信息，盡管這并不意味著該模型實(shí)際上使用了這些表征。

在所有實(shí)驗(yàn)中，研究人員在探針訓(xùn)練集上使用有效的留出交叉驗(yàn)證（efficient leave-out-out cross validation）來調(diào)整λ。

空間和時間的線性模型

6. 存在性

研究人員首先研究這個實(shí)證問題：模型是否表征時間和空間？如果是這樣，在模型內(nèi)部的什么位置？表征質(zhì)量是否會隨著模型規(guī)模的變化而發(fā)生顯著變化？

在研究人員的第一個實(shí)驗(yàn)中，研究人員為每個空間和時間數(shù)據(jù)集的Llama 2-{7B, 13B, 70B} 的每一層訓(xùn)練了探針。

研究人員的主要結(jié)果下圖所示，顯示了跨數(shù)據(jù)集相當(dāng)一致的模式。特別是，空間和時間特征都可以通過線性探針恢復(fù)。

隨著模型規(guī)模的增加，這些表示會變得更加準(zhǔn)確，并且在達(dá)到穩(wěn)定狀態(tài)之前，模型前半層的表示質(zhì)量會平穩(wěn)提高。

這些觀察結(jié)果與事實(shí)回憶文獻(xiàn)的結(jié)果一致，表明早期到中期的 MLP 層負(fù)責(zé)回憶有關(guān)事實(shí)主題的信息。

性能最差的數(shù)據(jù)集是紐約市數(shù)據(jù)集?？紤]到大多數(shù)實(shí)體與其他數(shù)據(jù)集相比相對模糊，這是預(yù)料之中的。

然而，這也是最大模型具有最佳相對性能的數(shù)據(jù)集，其R幾乎是較小模型的2倍，這表明足夠大的LLM最終可以形成各個城市的詳細(xì)空間模型。

7. 線性表征

在可解釋性的文獻(xiàn)中，越來越多的證據(jù)支持線性表征假設(shè)——神經(jīng)網(wǎng)絡(luò)中的特征是線性表示的。

也就是說，可以通過將相關(guān)激活投影到某個特征向量來讀出特征的存在或強(qiáng)度。然而，這些結(jié)果幾乎總是針對二元或分類特征，與空間或時間的自然連續(xù)特征不同。

為了測試空間和時間特征是否以線性方式表示，研究人員將線性嶺回歸探針（linear ridge regression probes）的性能與更具表現(xiàn)力的非線性MLP （ more expressive nonlinear MLP）的性能進(jìn)行了比較。

結(jié)果如下，表明對于任何數(shù)據(jù)集或模型，使用非線性探針對 R 的改進(jìn)微乎其微。

研究人員將此作為強(qiáng)有力的證據(jù)，證明空間和時間也可以線性表示（或者至少是線性可解碼的），盡管它們是連續(xù)的。

8. 對提示詞的敏感性

另一個很顯然的問題是，這些空間或時間特征是否對提示詞敏感，即上下文能否誘發(fā)或抑制對這些事實(shí)的回憶？

直觀地，對于任何實(shí)體token，自回歸模型都會被激勵來生成適合解決任何未來可能的上下文或問題的表征。

為了研究這個問題，研究人員創(chuàng)建了新的激活數(shù)據(jù)集，其中研究人員按照幾個基本主題為每個實(shí)體標(biāo)記添加了不同的提示。在所有情況下，研究人員都包含了一個「空」提示，除了實(shí)體token（以及序列token的開頭）之外不包含任何內(nèi)容。

然后，研究人員添加一個提示，要求模型回憶相關(guān)事實(shí)，例如「<位置>的經(jīng)緯度是多少？」或「<書> 的發(fā)行日期是哪一天？」。

對于美國和紐約市的數(shù)據(jù)集，研究人員還包含這些提示的版本，詢問該位置位于美國或紐約市的哪個位置，以消除常見地點(diǎn)名稱的歧義（例如市政廳）。

作為基線，研究人員包括 10 個隨機(jī)token的提示（針對每個實(shí)體進(jìn)行采樣）。為了確定研究人員是否可以混淆主題，對于某些數(shù)據(jù)集，研究人員將所有實(shí)體的名稱完全大寫。

最后，對于標(biāo)題數(shù)據(jù)集，研究人員嘗試探測最后一個token和附加到標(biāo)題的句號token。

上圖是70B模型的結(jié)果，下圖是所有模型的結(jié)果。

研究人員發(fā)現(xiàn)，明確提示模型輸入信息，或者給出消歧提示，例如某個地方位于美國或紐約市，對性能幾乎沒有影響。然而，研究人員對隨機(jī)干擾token降低性能的程度感到驚訝。

將實(shí)體名稱大寫也會降低性能，盡管不那么嚴(yán)重且不也不太出乎意料，因?yàn)檫@可能會干擾實(shí)體的「去token化」。

顯著提高性能的一項(xiàng)修改是對標(biāo)題后面的句號token進(jìn)行探測，表明句號包含了結(jié)尾的句子的一些摘要信息。

三、魯棒性檢測

上一節(jié)已經(jīng)表明，不同類型的事件或地點(diǎn)的真實(shí)時間或空間點(diǎn)可以從LLM中后期層的內(nèi)部激活中線性恢復(fù)。

然而，這并不意味著模型是否（或如何）實(shí)際上使用了由探針學(xué)習(xí)到的特征方向，因?yàn)樘结槺旧砜梢詫W(xué)習(xí)模型實(shí)際使用的更簡單特征的一些線性組合。

1. 通過泛化進(jìn)行驗(yàn)證

為了說明研究人員的結(jié)果的潛在問題，考慮表示完整世界地圖的任務(wù)。

如果模型如研究人員所期望的那樣，「在X 國」具有幾乎正交的二元特征，然后可以通過將每個國家的這些正交特征向量相加來構(gòu)建高質(zhì)量的緯度（經(jīng)度）探針，其系數(shù)等于該國家/地區(qū)的緯度（經(jīng)度）那個國家。

假設(shè)一個地方僅位于一個國家，這樣的探測會將每個實(shí)體置于其國家質(zhì)心。

然而，在這種情況下，模型實(shí)際上并不代表空間，僅代表國家成員資格，并且它只是從顯式監(jiān)督中學(xué)習(xí)不同國家?guī)缀涡螤畹奶结槨?/p>

為了更好地區(qū)分這些情況，研究人員分析了探針在提供特定數(shù)據(jù)塊時如何泛化。

特別是，研究人員訓(xùn)練了一系列探針，對于每個探針，研究人員分別提供世界、美國、紐約市、歷史人物、娛樂和頭條新聞數(shù)據(jù)集的一個國家、州、行政區(qū)、世紀(jì)、十年或年份。

然后研究人員評估對保留的數(shù)據(jù)塊的探測。在上表中，研究人員報(bào)告了完全保留時數(shù)據(jù)塊的平均鄰近誤差，與默認(rèn)訓(xùn)練-測試分割中該塊的測試點(diǎn)的誤差（對所有保留塊進(jìn)行平均）進(jìn)行比較。

研究人員發(fā)現(xiàn)，雖然泛化性能受到影響，特別是對于空間數(shù)據(jù)集，但它明顯優(yōu)于隨機(jī)數(shù)據(jù)集。通過繪制下圖中所標(biāo)注的州或國家的預(yù)測，一幅更清晰的圖樣就這樣出現(xiàn)了。

世界范圍

也就是說，探針通過將點(diǎn)放置在正確的相對位置（通過真實(shí)質(zhì)心和預(yù)測質(zhì)心之間的角度測量）而不是絕對位置來正確地進(jìn)行概括。

研究人員將此視為微弱的證據(jù)，表明探針正在通過模型提取顯式學(xué)習(xí)的特征，但正在記住從模型坐標(biāo)到人類坐標(biāo)的轉(zhuǎn)換。

然而，這并不能完全排除潛在的二元特征假設(shè)，因?yàn)榭赡艽嬖诓蛔裱瓏一蚴赀吔绲拇祟愄卣鞯膶哟谓Y(jié)構(gòu)。

2. 跨實(shí)體泛化

到目前為止，研究人員的討論中隱含的主張是，該模型以統(tǒng)一的方式表示不同類型實(shí)體（如城市或自然地標(biāo)）的空間或時間坐標(biāo)。

然而，與緯度探測可能是隸屬特征的加權(quán)和（ be a weighted sum of membership features）類似，緯度探測也可以是城市緯度和自然地標(biāo)緯度的不同（正交）方向的總和。

與上面類似，研究人員通過訓(xùn)練一系列探針來區(qū)分這些假設(shè)，其中執(zhí)行訓(xùn)練測試分割以保留特定實(shí)體類的所有點(diǎn)如下表所示，了鄰近度與保留時相比，默認(rèn)測試拆分中的實(shí)體的誤差，如之前對所有此類拆分進(jìn)行平均。

結(jié)果表明，探針在很大程度上概括了實(shí)體類型，只有娛樂數(shù)據(jù)集除外。

3. 空間和時間神經(jīng)元

雖然之前的這些結(jié)果很有啟發(fā)性，但沒任何證據(jù)直接表明模型使用了探針學(xué)習(xí)到的特征。
為解決這個問題，研究人員搜索了具有輸入或輸出權(quán)重的單個神經(jīng)元，這些權(quán)重與學(xué)習(xí)的探測方向具有高余弦相似性。

也就是說，研究人員尋找的神經(jīng)元，其讀取或?qū)懭氲姆较蚺c探針學(xué)習(xí)到的方向相似。

他們發(fā)現(xiàn)，將激活數(shù)據(jù)集投射到最相似神經(jīng)元的權(quán)重上時，這些神經(jīng)元確實(shí)對實(shí)體在空間或時間上的真實(shí)位置高度敏感。

也就是說，模型中存在個別神經(jīng)元，它們本身就是具有相當(dāng)預(yù)測能力的特征探針。

此外，這些神經(jīng)元對數(shù)據(jù)集中的所有實(shí)體類型都很敏感，這就更加表明了，這些表征是統(tǒng)一的。

如果說，在顯式監(jiān)督下訓(xùn)練的探針，是模型表示這些空間和時間特征程度的近似上限，那么單個神經(jīng)元的表現(xiàn)就是下限。

特別是，學(xué)者們通常認(rèn)為特征是疊加分布的，這使得單個神經(jīng)元的分析水平是錯誤的。

盡管如此，這些單個神經(jīng)元的存在（除了下一個token預(yù)測之外，它們沒有接受任何監(jiān)督）依然是強(qiáng)有力的證據(jù)，證明模型學(xué)習(xí)并使用了空間和時間的特征。

奧賽羅GPT證明LLM理解世界，獲吳恩達(dá)力贊

啟發(fā)MIT研究者最直接的靈感，就是此前對深度學(xué)習(xí)系統(tǒng)在多大程度上形成數(shù)據(jù)生成過程的可解釋模型的研究。
而最有力、最清晰的演示，無疑就來自在國際象棋和奧賽羅游戲上訓(xùn)練的GPT模型了——這些模型對于棋盤和游戲狀態(tài)都有明確的表征。

今年2月，來自哈佛大學(xué)、麻省理工學(xué)院的研究人員共同發(fā)表了一項(xiàng)新研究Othello-GPT，在簡單的棋盤游戲中驗(yàn)證了內(nèi)部表征的有效性。

他們認(rèn)為語言模型的內(nèi)部確實(shí)建立了一個世界模型，而不只是單純的記憶或是統(tǒng)計(jì)，不過其能力來源還不清楚。

實(shí)驗(yàn)過程非常簡單，在沒有任何奧賽羅規(guī)則先驗(yàn)知識的情況下，研究人員發(fā)現(xiàn)模型能夠以非常高的準(zhǔn)確率預(yù)測出合法的移動操作，捕捉棋盤的狀態(tài)。

吳恩達(dá)在「來信」欄目中對該研究表示高度認(rèn)可，他認(rèn)為基于該研究，有理由相信大型語言模型構(gòu)建出了足夠復(fù)雜的世界模型，在某種程度上來說，確實(shí)理解了世界。

4. 棋盤世界模型

如果把棋盤想象成一個簡單的「世界」，并要求模型在對局中不斷決策，就可以初步測試出序列模型是否能夠?qū)W習(xí)到世界表征。

研究人員選擇一個簡單的黑白棋游戲奧賽羅（Othllo）作為實(shí)驗(yàn)平臺，其規(guī)則是——

在8*8棋盤的中心位置，先放入四個棋子，黑白各兩個；然后雙方輪流下子，在直線或斜線方向，己方兩子之間的所有敵子（不能包含空格）全部變?yōu)榧鹤樱ǚQ為吃子），每次落子必須有吃子；最后棋盤全部占滿，子多者為勝。

相比國際象棋來說，奧賽羅的規(guī)則簡單得多；同時棋類游戲的搜索空間足夠大，模型無法通過記憶完成序列生成，所以很適合測試模型的世界表征學(xué)習(xí)能力。

5. Othello語言模型

研究人員首先訓(xùn)練了一個GPT變體版語言模型（Othello-GPT），將游戲腳本（玩家做出的一系列棋子移動操作）輸入到模型中，但模型沒有關(guān)于游戲及相關(guān)規(guī)則的先驗(yàn)知識。
模型也沒有被明確訓(xùn)練以追求策略提升、贏得對局等，只是在生成合法奧賽羅移動操作時準(zhǔn)確率比較高。

6. 數(shù)據(jù)集

研究人員使用了兩組訓(xùn)練數(shù)據(jù)：

錦標(biāo)賽（Championship）更關(guān)注數(shù)據(jù)質(zhì)量，主要是從兩個奧賽羅錦標(biāo)賽中專業(yè)的人類玩家采用的、更具戰(zhàn)略思考的移動步驟，但分別只收集到7605個和132921個游戲樣本，兩個數(shù)據(jù)集合并后以8：2的比例隨機(jī)分成訓(xùn)練集（2000萬個樣本）和驗(yàn)證集（379.6萬個）。

合成（Synthetic）更關(guān)注數(shù)據(jù)的規(guī)模，由隨機(jī)的、合法的移動操作組成，數(shù)據(jù)分布不同于錦標(biāo)賽數(shù)據(jù)集，而是均勻地從奧賽羅游戲樹上采樣獲得，其中2000萬個樣本用于訓(xùn)練，379.6萬個樣本用于驗(yàn)證。

每場游戲的描述由一串token組成，詞表大小為60（8*8-4）。

7. 模型和訓(xùn)練

模型的架構(gòu)為8層GPT模型，具有8個頭，隱藏維度為512。

模型的權(quán)重完全隨機(jī)初始化，包括word embedding層，雖然表示棋盤位置的詞表內(nèi)存在幾何關(guān)系（如C4低于B4），但這種歸納偏置并沒有明確表示出來，而是留給模型學(xué)習(xí)。

8. 預(yù)測合法移動

模型的主要評估指標(biāo)就是模型預(yù)測的移動操作是否符合奧賽羅的規(guī)則。

在合成數(shù)據(jù)集上訓(xùn)練的Othello-GPT錯誤率為0.01%，在錦標(biāo)賽數(shù)據(jù)集上的錯誤率為5.17%，相比之下，未經(jīng)訓(xùn)練的Othello-GPT的錯誤率為93.29%，也就是說這兩個數(shù)據(jù)集都一定程度上讓模型學(xué)會了游戲規(guī)則。

一個可能的解釋是，模型記住了奧賽羅游戲的所有移動操作。

為了驗(yàn)證這個猜想，研究人員合成了一個新的數(shù)據(jù)集：在每場比賽開始時，奧賽羅有四種可能的開局棋位置（C5、D6、E3和F4），將所有C5開局的走法移除后作為訓(xùn)練集，再將C5開局的數(shù)據(jù)作為測試，也就是移除了近1/4的博弈樹，結(jié)果發(fā)現(xiàn)模型錯誤率仍然只有0.02%。

所以O(shè)thello-GPT的高性能并不是因?yàn)橛洃?，因?yàn)闇y試數(shù)據(jù)是訓(xùn)練過程中完全沒見過的，那到底是什么讓模型成功預(yù)測？

四、探索內(nèi)部表征

一個常用的神經(jīng)網(wǎng)絡(luò)內(nèi)部表征探測工具就是探針（probe），每個探針是一個分類器或回歸器，其輸入由網(wǎng)絡(luò)的內(nèi)部激活組成，并經(jīng)過訓(xùn)練以預(yù)測感興趣的特征。
在這個任務(wù)中，為了檢測Othello-GPT的內(nèi)部激活是否包含當(dāng)前棋盤狀態(tài)的表征，輸入移動序列后，用內(nèi)部激活向量對下一個移動步驟進(jìn)行預(yù)測。

當(dāng)使用線性探針時，訓(xùn)練后的Othello-GPT內(nèi)部表征只比隨機(jī)猜測的準(zhǔn)確率高了一點(diǎn)點(diǎn)。

當(dāng)使用非線性探針（兩層MLP）時，錯誤率大幅下降，證明了棋盤狀態(tài)并不是以一種簡單的方式存儲在網(wǎng)絡(luò)激活中。

五、干預(yù)實(shí)驗(yàn)

為了確定模型預(yù)測和涌現(xiàn)世界表征之間的因果關(guān)系，即棋盤狀態(tài)是否確實(shí)影響了網(wǎng)絡(luò)的預(yù)測結(jié)果，研究人員進(jìn)行了一組干預(yù)（intervention）試驗(yàn)，并測量由此產(chǎn)生的影響程度。
給定來自O(shè)thello-GPT的一組激活，用探針預(yù)測棋盤狀態(tài)，記錄相關(guān)聯(lián)的移動預(yù)測，然后修改激活，讓探針預(yù)測更新的棋盤狀態(tài)。

干預(yù)操作包括將某個位置的棋子從白色變成黑色等，一個小的修改就會導(dǎo)致模型結(jié)果發(fā)現(xiàn)內(nèi)部表征能夠可靠地完成預(yù)測，即內(nèi)部表征與模型預(yù)測之間存在因果影響。

六、可視化

除了干預(yù)實(shí)驗(yàn)驗(yàn)證內(nèi)部表征的有效性外，研究人員還將預(yù)測結(jié)果可視化，比如說對于棋盤上的每個棋子，可以詢問模型如果用干預(yù)技術(shù)將該棋子改變，模型的預(yù)測結(jié)果將如何變化，對應(yīng)預(yù)測結(jié)果的顯著性。