AI「長腦子」了?LLM驚現(xiàn)「人類腦葉」結(jié)構(gòu)并有數(shù)學(xué)代碼分區(qū),MIT大牛新作震驚學(xué)界!

1 評論 659 瀏覽 1 收藏 26 分鐘

Max Tegmark團(tuán)隊(duì)又出神作了!他們發(fā)現(xiàn),LLM中居然存在人類大腦結(jié)構(gòu)一樣的腦葉分區(qū),分為數(shù)學(xué)/代碼、短文本、長篇科學(xué)論文等部分。這項(xiàng)重磅的研究揭示了:大腦構(gòu)造并非人類獨(dú)有,硅基生命也從屬這一法則。

LLM居然長「腦子」了?

就在剛剛,MIT傳奇大牛Max Tegmark團(tuán)隊(duì)的新作,再次炸翻AI圈。

論文地址:https://arxiv.org/abs/2410.19750

他們發(fā)現(xiàn),LLM學(xué)習(xí)的概念中,居然顯示出令人驚訝的幾何結(jié)構(gòu)——

首先,它們形成一種類似人類大腦的「腦葉」;其次,它們形成了一種「語義晶體」,比初看起來更精確;并且,LLM的概念云更具分形特征,而非圓形。

具體而言,這篇論文探討了LLM中稀疏自編碼器(SAE)的特征向量表示的。

Max Tegmark團(tuán)隊(duì)的研究結(jié)果表明,SAE特征所代表的概念宇宙在多個(gè)空間尺度上展現(xiàn)出有趣的結(jié)構(gòu),從語義關(guān)系的原子層面到整個(gè)特征空間的大規(guī)模組織。

這就為我們理解LLM的內(nèi)部表征和處理機(jī)制,提供了全新的見解。

總之,這個(gè)研究實(shí)在太過震撼!網(wǎng)友直言:如果LLM和人腦相似,這實(shí)在是給人一種不好的預(yù)感……

所以,美麗的自然法則并不獨(dú)屬于人類,硅基也從屬于這一法則。

這個(gè)發(fā)現(xiàn)證明了:數(shù)學(xué)才是一切的基礎(chǔ),而非人類構(gòu)造。

一、LLM的三個(gè)層面:原子,大腦和星系

團(tuán)隊(duì)發(fā)現(xiàn),SAE特征的概念宇宙在三個(gè)層面上都具有有趣的結(jié)構(gòu):

  1. 小尺度「原子」
  2. 中尺度「大腦」
  3. 大尺度「星系」

原子級的微觀結(jié)構(gòu),包含面為平行四邊形或梯形的「晶體」,這是對經(jīng)典案例的推廣(比如「男人-女人-國王-王后」的關(guān)系)。

他們發(fā)現(xiàn),當(dāng)使用線性判別分析(LDA)高效地投影出諸如詞長等全局干擾方向時(shí),這些平行四邊形和相關(guān)函數(shù)向量的質(zhì)量會顯著提升。

而類似「大腦」的中間尺度結(jié)構(gòu),則展現(xiàn)出了明顯的空間模塊化特征,團(tuán)隊(duì)將其描述為空間集群和共現(xiàn)集群之間的對齊。

比如,數(shù)學(xué)和代碼特征形成了一個(gè)「腦葉」,跟神經(jīng)功能磁共振圖像中觀察到的人類大腦功能分區(qū)相似。

團(tuán)隊(duì)運(yùn)用多個(gè)指標(biāo),對這些功能區(qū)的空間局部性進(jìn)行了量化分析,發(fā)現(xiàn)在足夠粗略的尺度上,共同出現(xiàn)的特征簇在空間上的聚集程度遠(yuǎn)超過特征幾何隨機(jī)分布情況下的預(yù)期值。

而在「星系」的大尺度結(jié)構(gòu)上,特征點(diǎn)云并非呈各向同性(各個(gè)方向性質(zhì)相同),而是表現(xiàn)出特征值冪律分布,中間層的斜率最抖。

而聚類熵也在中間層周圍達(dá)到峰值!

看完這個(gè)研究,有網(wǎng)友給出了這樣的評價(jià)——

「如果這項(xiàng)研究出自Max Tegmark之外的任何人,我都會覺得他是瘋子。但Tegmark是我們這個(gè)時(shí)代最優(yōu)秀的科學(xué)家之一。當(dāng)我說意識是一種數(shù)學(xué)模式、一種物質(zhì)狀態(tài)時(shí),我引用的是他?!?/p>

二、LLM學(xué)習(xí)概念中,驚人的三層幾何結(jié)構(gòu)

去年,AI圈在理解LLM如何工作上取得了突破,稀疏自編碼器在其激活空間中,發(fā)現(xiàn)了大量可以解釋為概念的點(diǎn)(「特征」)。

稀疏自編碼器作為在無監(jiān)督情況下發(fā)現(xiàn)可解釋語言模型特征的方法,受到了很多關(guān)注,而檢查SAE特征結(jié)構(gòu)的工作則較少。

這類SAE點(diǎn)云最近已經(jīng)公開,MIT團(tuán)隊(duì)認(rèn)為,是時(shí)候研究它們在不同尺度上的結(jié)構(gòu)了。

「原子」尺度:晶體結(jié)構(gòu)

在SAE特征的點(diǎn)云中,研究者試圖尋找一種稱之為「晶體結(jié)構(gòu)」的東西。

這是指反映概念之間語義關(guān)系的幾何結(jié)構(gòu),一個(gè)經(jīng)典的例子就是(a, b, c, d)=(男人,女人,國王,女王)。

它們形成了一個(gè)近似的平行四邊形,其中b?a≈d?c。

這可以解釋為,兩個(gè)函數(shù)向量b?a和c?a分別將男性實(shí)體變?yōu)榕裕瑢?shí)體變?yōu)榛适摇?/p>

研究者還搜索了只有一對平行邊b?a ∝ d?c的梯形(對應(yīng)于僅一個(gè)函數(shù)向量)。

圖1(右)即為這樣的一個(gè)例子:(a, b, c, d)=(奧地利,維也納,瑞士,伯爾尼),其中函數(shù)向量可以解釋為將國家映射到其首都。

研究者通過計(jì)算所有成對的差向量并對其進(jìn)行聚類來搜索晶體,這應(yīng)該會產(chǎn)生與每個(gè)函數(shù)向量相對應(yīng)的一個(gè)簇。

簇中的任何一對差向量,應(yīng)該構(gòu)成梯形或平行四邊形,這取決于在聚類之前差向量是否被歸一化(或者可以等效于,是否通過歐幾里得距離或余弦相似度,來量化了兩個(gè)差向量之間的相似性)。

最初搜索SAE晶體時(shí),研究者發(fā)現(xiàn)的大多是噪聲。

為什么會出現(xiàn)這種情況?

為了調(diào)查原因,研究者將注意力集中在了在第0層(token嵌入)和第1層,在這些層中,許多SAE特征與單個(gè)詞相對應(yīng)。

然后,他們研究了Gemma2 2B模型中來自數(shù)據(jù)集的殘差流激活,這些激活對應(yīng)于先前報(bào)告的詞->詞函數(shù)向量,于是搞明白了這個(gè)問題。

如圖1所示,晶體四重向量通常遠(yuǎn)非平行四邊形或梯形。

這與多篇論文指出的情況一致,即(男,女,國王,王后)并不是一個(gè)準(zhǔn)確的平行四邊形。

之所以會有這種現(xiàn)象,是因?yàn)榇嬖谝环N所謂的「干擾特征」。

比如,圖1(右)中的橫軸主要對應(yīng)于單詞長度。

這在語義上是不相關(guān)的,并且對梯形(左)造成了嚴(yán)重破壞,因?yàn)椤窼witzerland」要比其他的詞長很多。

為了消除這些語義上無關(guān)的干擾向量,研究者希望將數(shù)據(jù)投影到與這些干擾向量正交的低維子空間上。

對于數(shù)據(jù)集,他們使用了線性判別分析(LDA)來實(shí)現(xiàn)這一點(diǎn)。LDA將數(shù)據(jù)投影到信號噪聲比特征模式上,其中「信號」和「噪聲」分別定義為簇間變化和簇內(nèi)變化的協(xié)方差矩陣。

這種仿佛顯著改善了簇和梯形/平行四邊形的質(zhì)量,突顯出干擾特征可能掩蓋了現(xiàn)有的晶體結(jié)構(gòu)。

「大腦」尺度:中等尺度的模塊結(jié)構(gòu)

接下來,我們到了論文最精彩的地方。

在這一部分,研究者們縮小了視角,試圖尋找更大規(guī)模的結(jié)構(gòu)。

他們研究了功能相似的SAE特征組(這些特征組傾向于一起激活),想看看它們是否在幾何上也是相似的,是否會在激活空間中形成「腦葉」。

在動物的大腦中,這種功能組就是眾所周知的神經(jīng)元所在的三維空間中的簇。

例如,布羅卡區(qū)涉及語言生成,聽覺皮層處理聲音,杏仁核主要處理情緒。

研究者非常好奇,是否可以在SAE特征空間中找到類似的功能模塊呢?

他們測試了多種方法,來自動發(fā)現(xiàn)這類功能性「腦葉」,并量化它們是否是空間模塊化的。

他們將腦葉分區(qū)定義為點(diǎn)云的一個(gè)k子集的劃分,這種分區(qū)的計(jì)算不使用位置信息,相反,他們是基于它們在功能上的關(guān)聯(lián)性來識別這些腦葉分區(qū)的。

具體來說,這些腦葉在同一文檔內(nèi)傾向于一起激活。

為了自動識別功能腦葉,研究者首先計(jì)算了SAE特征共現(xiàn)的直方圖。

他們使用Gemma2 2B模型處理了來自The Pile的文檔。

研究者發(fā)現(xiàn),在第12層的殘差流SAE具有16k個(gè)特征,平均L0為41。

他們記錄了這個(gè)SAE被激活的特征(如果某特征的隱藏激活值> 1,則將其視為被激活)。

如果兩個(gè)特征在同一個(gè)256個(gè)token的塊內(nèi)同時(shí)激活,則它們被視為共現(xiàn)。

此長度提供了一種粗略的「時(shí)間分辨率」,使他們能夠發(fā)現(xiàn)傾向于在同一文檔中共同激活的token,而不僅限于同一token。

研究者使用了最大長度為1024的上下文,并且每個(gè)文檔只使用一個(gè)這樣的上下文,這就使他們在The Pile的每個(gè)文檔中最多有4個(gè)塊(和直方圖更新)。

他們在5萬個(gè)文檔中計(jì)算了直方圖。

基于此直方圖,他們根據(jù)SAE特征的共現(xiàn)統(tǒng)計(jì),計(jì)算了每對特征之間的親和分?jǐn)?shù),并對得到的親和矩陣進(jìn)行了譜聚類。

研究者嘗試了以下基于共現(xiàn)的親和度計(jì)算方法:簡單匹配系數(shù)、Jaccard相似度、Dice系數(shù)、重疊系數(shù)和Phi系數(shù),這些都可以僅通過共現(xiàn)直方圖計(jì)算得出。

研究者們原本假設(shè),功能上相似的點(diǎn)(即常見的共現(xiàn)SAE特征)在激活空間中應(yīng)該是均勻分布的,不會表現(xiàn)出空間模塊性。

然而,出乎他們意料,圖2顯示出:腦葉在視覺上呈現(xiàn)出相當(dāng)集中的空間分布!

在SAE點(diǎn)云中識別出的特征傾向于在文檔中一起激活,同時(shí)也在幾何上共同定位于功能「腦葉」中,左側(cè)的2腦葉劃分將點(diǎn)云大致分為兩部分,分別在代碼/數(shù)學(xué)文檔和英文文檔上激活。右側(cè)的3腦葉劃分主要將英文腦葉細(xì)分為一個(gè)包含簡短消息和對話的部分,以及一個(gè)主要包含長篇科學(xué)論文的部分

為了量化其統(tǒng)計(jì)顯著性,研究者使用了兩種方法來排除原假設(shè):

1. 雖然可以基于特征是否同時(shí)出現(xiàn)進(jìn)行聚類,但也可以基于SAE特征解碼向量的余弦相似度來進(jìn)行譜聚類。

他們首先使用了余弦相似度對SAE特征進(jìn)行聚類,然后使用共現(xiàn)對特征進(jìn)行聚類,之后計(jì)算這兩組標(biāo)簽之間的相互信息。

在某種意義上,這直接衡量了通過了解功能結(jié)構(gòu)可以獲得多少關(guān)于幾何結(jié)構(gòu)的信息。

2. 另一個(gè)方法就是訓(xùn)練模型,通過幾何信息預(yù)測特征所屬的功能腦葉。

為此,研究者將基于共現(xiàn)聚類得到的腦葉標(biāo)簽集作為目標(biāo),使用邏輯回歸模型直接根據(jù)點(diǎn)的位置預(yù)測這些標(biāo)簽,并使用80-20的訓(xùn)練-測試集劃分,報(bào)告該分類器的平衡測試準(zhǔn)確率。

左上:空間聚類與功能聚類之間的調(diào)整互信息。右上:邏輯回歸的平衡測試準(zhǔn)確率,用位置預(yù)測基于共現(xiàn)的聚類標(biāo)簽。左下:隨機(jī)置換余弦相似度聚類標(biāo)簽后的調(diào)整互信息。右下:隨機(jī)單位范數(shù)特征向量的平衡測試準(zhǔn)確率。報(bào)告的統(tǒng)計(jì)顯著性基于Phi系數(shù)的腦葉聚類

圖3顯示,對于兩種度量方法,Phi系數(shù)效果最佳,提供了功能腦葉與特征幾何形狀之間的最佳對應(yīng)關(guān)系。

為了證明其統(tǒng)計(jì)顯著性,研究者隨機(jī)打亂了基于余弦相似度聚類的簇標(biāo)簽,并測量了調(diào)整后的相互信息。

同時(shí),他們使用隨機(jī)高斯分布,對SAE特征解碼方向重新初始化并歸一化,然后訓(xùn)練邏輯回歸模型從這些特征方向預(yù)測功能腦葉。

圖3(下)顯示,兩項(xiàng)測試都以極高的顯著性排除了零假設(shè),分別達(dá)到了954和74個(gè)標(biāo)準(zhǔn)差,這就明確表明:研究者所觀察到的腦葉是真實(shí)的,而非統(tǒng)計(jì)偶然!

為了評估每個(gè)腦葉的專長,他們將The Pile數(shù)據(jù)集中的1萬份文檔輸入了Gemma2 2B模型,并再次記錄了第12層中每256個(gè)token塊內(nèi)觸發(fā)的SAE特征。

對于每個(gè)token塊,他們都記錄了具有最高特征觸發(fā)比例的腦葉。

The Pile中的每個(gè)文檔都帶有名稱,指定該文檔屬于語料庫的哪個(gè)子集。對于每種文檔類型,針對該類型文檔中每個(gè)256 token塊,他們都會記錄哪一個(gè)腦葉具有最高的SAE特征觸發(fā)比例。

跨越數(shù)千份文檔后,可以查看每種文檔類型中,哪個(gè)腦葉的激活比例最高的直方圖。

在圖4中,研究者展示了使用Phi系數(shù)作為共現(xiàn)度量計(jì)算的三個(gè)腦葉結(jié)果,這構(gòu)成了圖2中腦葉標(biāo)記的基礎(chǔ)。

每個(gè)腦葉都具有最高比例的激活特征上下文分?jǐn)?shù)。腦葉2通常在代碼和數(shù)學(xué)文檔上不成比例地被激活,腦葉0在包含文本(聊天記錄、會議記錄)的文檔上激活更多,腦葉1在科學(xué)論文上激活更多

圖5對比了五種不同共現(xiàn)度量的效果。盡管Phi系數(shù)最佳,但五種度量方法均能夠識別出「代碼/數(shù)學(xué)腦葉」。

「星系」尺度:「大規(guī)?!裹c(diǎn)云結(jié)構(gòu)

最后一種,讓我們進(jìn)一步拉遠(yuǎn)視角,看看大模型在「星系」尺度結(jié)構(gòu)中,點(diǎn)云的樣子。

主要是研究其整體形狀、聚類,類似于天文學(xué)家研究硬核系形狀和子結(jié)構(gòu)的方式。

接下來,研究人員試圖去排除一個(gè)簡單的零假設(shè)(null hypothesis):點(diǎn)云只是從各向同性多元高斯分布中采樣的。

如圖6直觀地表明,即使在其前三個(gè)主要成分中,點(diǎn)云分布也不完全是圓形的,某些主軸略寬于其他軸,類似人腦的形狀。

形狀分析

圖7(左)通過點(diǎn)云協(xié)方差矩陣的特征值排序,來量化這一現(xiàn)象。

它揭示出,這些特征值并非是恒定的,而是呈現(xiàn)出冪律衰減。

為了檢驗(yàn)這個(gè)令人驚訝的冪律是否顯著,圖中將其與從各向同性高斯分布中抽取的點(diǎn)云的相應(yīng)特征值譜進(jìn)行比較。

結(jié)果顯示,后者更加平攤,并且與分析預(yù)測一致:

從多元高斯分布中抽取的N個(gè)隨機(jī)向量的協(xié)方差矩陣遵循Wishart分布

這一點(diǎn),已經(jīng)在隨機(jī)矩陣?yán)碚撝校玫搅顺浞值难芯俊?/p>

由于,最小特征值的急劇下降是由有限數(shù)據(jù)引起的,并在N趨于無窮大時(shí)消失,研究人員在后續(xù)分析中,將點(diǎn)云降維到其100個(gè)主成分。

換句話說,點(diǎn)云的形狀像一個(gè)「分形黃瓜」,其在連續(xù)維度上的寬度像冪律一樣下降。

研究人員發(fā)現(xiàn),與SAE特征相比,激活值的冪律特征明顯較弱。未來,進(jìn)一步研究其成因,也將是一個(gè)有趣的方向。

圖7(右)顯示了,上述冪律的斜率如何隨LLM層數(shù)變化,這是通過對100個(gè)最大特征進(jìn)行線性回歸計(jì)算得到的。

研究人員觀察到一個(gè)清晰的模式:

中間層具有最陡的冪律斜率(第12層的斜率為-0.47),而早期和后期層(如第0層和第24層)的斜率較為平緩(分別為-0.24和-0.25)。

這可能暗示了,中間層充當(dāng)了一個(gè)瓶頸,將信息壓縮到更少的主成分中,或許是為了更有效表示高層抽象概念。

圖7(右)還在對數(shù)尺度上,展示了有效云體積(協(xié)方差矩陣的行列式)如何隨層數(shù)變化。

聚類分析

一般來說,星系或微觀粒子的聚類,通常通過冪譜或相關(guān)函數(shù)來量化。

對于研究中高維數(shù)據(jù)來說,這種量化變得很復(fù)雜。

因?yàn)榈讓用芏葧S著半徑變化,而對于高維高斯分布,密度強(qiáng)烈集中在相對較薄的球殼周圍。

由此,研究人員選擇通過估計(jì)點(diǎn)云,假定采樣的分布的「熵」來量化聚類。

他們使用k-NN方法來估計(jì)熵H,計(jì)算如下:

其中ri是點(diǎn)i到第k個(gè)最近鄰的距離,d是點(diǎn)云的維度;n是點(diǎn)的數(shù)量;常數(shù)Ψ是k-NN估計(jì)中的digamma項(xiàng)。

作為基線,高斯熵代表了給定協(xié)方差矩陣的最大可能熵。

對于具有相同協(xié)方差矩陣的高斯分布,熵的計(jì)算方法如下:

其中λi是協(xié)方差矩陣的特征值。

研究人員定義聚類熵,或「負(fù)熵」,為Hgauss ? H,即熵比其最大允許值低多少。

圖8顯示了不同層的估計(jì)聚類熵。

可以看到,SAE點(diǎn)云在中間層強(qiáng)烈聚集。

在未來研究中,研究這些變化是否主要取決于不同層中晶體或葉狀結(jié)構(gòu)的顯著性,或者是否有完全不同的起源,將會是一個(gè)有趣的方向。

三、破解LLM運(yùn)作機(jī)制黑箱,人類再近一步

總而言之,MIT團(tuán)隊(duì)這項(xiàng)最新研究中,揭示了SAE點(diǎn)云概念空間具有三層有趣的結(jié)構(gòu):

原子尺度的晶體結(jié)構(gòu);大腦尺度的模塊結(jié)構(gòu);星系尺度的點(diǎn)云結(jié)構(gòu)。

正如網(wǎng)友所言,親眼目睹了人類硅基孩子在我面前成長,既令人敬畏又令人恐懼。

Max Tegmark出品,必屬精品。

此前就有人發(fā)現(xiàn),僅在下一個(gè)token預(yù)測上訓(xùn)練的序列模型中,存在線性表征的類似證據(jù)。

23年2月,哈佛、MIT的研究人員發(fā)表了一項(xiàng)新研究Othello-GPT,在簡單的棋盤游戲中驗(yàn)證了內(nèi)部表征的有效性。

在沒有任何奧賽羅規(guī)則先驗(yàn)知識的情況下,研究人員發(fā)現(xiàn)模型能夠以非常高的準(zhǔn)確率預(yù)測出合法的移動操作,捕捉棋盤的狀態(tài)。

他們認(rèn)為語言模型的內(nèi)部確實(shí)建立了一個(gè)世界模型,而不只是單純的記憶或是統(tǒng)計(jì),不過其能力來源還不清楚。

吳恩達(dá)對該研究表示了高度認(rèn)可。

受此啟發(fā),Max Tegmark團(tuán)隊(duì)發(fā)現(xiàn),Llama-2-70B竟然能夠描繪出研究人員真實(shí)世界的文字地圖,還能預(yù)測每個(gè)地方真實(shí)的緯度和經(jīng)度;而在時(shí)間表征上,模型成功預(yù)測了名人的死亡年份、歌曲電影書籍的發(fā)布日期和新聞的出版日期。

總之,這項(xiàng)研究在LLM中發(fā)現(xiàn)了「經(jīng)度神經(jīng)元」,在學(xué)界引起了巨大反響。

如今,Tegmark團(tuán)隊(duì)又再進(jìn)一步,幫我們從更微觀的角度剖析LLM的大腦。

人類離解釋LLM運(yùn)作機(jī)制的黑箱,又近了一步。

參考資料:

https://arxiv.org/abs/2410.19750

編輯:編輯部 HYZ

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】,微信公眾號:【新智元】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 哇,AI真的越來越像人腦了,MIT的研究太震撼!

    來自遼寧 回復(fù)