OpenAI 鬧劇中被忽略的一部分——AI對齊

0 評論 1345 瀏覽 2 收藏 16 分鐘

就在近日,OpenAI內部發(fā)生了人事變動,而在這場變動背后,我們或許忽略了一個部分,即“AI對齊”。怎么理解“AI對齊”?這篇文章里,作者做了拆解與分析,一起來看看,或許想了解AI行業(yè)更多內容的同學會感興趣。

OpenAI公司與它的大模型產(chǎn)品ChatGPT最大的共同點是什么?

人們知道它們每天發(fā)生了什么,但是不知道是如何發(fā)生的。

我們使用 AI 大模型,驚喜于它給出的每一個回復,但還沒有誰弄清楚 AI 的智能是如何起作用的。為了確保大模型能夠按照人類的意愿工作, 幾乎每個大模型產(chǎn)品內部都會被注入一段算法,這段算法保證 AI 工作與人類意愿對齊。不同的力量都在試圖對齊這家公司,Ilya Sutskever 成為「執(zhí)劍者」,Sam Altman 給出了反擊,雙方的兩種立場讓這家 AI 大模型公司內部的分歧浮出水面。

這種分歧會體現(xiàn)在理念、公司方向、利益和資源分配,以及產(chǎn)品的市場表現(xiàn)等方面。把目光聚焦在分歧之上,對于大模型創(chuàng)業(yè)公司來說更有意義。

技術追求和商業(yè)擴張主導著商業(yè)體成長,OpenAI 和大多數(shù)商業(yè)公司一樣,長期以來保持著兩股力量的微妙平衡,直到 11 月 17 日,天平發(fā)生了傾斜。

這種平衡是如何保持的?圍繞 AI 有哪些分歧?裂縫又是如何擴大的?ChatGPT 現(xiàn)象讓全世界知道了大模型、Transformer 等新事物,但另一個起關鍵作用的力量 —— AI 對齊被忽視了。

一、被忽視的算法

OpenAI 的在初代 GPT-3 上投喂了 3000 億單詞的語料,其中擁有 1750 億參數(shù)。這樣訓練出來的模型就像掌握了世界知識的兒童,懂得很多,但交流困難。

讓 OpenAI 在全世界范圍破圈的 ChatGPT 來自于 GPT-3 的變體,它比 GPT-3 的表現(xiàn)更穩(wěn)定,更能夠模擬人與人之間的正常對話。

ChatGPT 一發(fā)布就成為現(xiàn)象級產(chǎn)品,在此之前,GPT-3 的 API 已經(jīng)推向市場很長時間,但僅在小范圍引發(fā)討論。

成就 ChatGPT 的關鍵技術是 RLHF 算法 —— 基于人類反饋的強化學習。

GPT-3 在與人的交流中給出的回答質量參差不齊,OpenAI 通過人工干預的方式,對高質量回答標記正反饋,從而強化 GPT 做出更多高質量的回答。這樣的工作得到了出乎意料的效果,ChatGPT 因此有了建模對話歷史、增加對話信息量,以及拒絕回答超綱問題等能力。RLHF 算法就像是家長的角色,幫助掌握了知識的兒童學會順暢地溝通表達。可需要強調的是,RLHF 并沒有額外注入能力,而是幫助大模型解鎖了能力。

比如,ChatGPT 拒絕回答問題時會回復統(tǒng)一的開頭:「作為 OpenAI 訓練的語言模型」。這句話因為在 RLHF 訓練中得到了更多的正反饋,因此被 ChatGPT 拿來當做標準模板。事實上,并沒有一個命令讓 ChatGPT 必須使用這句話。

OpenAI 認為,ChatGPT 的突破之所以可能,離不開 RLHF。而 RLHF 算法的工作就叫做 AI 對齊。

AI 對齊是為了保證 AI 按照人類的意圖和價值觀做事,給出人類有用的、誠實的和無害的結果。在今天運行的大模型訓練當中,對齊已經(jīng)成為最為必要的部分之一。

除了上面提到的 ChatGPT 的例子,AI 對齊還要解決 AI 在交流中會給出錯誤信息和算法歧視等問題,被人類濫用、「越獄」等問題,以及應對未來隨著 AI 能力「涌現(xiàn)」而可能出現(xiàn)的失控風險。因此可以把 AI 對齊比作是一場人類跟 AI 進化的賽跑,更強的 AI 系統(tǒng)需要更多的對齊工作,也面臨更高等級的風險。

但 AI 大模型內部原理對于前沿的 AI 實驗室來說仍然是個「黑箱」,這就要求 AI 對齊要盡量跑在大模型的前面,并要求大模型是一個穩(wěn)定的研究對象。

OpenAI 超級對齊負責人 Jan Leike 做過一個預判,構建高性能的強 AI 系統(tǒng)需要兩個因素:能力和對齊。但在當前的弱 AI 時期,大模型沒有能力帶來災難性后果,與 GPT 給人類帶來的驚喜相比,AI 對齊的重要性存在被輕視的情況。對齊算法會在大模型運行過程中分走部分算力資源,也會影響大模型輸出的結果,人們常把這種影響叫做「性能閹割」,把對齊分走的算力稱為「對齊稅」。

二、CEO和首席科學家的分歧

回到 OpenAI 的這場鬧劇,如果把 OpenAI 看作一個 AI 大模型,Sam Altman 主張?zhí)嵘芰Γㄟ^融資和商業(yè)化等操作吞噬巨量資源,追求變快變強。Ilya Sutskever 領導的部分則像 AI 對齊一樣的存在,主張小心翼翼地把車開穩(wěn)。

隨著 AI 大模型發(fā)展加速,OpenAI 意識到要把對齊工作提升到新的高度。今年 7 月,OpenAI 宣布成立超級對齊團隊(Superalignment),由 Ilya Sutskever 和 Jan Leike 兩位科學家領導,他們將帶著公司 20% 的算力資源,在 4 年內解決超智能 AI 系統(tǒng)的價值對齊和安全問題。

與此同時,Sam Altman 帶著 GPT 進化,連續(xù)推動發(fā)布性能更強的 GPT 版本。

可以看到,兩個工作團隊即使不存在分歧,至少也存在張力,裂縫可能從這里開始產(chǎn)生。

Ilya Sutskever 指責 Sam Altman 在與董事會的溝通中始終不坦誠,阻礙了董事會履行職責的能力。而董事會的職責是確保 OpenAI 作為一家非營利組織能夠開發(fā)造福全人類的「通用人工智能 AGI」。

在今年僅剩 6 人的董事會中,有 4 人更認可 AI 安全的重要性,Ilya Sutskever 因此能夠使用投票權開除 Sam Altman。

Ilya Sutskever 曾提到,他參與創(chuàng)建 OpenAI 的動機之一,是為了探討和解決 AGI 可能帶來的問題,包括技術和道德方面的挑戰(zhàn)。當他看到或者被告知這種挑戰(zhàn)首先出現(xiàn)在公司內部而不是 AI 當中時,他有理由為了自己的信念行使權力,裂縫由此擴大。

可他始終沒有給出具體的例證說明 Sam Altman 不坦誠在哪里,會帶來哪些后果。Ilya Sutskever 挑起的風波就像 AI 對齊工作中被拿走的「對齊稅」,他暫時限制了 OpenAI 的能力,又無法說明在他眼中這種限制的必要性。

房間里有一頭大象,有少數(shù)人看到了,但只有更少數(shù)人行動。人們要做出符合自身角色和價值觀的選擇,因此分歧總是會不可避免地出現(xiàn)。

即便 Sam Altman 在很多時候是 OpenAI 安全政策的倡導者,但人們無法追問他的倡導是出于應對監(jiān)管的需要,還是他真的看到了那頭大象。即便 Ilya Sutskever 深知算力對 AI 的重要性,看到 AI 更遠的未來的他只能把這種重要性放在價值排序的次席。

事件最后的焦點指向 OpenAI 的董事會,在復雜的矛盾中,董事會只支持做出 0 和 1 的選擇,在功能上沒有與這家公司的價值對齊。

鬧劇以 Sam Altman 回歸暫時結束,五天前罷免他的董事會解散,新的董事會雛形將由三人組成,Quora 首席執(zhí)行官 Adam D’Angelo,F(xiàn)acebook 和 Salesforce 前高管 Bret Taylor,以及前美國財政部長 Lawrence H. Summers。

OpenAI 完成了它的對齊。

三、隱藏的模型

AI 對齊被大模型的聲量遮蓋,但暗暗決定著大模型的命運。

GPT 的發(fā)展和人類的反應一度超出了 OpenAI 的預料,在很多研究人員眼中,市面上的模型仍然遠非完美,甚至只是半成品。他們對生成式人工智能推向市場的速度和規(guī)模感到擔憂。

與之對應的,AI 對齊的重要性已經(jīng)成為 OpenAI、DeepMind、Anthropic 等前沿 AI 實驗室的共識。

按照 OpenAI 超級對齊工作負責人 Jan Leike 的說法,各家公司會很快擁有能力水平相當?shù)念A訓練語言模型,AI 對齊將決定產(chǎn)品的競爭力。

而影響競爭力的關鍵是「對齊稅」。

Jan Leike 把「對齊稅」總結為三類:性能稅、研發(fā)稅、上線時間稅。

  • 性能稅(Performance taxes):對齊模型相比未對齊模型在某些能力上表現(xiàn)下降,需要更多計算資源來彌補性能。
  • 研發(fā)稅(Development taxes):對齊模型研發(fā)工作消耗的成本,如研究人員時間、計算資源、人工成本等。
  • 上線時間稅(Time-to-deployment taxes):從預訓練模型到可用的對齊模型上線所需要的時間成本。

以性能稅為例,由于對齊模型在輸出結果上更「保守」,用戶想用它得到滿意的結果,需要更多的算力,也需要調用更多次 API,性能稅因此影響到產(chǎn)品的定價,進一步影響到用戶規(guī)模。

Jan Leike 用一個例子說明了這種相關性:OpenAI 的 DALL·E 2 模型在市場規(guī)模上不如 Stable Diffusion 和 Midjourney,因為后面兩個模型采取了較少的對齊限制。

另外,隨著大模型能力不斷增強,原來的對齊技術可能被 AI 繞過,需要不斷更新對齊技術來跟上大模型迭代,這也可能導致研發(fā)稅和上線時間稅的增加。

AI 對齊在大模型訓練中的存在感遠非只有「對齊稅」,存在于 OpenAI 的裂縫有更多延伸。

訓練 ChatGPT 的 RLHF 算法證明了對齊的價值,但它依賴大量人工參與,只能作為初階的對齊工具使用。更復雜的 AI 運行會涉及巨量的需要干預的環(huán)節(jié),這樣的對齊工作只能交給另一個或者一些 AI 來完成。即,用 AI 對齊模型幫助 AI 大模型對齊。

可以把 OpenAI 超級對齊團隊的工作看作是研發(fā) AI 對齊模型,在擁有最強大 AI 的實驗室內部隱藏著一個將用來管理 AI 的 AI。其中涉及到「解剖」 AI 大模型、AI 對抗訓練、以及這個 AI 對齊模型的對齊。

GPT 等大模型被設計用來處理自然語言,它的輸出結果可以被用戶部分地分辨真假。而 AI 對齊模型的輸出結果會更難驗證,越獄行為更隱蔽,因此需要更嚴格地對齊。

吊詭的地方就在于此,認為大模型發(fā)展太快,存在安全問題的 Ilya Sutskever,做著比 Sam Altman 更激進的工作。

四、低垂的果實

AI 能力的「涌現(xiàn)」來自于訓練量,擴大訓練規(guī)模成了玩家們堅信的方向,結果是天文數(shù)字的訓練成本投入。

GPT-3 把大模型訓練參數(shù)提高到千億規(guī)模,開啟了大模型訓練的規(guī)模競賽。百度文心、阿里通義、華為盤古等頭部公司的大模型訓練量都同步來到千億。而最新的 GPT-4 的參數(shù)規(guī)模又上一個臺階,到達了百萬億。

卻有觀點認為,訓練規(guī)模給大模型帶來的邊際效益呈遞減趨勢,有人稱為「數(shù)字泡沫」或者「AI 版摩爾定律」,在一定程度,AI 對齊工作成果支持了這種觀點。

OpenAI 在博客中提到:安全與大模型能力息息相關。一方面強調在 AI 進化過程中安全問題的重要性。另一方面也指出,AI 對齊訓練是提升 AI 能力的隱藏路徑。

后一種情況在InstructGPT 當中得到了驗證。與 GPT-3 相比,經(jīng)過對齊的InstructGPT 在輸出結果時更符合人類要求,InstructGPT 減少了生成有害內容的情況,也能給出更多真實可靠性的信息。

不僅如此,InstructGPT 比 GPT-3 使用更少的算力,它的訓練參數(shù)減少了 100 多倍,僅 13 億規(guī)模。

經(jīng)歷 OpenAI 的鬧劇,賽道上的玩家或許會認識到,把所有的成本放在算力和規(guī)模之上過于奢侈,在追求超大規(guī)模、超高算力的路上存在未被發(fā)現(xiàn)的低垂的果實。

而面對將到來的淘汰賽,不同玩家將必須在 Ilya Sutskever 和 Sam Altman 之間選邊站。

作者:肖余林;編輯:高宇雷

原文標題:電廠 | OpenAI 鬧劇中被忽略的一部分——AI對齊

來源公眾號:電廠(ID:wonder-capsule),探索科技公司的未知,為你充電。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @電廠 授權發(fā)布,未經(jīng)許可,禁止轉載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!