LLM的范式轉(zhuǎn)移:RL帶來(lái)新的 Scaling Law
LLM(?大型語(yǔ)言模型)?的范式轉(zhuǎn)移正在由RL(?強(qiáng)化學(xué)習(xí))?引領(lǐng),?帶來(lái)全新的Scaling Law。?傳統(tǒng)上,?LLM的發(fā)展依賴于模型規(guī)模、?數(shù)據(jù)量和計(jì)算資源的擴(kuò)展,?而RL的引入為這一領(lǐng)域注入了新的活力。?通過(guò)強(qiáng)化學(xué)習(xí),?LLM能夠更好地適應(yīng)復(fù)雜環(huán)境和任務(wù),?實(shí)現(xiàn)更精細(xì)化的控制和優(yōu)化。?這種范式轉(zhuǎn)移不僅提升了LLM的性能,?還為其應(yīng)用開(kāi)辟了新的可能性。?隨著RL與LLM的深度融合,?我們有望見(jiàn)證一個(gè)更加智能、?高效和適應(yīng)性強(qiáng)的大型語(yǔ)言模型時(shí)代的到來(lái)。?
從幾周前 Sam Altman 在 X 上發(fā)布草莓照片開(kāi)始,整個(gè)行業(yè)都在期待 OpenAI 發(fā)布新模型。
根據(jù) The information 的報(bào)道,Strawberry 就是之前的 Q-star,其合成數(shù)據(jù)的方法會(huì)大幅提升 LLM 的智能推理能力,尤其體現(xiàn)在數(shù)學(xué)解題、解字謎、代碼生成等復(fù)雜推理任務(wù)。
這個(gè)方法也會(huì)用在 GPT 系列的提升上,幫助 OpenAI 新一代 Orion。
OpenAI 不是唯一重視 RL 和 Self-Play 的公司,Google 用 AlphaGeometry 2 + Alphaproof 奪得 IMO 銀牌之后,基于 LLM 做 reward model 的思路發(fā)了多篇 paper。Anthropic Claude 3.5 的代碼能力顯著提升,我們猜測(cè)也是以這樣的思路去引領(lǐng)變化。
今年以來(lái)我們觀察到 LLM scaling up 的邊際收益開(kāi)始遞減,用 RL self-play + MCTS 提升 LLM 推理能力成為下一個(gè)技術(shù)范式。在新范式下,LLM 領(lǐng)域的 scaling law 會(huì)發(fā)生變化:計(jì)算量變大仍會(huì)帶來(lái)模型智能的提升,但會(huì)從模型參數(shù)量變大,轉(zhuǎn)移到 inference-time compute 增加,也就是模型進(jìn)行更多 RL 探索。
本文正是在這樣的背景下分析和思考 RL 會(huì)如何給 LLM 帶來(lái)新一波的智能提升,以及這對(duì)我們未來(lái)投資、創(chuàng)業(yè)有著怎么樣的 implication。
一、為什么我們期待 RL 改變 LLM 范式?
1. LLM 利用現(xiàn)有數(shù)據(jù),RL 探索長(zhǎng)距離推理
2018 年,Lex Fridman 邀請(qǐng) Ilya 來(lái) MIT 客座講一節(jié)課,Ilya 選擇的主題是 RL 和 self-play,因?yàn)樗J(rèn)為這是通往 AGI 的路上最關(guān)鍵的方法之一。Ilya 在講座中用一句話概括了強(qiáng)化學(xué)習(xí):讓 AI 用隨機(jī)路徑去嘗試一個(gè)新的任務(wù),如果效果超出預(yù)期,就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重讓 AI 記得多使用成功的實(shí)踐,然后開(kāi)始下一次嘗試。
這個(gè)概括中可以看到強(qiáng)化學(xué)習(xí)和其他 AI 范式的重要區(qū)別,經(jīng)典三大范式(監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí))中只有強(qiáng)化學(xué)習(xí)的假設(shè)是讓 AI 進(jìn)行自主探索、連續(xù)決策,這個(gè)學(xué)習(xí)方式最接近人類的學(xué)習(xí)方式,也符合我們想象中的 AI agent 應(yīng)該具備的自主行動(dòng)能力。
強(qiáng)化學(xué)習(xí)的核心在于”探索”(Explore)和”利用”(Exploit)之間的權(quán)衡。LLM 在”利用”現(xiàn)有知識(shí)上做到了現(xiàn)階段的極致,而在”探索”新知識(shí)方面還有很大潛力,RL 的引入就是為了讓 LLM 能通過(guò)探索進(jìn)一步提升推理能力。
在實(shí)現(xiàn) RL 的過(guò)程中,有兩個(gè)核心組件。他們之間一直在反復(fù)交互,agent 在環(huán)境中執(zhí)行 action,并且根據(jù)環(huán)境的變化評(píng)估 reward:
? Environment:AI 探索完成任務(wù)的環(huán)境,當(dāng) Alphago 下圍棋時(shí),環(huán)境就是 19×19 的棋盤(pán)。環(huán)境會(huì)發(fā)生變化,AI 會(huì)從環(huán)境變化中收到 reward value 判斷過(guò)去的那一系列探索是否有明顯的收益,例如距離下圍棋勝利是否更接近了。
? Agent:agent 會(huì)根據(jù)對(duì)環(huán)境的觀測(cè)和感知來(lái)輸出一個(gè)動(dòng)作,目標(biāo)是得到更高的 reward。agent 這個(gè)概念最早就是來(lái)自強(qiáng)化學(xué)習(xí)。
如果把這里的 agent 主體換成 LLM,那么會(huì)在探索的過(guò)程中做很多 LLM inference。因此這里 RL 在 LLM 中應(yīng)用的思路本質(zhì)是用 inference time 換 training time,來(lái)解決模型 scale up 暫時(shí)邊際收益遞減的現(xiàn)狀。這勢(shì)必也會(huì)對(duì) scaling law 帶來(lái)很多變化,詳細(xì)的變化我們會(huì)在 2.3 節(jié)進(jìn)行分析。
2. self-play + MCTS:高質(zhì)量博弈數(shù)據(jù)提升 reasoning 能力
要讓 RL 算法能夠在連續(xù)推理任務(wù)上做到最好,理解 self-play + MCTS 的思路是最重要的。放到 LLM 語(yǔ)境下,self-play 是讓 LLM 同時(shí)扮演一個(gè)或多個(gè) agent model 去做推理任務(wù),并由另一個(gè) LLM 作為 reward model 來(lái)給出打分評(píng)價(jià),一定次數(shù)后更新 LLM 權(quán)重讓其多記住做得好的推理方式。
Self-play 是 AlphaZero 等強(qiáng)化學(xué)習(xí)算法的合成數(shù)據(jù)方法,最早可以追溯到 1992 年的 TD-Gammon 算法。這個(gè)方法的本質(zhì)是利用 AI 無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板,更符合當(dāng)下 AI 的優(yōu)勢(shì)。好的 self-play 能合成大量高質(zhì)量的數(shù)據(jù),甚至可能比人類歷史上見(jiàn)過(guò)的棋局、游戲數(shù)更多,用數(shù)據(jù)量來(lái)做到 super human:AlphaGo, Dota Five 都探索出了和人類不一樣的游戲套路,并戰(zhàn)勝了大部分職業(yè)選手。
讓我們以 AlphaZero 為例,在每一局對(duì)弈中,模型使用蒙特卡洛樹(shù)搜索(Monte Carlo Tree Search,MCTS)來(lái)選擇動(dòng)作。MCTS 結(jié)合了當(dāng)前神經(jīng)網(wǎng)絡(luò)提供的策略(policy)和價(jià)值(value),從而在每個(gè)游戲狀態(tài)下評(píng)估出最優(yōu)的行動(dòng)。其具體步驟如下:
- 隨機(jī)初始化: 模型從完全隨機(jī)初始化的狀態(tài)開(kāi)始,沒(méi)有任何人類先驗(yàn)知識(shí)。
- 自我對(duì)弈 (self-play): 模型自己與自己進(jìn)行對(duì)弈,生成大量的游戲數(shù)據(jù)。這些對(duì)弈中好的結(jié)果用于更新模型的參數(shù)。
- 蒙特卡洛樹(shù)搜索 (MCTS):在每一次對(duì)弈中,AlphaZero 會(huì)使用 MCTS 來(lái)搜索最佳動(dòng)作。MCTS 使用策略網(wǎng)絡(luò) (policy network) 提供的動(dòng)作概率分布和價(jià)值網(wǎng)絡(luò) (value network) 提供的局面評(píng)估結(jié)果來(lái)引導(dǎo)搜索。
- 策略更新 (policy network): 根據(jù)自我對(duì)弈的結(jié)果,使用強(qiáng)化學(xué)習(xí)的方式來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù),使得模型逐步學(xué)習(xí)到更優(yōu)的策略。
這張圖來(lái)自 AlphaTensor 論文,是Alphazero 在矩陣運(yùn)算解題時(shí)的變種。圖中的 acting 包含了上文中的前三步任務(wù),learning 步驟對(duì)應(yīng)著第4步:策略更新
AlphaZero 的神經(jīng)網(wǎng)絡(luò)架構(gòu)就是 policy network,包含了 policy head 和 value head。這是 self-play 定義的來(lái)源:policy 是負(fù)責(zé)下棋的部分,value 是負(fù)責(zé)評(píng)估的 reward model,他們來(lái)自同一個(gè)神經(jīng)網(wǎng)絡(luò)。
? 策略網(wǎng)絡(luò) (Policy head): 輸出當(dāng)前棋盤(pán)上每一個(gè)可能走子的地方的概率分布,表示模型在當(dāng)前狀態(tài)下認(rèn)為的最佳行動(dòng)。
? 價(jià)值網(wǎng)絡(luò) (Value head): 輸出一個(gè)標(biāo)量值,表示當(dāng)前棋盤(pán)狀態(tài)的評(píng)估,即模型認(rèn)為從當(dāng)前狀態(tài)到達(dá)游戲結(jié)束的勝負(fù)概率。
對(duì)比 LLM,AlphaZero 強(qiáng)調(diào)從零開(kāi)始的自我學(xué)習(xí),不依賴任何人類的歷史數(shù)據(jù)或先驗(yàn)知識(shí)。所有知識(shí)均通過(guò)自我對(duì)弈產(chǎn)生和優(yōu)化,在 explore 上做到了極致;LLM 依賴于大量的預(yù)訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)所有互聯(lián)網(wǎng)文本和代碼內(nèi)容,反映了人類知識(shí)和語(yǔ)言模式,在 exploit 上做到了極致。
可能會(huì)問(wèn),為什么 RLHF 中的 RL 很難進(jìn)一步給模型很強(qiáng)的探索推理能力,因?yàn)?RLHF 的任務(wù)目標(biāo)并不是機(jī)器智能,而是人機(jī)對(duì)齊。在像 average human 的偏好數(shù)據(jù)上做 RL 能做到“更像人”,但不能做到 super human 的智能。舉個(gè)例子,人類總是更喜歡好理解而不是邏輯嚴(yán)謹(jǐn)?shù)膬?nèi)容。
3. 如何評(píng)估 RL reasoning model 的能力?
當(dāng) OpenAI 和 Anthropic 的 reasoning model 發(fā)布時(shí),應(yīng)該怎么評(píng)估其模型的智能程度呢?我們可以想到這樣幾個(gè)重要的 milestone,難度從低到高:
? Milestone 1:強(qiáng)推理能力的“理科生”
RL reasoning model 一定能在這兩個(gè)垂直領(lǐng)域達(dá)到很強(qiáng)的可用性:90%+ 復(fù)雜數(shù)學(xué)問(wèn)題正確率,完整生成 1000+ 行代碼的 github repo。
? Milestone 2:能規(guī)劃執(zhí)行 long horizon task 的 AI agent
如果 self-play 有可能通過(guò)自由探索互聯(lián)網(wǎng)數(shù)據(jù),在一些任務(wù)上能為用戶執(zhí)行瀏覽器/操作系統(tǒng)級(jí)的 autopilot,這時(shí) AI agent 就真正來(lái)到了 ChatGPT 時(shí)刻。
? Milestone 3:AI society 對(duì)話系統(tǒng)
RL reasoning model 可以模擬兩個(gè)角色的對(duì)話,發(fā)現(xiàn)和優(yōu)化對(duì)話策略。例如一個(gè) LLM 可以扮演銷售和客戶、老師和學(xué)生、各國(guó)外交官等各種角色,通過(guò)自我對(duì)話學(xué)習(xí)如何在各種語(yǔ)境下的社交、溝通技巧,從中獲得真正的語(yǔ)言理解和共情能力。如果這里有 emergent capability 涌現(xiàn),AI 智能能真正的社會(huì)化。
總結(jié)來(lái)說(shuō),self-play 給了模型一個(gè)自己“卷”自己不斷進(jìn)步的框架,MCTS 方法讓模型在連續(xù)決策中更容易“打出連招”,self-play+LLM+MCTS 會(huì)成為 LLM post-training 中新的范式。至于能走到哪一個(gè) milestone,這里的核心 bottleneck 就是 reward model,我們?cè)谙乱还?jié)中將重點(diǎn)討論。
二、Reward model
RL reasoning 的核心難點(diǎn)
Self-play RL 是要在好的策略上持續(xù)探索,怎么定義“好”就尤其重要。因此, Reward model(獎(jiǎng)勵(lì)模型) 是 RL 中最關(guān)鍵的模塊之一,有兩個(gè)關(guān)鍵的卡點(diǎn)是需要解決的,那就是 reward model 的泛化性和連續(xù)性。
1. 可驗(yàn)證的 reward model 讓 code & math 提升路徑明晰
Self-play RL 在棋牌、電子游戲、數(shù)學(xué)競(jìng)賽上之所以有效,是因?yàn)檫@些領(lǐng)域都有明確的勝負(fù)標(biāo)準(zhǔn),可以作為 reward model 的基礎(chǔ)。有了 LLM 的 in-context learning,我們相信代碼、數(shù)學(xué)是可以通過(guò) LLM + self-play RL 來(lái)持續(xù)進(jìn)步的。根據(jù) The information 報(bào)道,strawberry 目前能力最強(qiáng)的領(lǐng)域就在 math 和 code 上,Sonnet 3.5 在代碼的提升也是很好的佐證。
這兩個(gè)領(lǐng)域具有準(zhǔn)確、快迭代的評(píng)判標(biāo)準(zhǔn),使得模型能夠獲得明確的反饋:我們可以把 code script 放進(jìn) Python Interpreter/ compiler,把 math proof 放進(jìn) Lean(Lean 是一種編程語(yǔ)言,通過(guò)計(jì)算機(jī)驗(yàn)證數(shù)據(jù)定理,廣泛用在 AI 形式化數(shù)學(xué)證明中幫助 AI 理解數(shù)學(xué)題),就能自動(dòng)驗(yàn)證其準(zhǔn)確性。
數(shù)學(xué)作為形式化邏輯的典范,擁有一套可驗(yàn)證、精準(zhǔn)的符號(hào)系統(tǒng)。在這次 IMO 中,DeepMind 用 Alphaproof + AlphaGeometry 2 的方案成功獲得銀牌,Alphaproof 解決了 3 道題目,alphageometry 解決了 1 道題。其進(jìn)行 做 RL 的方法有幾個(gè)值得關(guān)注的點(diǎn):
- Fine-tune Gemini 用于對(duì)數(shù)學(xué)問(wèn)題形式化,生成了~100M 用于訓(xùn)練的數(shù)據(jù)。這個(gè)數(shù)據(jù)量遠(yuǎn)比人類解數(shù)學(xué)題需要的量大。
- 用 AlphaProof 和 Lean Compiler 作為外部監(jiān)督信號(hào)告訴 solver network 其答案是否正確(今年 IMO 的題目是可以驗(yàn)證答案是否錯(cuò)誤的),再利用 MCTS 搜索更好的答案并訓(xùn)練。
- 由于問(wèn)題很難,Alphaproof 在推理過(guò)程中也會(huì)訓(xùn)練網(wǎng)絡(luò)(這可能是為什么他耗時(shí)那么久),即針對(duì)特定問(wèn)題 MCTS 采樣后,會(huì)把采樣中較好的 reasoning path 再投入訓(xùn)練,這種做法相當(dāng)于對(duì)特定任務(wù) finetune。
- AlphaProof & Alphageometry 2 拆成了兩個(gè)策略網(wǎng)絡(luò)來(lái)達(dá)到最好的效果。因?yàn)椴煌囟ㄈ蝿?wù)可能需要分別設(shè)置 prior,比如 AlphaGeometry 需要增加輔助線。
Code 領(lǐng)域的可驗(yàn)證性也非常強(qiáng),AI 能通過(guò) compiler/interpreter 自行驗(yàn)證可用性。如果不成功,報(bào)錯(cuò)信息也能幫助 AI 自己去發(fā)現(xiàn)和理解錯(cuò)誤在哪里。而且 coding 領(lǐng)域相比 math 還有兩個(gè)獨(dú)特的優(yōu)勢(shì):
? 海量高質(zhì)量數(shù)據(jù)。開(kāi)源領(lǐng)域已經(jīng)有很多項(xiàng)目代碼,而且其數(shù)據(jù)質(zhì)量很高:有代碼項(xiàng)目的文件結(jié)構(gòu)、優(yōu)化歷史、遇到問(wèn)題時(shí)的修復(fù)方案,還有大量基于自然語(yǔ)言的注釋。
? 明確的分工方式。math 是一個(gè)比較個(gè)人英雄主義的領(lǐng)域,頂尖優(yōu)秀的數(shù)學(xué)家進(jìn)行自己的思維實(shí)驗(yàn),能夠與其同頻協(xié)作的人非常少。而 code 領(lǐng)域已經(jīng)出現(xiàn)了復(fù)雜分工:PM 理解需求設(shè)計(jì)原型、SWE 開(kāi)發(fā)程序、QA 驗(yàn)證代碼、SRE 進(jìn)行運(yùn)維。前面提到 self-play 其實(shí)是一個(gè) multi-agent 分工環(huán)境,高效的分工影響了 RL 的質(zhì)量上限。
OpenAI 在今年 6 月宣布內(nèi)部訓(xùn)練了 CriticGPT 用于 post-training,是一個(gè) AI code verifier:CriticGPT 能夠?qū)?ChatGPT 生成的代碼進(jìn)行評(píng)估,識(shí)別出錯(cuò)誤并提修改建議。其訓(xùn)練方式也比較直接:通過(guò)在代碼中故意設(shè)置 bug 并進(jìn)行詳細(xì)標(biāo)注,訓(xùn)練出能夠 debug 的模型。盡管沒(méi)有說(shuō)明,我們相信其目標(biāo)一定是給 Q-star 訓(xùn)練 reward model。
Anthropic Artifact 也是這個(gè)領(lǐng)域非常好的案例:Sonnet 3.5 從能生成 20 行可靠代碼進(jìn)化到可以生成 200 行,自然也就帶來(lái)了這個(gè)產(chǎn)品 UI 上的創(chuàng)新。Anthropic 也完全有可能把這里的用戶數(shù)據(jù)作為 reward model 喂回給模型,是比 ChatGPT 的數(shù)據(jù)飛輪更高效的。
如果說(shuō) ai for math 可能對(duì)人類的科學(xué)探索有很大幫助,ai for coding 是更能產(chǎn)生直接的經(jīng)濟(jì)價(jià)值的。知識(shí)工作者有非常多的任務(wù)可以用代碼來(lái)定義并實(shí)現(xiàn),只是目前沒(méi)有公司能為個(gè)性化長(zhǎng)尾需求寫(xiě)代碼。這一部分可能是 RL 成熟之后最大的創(chuàng)業(yè)機(jī)會(huì),這將在文章的第 4 部分繼續(xù)深入。
2. reward model 對(duì)其他領(lǐng)域的泛化性并不明確
在數(shù)學(xué)和編程等領(lǐng)域,我們有明確的正確性標(biāo)準(zhǔn),但在文本的開(kāi)放域我們沒(méi)有,很多時(shí)候任務(wù)的目標(biāo)是模糊的、沒(méi)有最優(yōu)解,這讓我們對(duì)智能通過(guò) RL 在所有語(yǔ)言任務(wù)上產(chǎn)生泛化感到悲觀:
? 物理、醫(yī)藥有明確的標(biāo)準(zhǔn)答案,但需要很長(zhǎng)的實(shí)驗(yàn)驗(yàn)證周期。這兩個(gè)領(lǐng)域看似是最接近 math、code 的,但缺少實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證的 synthetic data 可用性無(wú)法保障。
? 法律、金融的問(wèn)題往往沒(méi)有通用解法,很難用通用的 reward model 實(shí)現(xiàn)。例如在科技投資中,一級(jí)市場(chǎng)研究就會(huì) reward 前瞻性強(qiáng)的研究,而二級(jí)市場(chǎng)研究則對(duì)前瞻性的 reward 就相對(duì)少一些,reward 需要分配給很多強(qiáng)時(shí)效性的判斷。
? 文字創(chuàng)意領(lǐng)域的 reward 很多時(shí)候不符合馬爾可夫模型,也就是其 reward 常常會(huì)有跳變。一本好的小說(shuō)、劇本,會(huì)講究反轉(zhuǎn),試想 LLM next-token prediction 到一個(gè)反轉(zhuǎn)之前其 reward 函數(shù)還很低,一個(gè)精彩的反轉(zhuǎn)讓 reward 函數(shù)突然大幅提升,self-play RL 很難捕捉這個(gè)突然的變化。
因此這里孕育著新范式下的第二個(gè)創(chuàng)業(yè)機(jī)會(huì):垂直領(lǐng)域的 reward model,同樣會(huì)在第 4 部分詳細(xì)展開(kāi)。
而要讓 reward function 能捕捉到更多的信號(hào),在垂直領(lǐng)域之外泛化,最重要的方向就是怎么用好 LLM 作為 reward model,并同時(shí)輸出數(shù)字和文字評(píng)估。
3. LLM as a PRM (process reward model):通往泛化的重要路線
要實(shí)現(xiàn)泛化,背后的核心問(wèn)題是怎么設(shè)計(jì) reward function 才讓數(shù)據(jù)信號(hào)能被更高效地運(yùn)用,才能讓 AI 循序漸進(jìn)的學(xué)習(xí)。在 code 和 math 領(lǐng)域已經(jīng)有了一些解決方案:使用 LLM 作為 PRM + curriculum learning。這套方法的持續(xù)突破,一定會(huì)讓 reasoning model 訓(xùn)練得更好,配合 LLM 的語(yǔ)義表達(dá)能力甚至有可能實(shí)現(xiàn) reward model 的泛化。
PRM (Process reward model) 是獎(jiǎng)勵(lì)好的推理步驟,而不僅僅是正確的結(jié)果。這更接近人類的學(xué)習(xí)和推理方式,實(shí)現(xiàn)方式常常是用 chain-of-thought 來(lái)表示推理過(guò)程,對(duì)每一步進(jìn)行打分。這是因?yàn)?LLM 的語(yǔ)義理解能力才成為可能的。在傳統(tǒng) RL 中,我們按照最終結(jié)果評(píng)分,其評(píng)分模型稱為 ORM(outcome reward model);而通過(guò)專門(mén)訓(xùn)練 LLM 成為 process verifier ,新的評(píng)分模型叫做 PRM,往往是使用嬌小 LLM fine-tune 得到。
OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓(xùn)練的 PRM 在解決 MATH 數(shù)據(jù)集測(cè)試集中 78.2%的問(wèn)題時(shí)表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到,PRM 在過(guò)程中一旦成功發(fā)現(xiàn)第一個(gè)錯(cuò)誤,就能使 RL 訓(xùn)練效果顯著提升。
而且在 process supervision 過(guò)程中,reward 的形式也不止限于數(shù)值,文字評(píng)價(jià)也可以作為指導(dǎo)模型繼續(xù)行動(dòng)的 reward。Google DeepMind 最新發(fā)布的 Generative Verifier 中,他們微調(diào)的 verifier 可以把問(wèn)題每一步都用數(shù)值和文字評(píng)估,給模型作為 reward。
Process learning 保證了推理思考過(guò)程得到評(píng)估,而 Curriculum learning 是為了讓思考過(guò)程得到由淺入深、循序漸進(jìn)的引導(dǎo),其核心理念是將復(fù)雜任務(wù)分解為多個(gè)難度遞增的子任務(wù),讓智能體逐步學(xué)習(xí)。這樣由簡(jiǎn)單到難的設(shè)計(jì)過(guò)程是很有必要的,這樣一方面避免了 reward model 在早期過(guò)于稀疏的問(wèn)題,一方面可以通過(guò)數(shù)據(jù)的多樣性來(lái)使 LLM 學(xué)習(xí)最適合其能力的課程,防止出現(xiàn)下棋時(shí)能贏李世石、但不能贏公園老大爺?shù)倪^(guò)擬合情況。
在課程學(xué)習(xí)中,有兩種關(guān)鍵的獎(jiǎng)勵(lì)機(jī)制:探索獎(jiǎng)勵(lì)和競(jìng)爭(zhēng)獎(jiǎng)勵(lì)。探索獎(jiǎng)勵(lì)是在完成簡(jiǎn)單子任務(wù)時(shí)給予的,旨在鼓勵(lì)智能體學(xué)習(xí)基礎(chǔ)技能。競(jìng)爭(zhēng)獎(jiǎng)勵(lì)則是在完成最終復(fù)雜任務(wù)時(shí)給予的。為了平衡這兩種獎(jiǎng)勵(lì),課程學(xué)習(xí)引入了獎(jiǎng)勵(lì)退火機(jī)制:隨著訓(xùn)練的進(jìn)行,探索獎(jiǎng)勵(lì)逐漸減少,而競(jìng)爭(zhēng)獎(jiǎng)勵(lì)的比重逐漸增加。課程學(xué)習(xí)的設(shè)計(jì)原則遵循一個(gè)漸進(jìn)的過(guò)程。在訓(xùn)練的早期階段,系統(tǒng)提供稠密的探索獎(jiǎng)勵(lì),幫助智能體快速掌握基礎(chǔ)技能。隨著訓(xùn)練的深入,探索獎(jiǎng)勵(lì)逐步減少,競(jìng)爭(zhēng)獎(jiǎng)勵(lì)的比重逐漸增加。
三、Scaling Law 范式變化
1. RL 合成數(shù)據(jù)的 unit economics 估算
在 RL 的新范式下,LLM 訓(xùn)練的 scaling law 需要被重寫(xiě)。因?yàn)橛?xùn)練時(shí)計(jì)算量不再只是和參數(shù)量的上升有關(guān),還多了一個(gè)新變量:self-play 探索時(shí) LLM inference 的計(jì)算量。RL 的思路本質(zhì)是用 inference time 換 training time,來(lái)解決模型 scale up 暫時(shí)邊際收益遞減的現(xiàn)狀。最近 DeepMind 也發(fā)布了一篇paper 叫做:Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters,正是在討論這個(gè)范式變化。
在 MCTS 這樣的樹(shù)狀搜索算法中,在樹(shù)的每個(gè)節(jié)點(diǎn)多次模擬。在圍棋這樣范圍相對(duì)確定的任務(wù)里,AlphaGo 的計(jì)算量已經(jīng)很大。其訓(xùn)練過(guò)程模型通過(guò)反復(fù)進(jìn)行 self-play,不斷優(yōu)化其 policy 和 reward 評(píng)估能力。在 AlphaZero 的訓(xùn)練中,模型進(jìn)行了大約 500 萬(wàn)局自我對(duì)弈,每局大約 200 步,做好每一步平均需要 1600 次模擬。這使得總的模擬次數(shù)達(dá)到了 1.6 萬(wàn)億次。
MCTS 中的樹(shù)狀結(jié)構(gòu)示例
但 AlphaZero 只是一個(gè)千萬(wàn)參數(shù)量級(jí)的神經(jīng)網(wǎng)絡(luò),和 LLM 差了 3-4 個(gè)數(shù)量級(jí)。要想搜索所有人類思考過(guò)程的可能性,還得處理更多數(shù)據(jù)和更復(fù)雜的參數(shù),計(jì)算量只會(huì)更加龐大。要讓 LLM 做這樣大樣本量的 self-play 的算力需求是非常大的。好在我們大部分的推理問(wèn)題都可以拆解為一個(gè) 3-10 步的 chain-of-thought,接下來(lái)我們就計(jì)算一下 LLM 需要的推理成本,每一次模擬需要以下數(shù)據(jù):
? context:?jiǎn)栴}和之前的推理過(guò)程。
? action:基于 context 接下來(lái)的行動(dòng)選擇。這里是和傳統(tǒng) RL 差異最大的地方,文字可以用無(wú)限開(kāi)放的方式進(jìn)行組合,而傳統(tǒng)任務(wù)比如下圍棋有著有限的決策空間。實(shí)踐中一些 paper 提到 會(huì)用 temperature sampling 來(lái)生成 k 種回答(k 是一個(gè)固定數(shù)字,具體值需要實(shí)踐),把這 k 個(gè)回答作為決策空間。我們可以按 k = 32 進(jìn)行計(jì)算,也就是每一步推理需要 32 次 inference 模擬。
? reward:對(duì)每一步行動(dòng),需要輸出 reward 來(lái)評(píng)估其效果。輸出的 process reward 一定包括數(shù)值,可能也包括文字。
那么這三部分?jǐn)?shù)據(jù)的推理成本我們可以做一個(gè)大致的簡(jiǎn)單估算:
? Agent model 是一個(gè) 50B LLM($0.5/M tokens),reward model 是一個(gè) 10B LLM($0.1/M tokens);
? Reasoning 任務(wù)有 5 步推理深度,每步會(huì)模擬 32 種結(jié)果,選取 top 10% 的推理結(jié)果往下推理,那么總計(jì)需要大約 10000 次模擬;
? 每一次模擬平均 1000 tokens;
那么一個(gè)推理任務(wù)的總成本為 6 美金。由于大部分 token 都是在重復(fù) context,高質(zhì)量比例不會(huì)很大,可以認(rèn)為 10000 次模擬中有 1% 也就是 100 次模擬是有價(jià)值的(包括正例和負(fù)例,RL 中負(fù)例同樣很有幫助的),也就是 100k tokens。
2. 新的scaling law 正在浮現(xiàn):算力周期性從 scaling 轉(zhuǎn)移到 inference-time compute
對(duì)于 GPT-4, Claude-3.5 水平的模型,我們推測(cè)要合成 1-10T 量級(jí)的高質(zhì)量推理數(shù)據(jù)才能真正讓模型大幅提升其推理能力,對(duì)應(yīng)的成本大致需要 6-60 億美金,這個(gè)在模型訓(xùn)練實(shí)驗(yàn)的算力中占的比例也是比較大的。
因此 RL 范式下,scaling law 仍然存在,計(jì)算成本仍然會(huì)大幅提升來(lái)獲得更優(yōu)的智能,但提升不再是模型的參數(shù)量本身的持續(xù)增長(zhǎng),而是通過(guò) RL reasoning model 的方式來(lái) scale up。今年中 OpenAI 正式推出了 mid-training 這個(gè)崗位,可能就是通過(guò) RL reasoning model 合成大量高質(zhì)量數(shù)據(jù)做繼續(xù)學(xué)習(xí)。
但與預(yù)訓(xùn)練需求不同的是,inference 對(duì)單張卡性能和集群規(guī)模的需求相對(duì)低一些,也就是說(shuō)不一定要最頂尖的卡、3 萬(wàn)卡以上的集群才能再能跑 RL inference。因此各家大廠要追求 RL 范式下的 scaling law 還是需要在 GPU 算力上持續(xù)投入,但一年內(nèi)不會(huì)再去追求超大 H100 集群了。下一次大模型從 scaling up parameters 中獲取智能的時(shí)間點(diǎn),可能是明年下半年 NVidia B 系列的發(fā)布,可以實(shí)現(xiàn)更大的 20 萬(wàn)量級(jí)互聯(lián)集群。
因此并不是未來(lái) foundational model 就不再需要 scale up 了,未來(lái)的趨勢(shì)可能是周期式的:2 年的 model scaling-up 周期,2 年的 RL reasoning 提升周期。硬件更新、類 transformer 架構(gòu)優(yōu)化、next token prediction 目標(biāo)有關(guān),都可能再次點(diǎn)燃模型 scale up 的趨勢(shì)。
3. 推理成本大幅上升:MCTS 搜索加入 LLM inference
在去年的 LLM 范式預(yù)測(cè)中我們提到過(guò),LLM 直接生成是可以類比系統(tǒng) 1 的慢思考。而 RL 就為 LLM 帶來(lái)了系統(tǒng) 2 慢思考。
引入了 MCTS 之后,LLM inference 會(huì)變得更慢、更貴、更智能。因?yàn)槊恳淮位卮饐?wèn)題時(shí)都會(huì)推演很多種可能的思考路徑,并自行評(píng)估哪一個(gè)能獲得最高的 reward,然后再將最終的生成結(jié)果輸出給用戶。理想中越難的問(wèn)題需要分配更多的算力和時(shí)間:簡(jiǎn)單問(wèn)題 1s 直接輸出答案,復(fù)雜問(wèn)題可能需要 10min 甚至 10h 來(lái)思考最佳的解決方式。MCTS 實(shí)際推理中,可能是和之前我們預(yù)測(cè)成本的范式類似:把任務(wù)拆解成 5 步推理,每一步嘗試 k 次模擬,搜索一整個(gè)決策樹(shù)中的最佳方案。Alphago 下圍棋時(shí)也是這么在推理時(shí)深度推演之后的下棋決策的,只是應(yīng)用到 LLM 上對(duì)算力的要求更高了,需要更多智能剪枝等優(yōu)化方式。
因此這一部分很難定量的計(jì)算其實(shí)際對(duì)推理需求帶來(lái)了多大數(shù)量級(jí)的提升:理論上 MCTS 推演的策略集越全面一定是效果越好的,但是推理算力、用戶體驗(yàn)的角度來(lái)說(shuō)一定需要 LLM 廠商去做嚴(yán)格的資源約束,來(lái)達(dá)到性能和成本之間的平衡。
四、RL 新范式帶來(lái)了什么創(chuàng)業(yè)和投資機(jī)會(huì)?
1. AI for coding 帶來(lái)編程能力民主化
代碼開(kāi)發(fā)是最近 AI 提升最大、熱度最高的領(lǐng)域,背后最重要的原因就是 sonnet3.5 的發(fā)布帶來(lái)的推理能力的提升。這個(gè)提升最直接的 benchmark 就是寫(xiě)出可靠代碼的行數(shù):原本 4o 只能可以寫(xiě) 20 行可靠的代碼,Sonnet 3.5 可以寫(xiě) 200 行。
如果 reasoning model 的突破把這個(gè) benchmark 擴(kuò)大到 1000 行,那么很多簡(jiǎn)單的代碼項(xiàng)目其實(shí)不需要專業(yè)的開(kāi)發(fā)者來(lái)完成,而是 ai 獨(dú)立完成一整個(gè)項(xiàng)目。這時(shí)使用這類產(chǎn)品的用戶數(shù),都會(huì)有一個(gè)數(shù)量級(jí)的提升,每個(gè)項(xiàng)目的平均 DAU 會(huì)下降,對(duì)代碼的性能要求也會(huì)降低。
我們會(huì)把 AI for coding 分為兩類。第 1 類目前已經(jīng)有比較成熟的產(chǎn)品了,而第 2 類在 reasoning model 出現(xiàn)前后才剛剛開(kāi)始:
? AI for developers,為專業(yè)開(kāi)發(fā)者的 ai 提效。這個(gè)領(lǐng)域已經(jīng)有一些比較成熟的產(chǎn)品了,我們比較看好 AI IDE 的入口級(jí)效應(yīng)和 e2e coding agent 對(duì)工作流的顛覆,Cursor 是目前明顯的領(lǐng)先者。
? No-code AI developers,人人都成為產(chǎn)品經(jīng)理,為自己的需求設(shè)計(jì)軟件。完成一個(gè)軟件項(xiàng)目的無(wú)代碼開(kāi)發(fā)品牌。
AI for developers
Cursor
Anysphere 是一家專注于開(kāi)發(fā) AI 驅(qū)動(dòng)工具以提升軟件開(kāi)發(fā)效率的初創(chuàng)公司,其旗艦產(chǎn)品是名為 Cursor 的 AI IDE。加持了 Sonnet 3.5 之后,Sonnet 的產(chǎn)品口碑特別優(yōu)秀,就像去年上半年我看到 Perplexity 的用戶口碑那樣。他們的產(chǎn)品對(duì)用戶正在開(kāi)發(fā)項(xiàng)目的 context 做了非常深入的理解,同時(shí)也有優(yōu)秀的 chat UI,和各種支持 AI 協(xié)同編輯的快捷鍵。由于其產(chǎn)品體驗(yàn)很優(yōu)秀,甚至可以在 Youtube 上看到一個(gè)美國(guó)的 8 歲女孩用 cursor 在 45 分鐘內(nèi)實(shí)現(xiàn)了一個(gè)自己想要的哈利波特 chatbot。
Cursor 團(tuán)隊(duì)下一步的開(kāi)發(fā)目標(biāo)也是 AI 自動(dòng)化提升,減少 human in the loop。比如他們提到正在開(kāi)發(fā)后臺(tái)獨(dú)立運(yùn)行的 shadow workspace,AI 可以在其中持續(xù)自由修改代碼、運(yùn)行測(cè)試和獲取反饋,而不會(huì)影響實(shí)際項(xiàng)目文件,并再將最終的建議反饋給用戶。這樣的 AI 沙盒的下一步就是 AI 能夠獨(dú)立完成所有代碼,屆時(shí) Cursor 團(tuán)隊(duì)也完全有可能去切入一個(gè)更大的普通用戶開(kāi)發(fā)市場(chǎng)。
Zed
Zed 是一款由 Atom 和 Tree-sitter 的創(chuàng)建者開(kāi)發(fā)的高性能多人代碼編輯器。他們主打的特點(diǎn)是支持多人甚至 AI 實(shí)時(shí)協(xié)作編輯代碼。開(kāi)發(fā)者可以實(shí)時(shí)看到其他用戶的編輯操作,同時(shí)多人修改同一個(gè)文件,并通過(guò)聊天、語(yǔ)音、視頻會(huì)議等工具進(jìn)行實(shí)時(shí)溝通。在發(fā)布了 Zed AI 之后,這樣一些協(xié)同功能都有可能成為 AI 開(kāi)發(fā)使用的重要 context。
這里盤(pán)點(diǎn)的還只是應(yīng)用工具層的典型產(chǎn)品,還有 4-5 家 e2e agent 公司尚未發(fā)布產(chǎn)品,會(huì)在之后另外發(fā)布相關(guān)研究。
No-code AI developers
這個(gè)新賽道不是服務(wù)專業(yè)開(kāi)發(fā)者的,而是能用低門(mén)檻方式服務(wù)普通用戶的,設(shè)計(jì)出低門(mén)檻的交互方式非常重要。這就像攝像頭在手機(jī)上便攜之后,出現(xiàn)了 Instagram、Tik tok 這樣的產(chǎn)品,產(chǎn)品的主要價(jià)值就在其前端交互幫助普通用戶都能拍出高質(zhì)量的照片視頻并形成內(nèi)容平臺(tái)。
Websim
Websim 是這個(gè)領(lǐng)域中重要的交互創(chuàng)新,其 vison 是 no-code 的方式用 AI 生成模擬出一個(gè)新的互聯(lián)網(wǎng)。其產(chǎn)品形態(tài)用內(nèi)嵌的瀏覽器做交互,用戶可以通過(guò)多次的 prompt 生成復(fù)雜度還不錯(cuò)的網(wǎng)頁(yè)。
這個(gè)項(xiàng)目從今年初就已經(jīng)出現(xiàn)了,而 Sonnet 3.5 讓這個(gè) idea 可以實(shí)現(xiàn)了?,F(xiàn)在 Websim 社區(qū)中已經(jīng)有各種 hobbyist 在開(kāi)發(fā)產(chǎn)品,甚至由用戶在其中開(kāi)發(fā)出了一個(gè)完整的 3D 建模編輯器。用戶可以在產(chǎn)品上不斷迭代測(cè)試網(wǎng)站的原型,也可以瀏覽其他用戶創(chuàng)作出的產(chǎn)品,有一些從工具到平臺(tái)的轉(zhuǎn)移。
用戶在 Websim 上創(chuàng)作的 Google2.0
Wordware
Wordware 也在從工具到平臺(tái)轉(zhuǎn)移上做得很好。他們的產(chǎn)品用類似 notion 的方式做交互,把 IDE 的門(mén)檻降低,普通用戶能像用 notion 文檔一樣構(gòu)建一個(gè)好玩的 app。
Wordware 是 ProductHunt 最成功的發(fā)布之一,發(fā)布當(dāng)天獲得了 6151 票。他們?cè)?10 天內(nèi)有 700 萬(wàn)用戶用了 twitter agent,新增 25 萬(wàn) wordware 用戶,總計(jì)注冊(cè)用戶達(dá)到 27.2 萬(wàn)。
Wordware 團(tuán)隊(duì)擅長(zhǎng)用自己的產(chǎn)品去推出病毒式傳播的內(nèi)容:twitter.wordware.ai。Wordware 的增長(zhǎng)負(fù)責(zé)人 Kamil Ruczynski 提出了這個(gè) idea:可以閱讀你所有推文,對(duì)你的個(gè)性進(jìn)行吐槽和分析的 AI Agent。這款 Agent 產(chǎn)品的核心邏輯非常簡(jiǎn)單:提示詞 + 推特 API + AI,主打犀利吐槽、獵奇有趣,命中了最大量的 18-29 歲推特用戶群體。
2. Reasoning model Lab 有新的模型層機(jī)會(huì)?
上一波范式下的 startup 開(kāi)始收斂,Inflection、Adept、Character 都被收購(gòu)。在新范式下又有新的 research lab 又涌現(xiàn)出來(lái),其中我們認(rèn)為最值得關(guān)注的有以下三家。
SSI
Safe Superintelligence Inc. (SSI) 是由 Ilya Sutskever、Daniel Gross 和 Daniel Levy 共同創(chuàng)立的公司,專注于開(kāi)發(fā)安全的超級(jí)人工智能。他們公司還在 lab research 階段,選擇的很可能就是從有 self-play RL 的 LLM 路線開(kāi)始。
Chief scientist Ilya 的前瞻性無(wú)需多言,從 AlexNet、Seq2seq、Dota Five 到 ChatGPT,他完整地引領(lǐng)了過(guò)去十年中所有 AI 領(lǐng)域的 milestone。SSI 是有了 Ilya 離開(kāi) OpenAI 才成為可能。
CEO Daniel Gross 在硅谷核心圈子的影響力很大。他出生于耶路撒冷,曾是 Y Combinator 的合伙人,投過(guò) Uber、Instacart、Figma、Github 等項(xiàng)目。從 YC 離開(kāi)后他和 Nat Fridman 一起創(chuàng)立了 AI grant,投資了 CAI、Perplexity 等項(xiàng)目。做投資人之前他 cofound 過(guò)搜索引擎公司 Cue,后來(lái)被蘋(píng)果收購(gòu)。這次和 Ilya 聯(lián)合創(chuàng)立公司,他和 Sam Altman 的定位類似,為公司籠絡(luò)足夠多的商業(yè)資源。
CTO Daniel Levy 是 22 年加入 OpenAI 的 researcher,在 GPT-4 報(bào)告中定位是 Overall vision co-lead, optimization lead,并參與了 Training run babysitting,在多模態(tài)研究上擔(dān)任了很核心的工作,離開(kāi)前是 OpenAI optimization lead。此外關(guān)于他的信息不多,在 researcher 之間有著很好的口碑。
Harmonic
Harmonic 是一家由前 Robinhood CEO Vlad Tenev 和前 Helm AI CTO Tudor Achim 于 2023 年底 cofound 的公司。該公司專注于 AI for 數(shù)學(xué)推理的人工智能平臺(tái),并通過(guò)數(shù)學(xué)推理智能能力的不斷提升去解決可驗(yàn)證的問(wèn)題,未來(lái)可能通過(guò) math + code 去解決醫(yī)藥、科學(xué)、金融等行業(yè)的問(wèn)題。
他們最新的數(shù)學(xué)證明模型 Aristotle 已經(jīng)在 MiniF2F 任務(wù)上做到了 90% 的準(zhǔn)確度(MiniF2F 是一個(gè)數(shù)學(xué)規(guī)范問(wèn)題 benchmark,問(wèn)題來(lái)源于數(shù)學(xué)競(jìng)賽和大學(xué)課本)。他們還提到 Harmonic 開(kāi)發(fā)了一種自動(dòng)將自然語(yǔ)言問(wèn)題和解決方案翻譯為其形式表示的能力,稱為自動(dòng)形式化。這使得 Aristotle 能夠與可能不熟悉 Lean 的數(shù)學(xué)家和教育工作者合作。優(yōu)秀的模型能力和對(duì) reasoning interpreter 交互泛化性的重視都是他們值得關(guān)注的原因。
Symbolica
嚴(yán)格來(lái)說(shuō),Symbolica 要做的事情和上文中的 RL 路線不同,他們更偏向符號(hào)主義方法論。不過(guò)由于他們主攻的方向也是基于代碼、math 等形式化邏輯的 reasoning model,也應(yīng)該放在這里作為一個(gè)差異化路線進(jìn)行介紹。
Symbolica 的 vision 是將傳統(tǒng)符號(hào)人工智能(通過(guò)定義的符號(hào)、規(guī)則集來(lái)解決任務(wù))的數(shù)學(xué)抽象與神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái),來(lái)開(kāi)發(fā)開(kāi)發(fā)可控、可解釋的 AI 模型。他們模型最先解決的任務(wù)也會(huì)是生成代碼、證明數(shù)學(xué)定理。
不過(guò)這個(gè)領(lǐng)域的競(jìng)爭(zhēng)會(huì)非常激烈和 capital intensive, OpenAI、Anthropic、Google DeepMind 這三個(gè) LLM 的頭部玩家在 RL 領(lǐng)域的技術(shù)積累非常深,是否有其他創(chuàng)業(yè)公司彎道超車的機(jī)會(huì)還有待時(shí)間驗(yàn)證。
3. Vertical reward model 會(huì)成為應(yīng)用層的新主題
Reward model 能泛化到整個(gè)文本推理領(lǐng)域的概率是比較小的,因?yàn)椴煌袠I(yè)領(lǐng)域?qū)?reward value 的定義非常不一樣。這就留給創(chuàng)業(yè)公司去建立垂直領(lǐng)域 reward model 的創(chuàng)業(yè)機(jī)會(huì),其具體如何與 LLM 結(jié)合還得看 Anthropic/OpenAI 是否會(huì)為公司開(kāi)放 reward model fine-tune 的接口。但每一個(gè)垂直領(lǐng)域都是值得建立 reward model 的,因?yàn)榇蟛糠诸I(lǐng)域現(xiàn)在都會(huì)遇到 fine-tune 和 RAG 能解決問(wèn)題有限的問(wèn)題。
這個(gè)領(lǐng)域和 No-code AI developers 一樣才剛剛開(kāi)始,我們判斷會(huì)有兩類機(jī)會(huì):
? 給一個(gè)垂直行業(yè)建立 reward model,比如金融/法律。以 Harvey 為代表。
? 給一類 agent 使用場(chǎng)景建立 reward model,比如操作瀏覽器。以 Induced AI 為代表。
Harvey
Harvey AI 我們之前發(fā)過(guò)一個(gè)獨(dú)立的研究。他們的首個(gè)產(chǎn)品是一個(gè)在 GPT4 底座模型上加入大量法律專業(yè)數(shù)據(jù) finetune 的 AI Chatbot,它的主要能力包括:
? 法律寫(xiě)作:撰寫(xiě)長(zhǎng)篇、格式化的法律文件,幫助起草合同,撰寫(xiě)客戶備忘錄,作為工作起點(diǎn);
? 掌握專業(yè)法律知識(shí),可以回答復(fù)雜的法律問(wèn)題等;
? 進(jìn)行合同及文件的理解與處理。
這些任務(wù)都是在處理法律行業(yè)最 junior 的工作。如果要深入到行業(yè)中更為復(fù)雜、需要決策和行動(dòng)的任務(wù),需要與這些頂級(jí)律所持續(xù)合作制定一個(gè)法律行業(yè)專用的 reward model。由于 Harvey 是所有垂直領(lǐng)域中與 OpenAI 合作最為密切的(常常在 PR 中提到互相合作的案例),他們很可能也是最早有機(jī)會(huì)開(kāi)始合作垂直領(lǐng)域 reward model 的。
Induced AI
Induced 是一個(gè) AI-native 的瀏覽器自動(dòng)化 RPA 平臺(tái)。其收集用戶使用數(shù)據(jù)的過(guò)程可以認(rèn)為是在做 browser 領(lǐng)域的 reward model。
使企業(yè)能夠用簡(jiǎn)單的自然語(yǔ)言輸入 workflow,或給 AI 觀看操作錄屏視頻,就能將指令實(shí)時(shí)轉(zhuǎn)換為偽代碼,模擬人類的網(wǎng)絡(luò)瀏覽行為,自動(dòng)瀏覽網(wǎng)頁(yè),收集并有效地處理和分析關(guān)鍵信息,來(lái)處理通常由后臺(tái)管理的許多重復(fù)性任務(wù),如銷售、合規(guī)、內(nèi)部運(yùn)營(yíng)等方面。它應(yīng)用了一種雙向交互系統(tǒng),允許人類根據(jù)需要在某些步驟中進(jìn)行干預(yù),而其余步驟則由 AI 自主管理。
Induced AI 通過(guò)云優(yōu)先構(gòu)建,意味著自動(dòng)化的任何任務(wù)都在后臺(tái)運(yùn)行,不會(huì)影響本地計(jì)算機(jī)。同時(shí),在 Chromium 上專門(mén)構(gòu)建了一個(gè)瀏覽器環(huán)境,用于自主工作流程運(yùn)行。它擁有自己的內(nèi)存、文件系統(tǒng)和認(rèn)證憑證(電子郵件、電話號(hào)碼),能夠處理復(fù)雜流程。
總的來(lái)說(shuō),我們期待用 RL self-play + MCTS 提升 LLM 推理能力的方式能成為下一代技術(shù)范式,并實(shí)現(xiàn)智能的泛化,扮演 LLM 思考中的系統(tǒng) 2。這樣一定能帶來(lái) AI reasoning 能力大幅提升,解鎖很多 AI 應(yīng)用 use case 的落地,帶來(lái)新的一波 AI 創(chuàng)業(yè)投資機(jī)會(huì)。
本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】,微信公眾號(hào):【海外獨(dú)角獸】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!