国产系列丝袜熟女精品视频,国产精品无码一区二区三区毛片,国产成人久久精品二三区麻豆

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

LLM的范式轉(zhuǎn)移：RL帶來(lái)新的 Scaling Law

海外獨(dú)角獸

2024-09-03

0 評(píng)論 618 瀏覽 0 收藏

LLM（?大型語(yǔ)言模型）?的范式轉(zhuǎn)移正在由RL（?強(qiáng)化學(xué)習(xí)）?引領(lǐng)，?帶來(lái)全新的Scaling Law。?傳統(tǒng)上，?LLM的發(fā)展依賴于模型規(guī)模、?數(shù)據(jù)量和計(jì)算資源的擴(kuò)展，?而RL的引入為這一領(lǐng)域注入了新的活力。?通過(guò)強(qiáng)化學(xué)習(xí)，?LLM能夠更好地適應(yīng)復(fù)雜環(huán)境和任務(wù)，?實(shí)現(xiàn)更精細(xì)化的控制和優(yōu)化。?這種范式轉(zhuǎn)移不僅提升了LLM的性能，?還為其應(yīng)用開(kāi)辟了新的可能性。?隨著RL與LLM的深度融合，?我們有望見(jiàn)證一個(gè)更加智能、?高效和適應(yīng)性強(qiáng)的大型語(yǔ)言模型時(shí)代的到來(lái)。?

從幾周前 Sam Altman 在 X 上發(fā)布草莓照片開(kāi)始，整個(gè)行業(yè)都在期待 OpenAI 發(fā)布新模型。

根據(jù) The information 的報(bào)道，Strawberry 就是之前的 Q-star，其合成數(shù)據(jù)的方法會(huì)大幅提升 LLM 的智能推理能力，尤其體現(xiàn)在數(shù)學(xué)解題、解字謎、代碼生成等復(fù)雜推理任務(wù)。

這個(gè)方法也會(huì)用在 GPT 系列的提升上，幫助 OpenAI 新一代 Orion。

OpenAI 不是唯一重視 RL 和 Self-Play 的公司，Google 用 AlphaGeometry 2 + Alphaproof 奪得 IMO 銀牌之后，基于 LLM 做 reward model 的思路發(fā)了多篇 paper。Anthropic Claude 3.5 的代碼能力顯著提升，我們猜測(cè)也是以這樣的思路去引領(lǐng)變化。

做到这三点挑战，产品经理只会不断升值

好的产品经理是很稀缺的，懂用户、懂商业、懂数据的产品经理走出互联网，依然是抢手货。相反，如果只做简单传话、低效执行、浅层思考的产品经理，恐怕走不过未来3-5年的洪流。

查看详情 >

今年以來(lái)我們觀察到 LLM scaling up 的邊際收益開(kāi)始遞減，用 RL self-play + MCTS 提升 LLM 推理能力成為下一個(gè)技術(shù)范式。在新范式下，LLM 領(lǐng)域的 scaling law 會(huì)發(fā)生變化：計(jì)算量變大仍會(huì)帶來(lái)模型智能的提升，但會(huì)從模型參數(shù)量變大，轉(zhuǎn)移到 inference-time compute 增加，也就是模型進(jìn)行更多 RL 探索。

本文正是在這樣的背景下分析和思考 RL 會(huì)如何給 LLM 帶來(lái)新一波的智能提升，以及這對(duì)我們未來(lái)投資、創(chuàng)業(yè)有著怎么樣的 implication。

一、為什么我們期待 RL 改變 LLM 范式？

1. LLM 利用現(xiàn)有數(shù)據(jù)，RL 探索長(zhǎng)距離推理

2018 年，Lex Fridman 邀請(qǐng) Ilya 來(lái) MIT 客座講一節(jié)課，Ilya 選擇的主題是 RL 和 self-play，因?yàn)樗J(rèn)為這是通往 AGI 的路上最關(guān)鍵的方法之一。Ilya 在講座中用一句話概括了強(qiáng)化學(xué)習(xí)：讓 AI 用隨機(jī)路徑去嘗試一個(gè)新的任務(wù)，如果效果超出預(yù)期，就更新神經(jīng)網(wǎng)絡(luò)的權(quán)重讓 AI 記得多使用成功的實(shí)踐，然后開(kāi)始下一次嘗試。

這個(gè)概括中可以看到強(qiáng)化學(xué)習(xí)和其他 AI 范式的重要區(qū)別，經(jīng)典三大范式（監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)）中只有強(qiáng)化學(xué)習(xí)的假設(shè)是讓 AI 進(jìn)行自主探索、連續(xù)決策，這個(gè)學(xué)習(xí)方式最接近人類的學(xué)習(xí)方式，也符合我們想象中的 AI agent 應(yīng)該具備的自主行動(dòng)能力。

強(qiáng)化學(xué)習(xí)的核心在于”探索”（Explore）和”利用”（Exploit）之間的權(quán)衡。LLM 在”利用”現(xiàn)有知識(shí)上做到了現(xiàn)階段的極致，而在”探索”新知識(shí)方面還有很大潛力，RL 的引入就是為了讓 LLM 能通過(guò)探索進(jìn)一步提升推理能力。

在實(shí)現(xiàn) RL 的過(guò)程中，有兩個(gè)核心組件。他們之間一直在反復(fù)交互，agent 在環(huán)境中執(zhí)行 action，并且根據(jù)環(huán)境的變化評(píng)估 reward：

? Environment：AI 探索完成任務(wù)的環(huán)境，當(dāng) Alphago 下圍棋時(shí)，環(huán)境就是 19×19 的棋盤(pán)。環(huán)境會(huì)發(fā)生變化，AI 會(huì)從環(huán)境變化中收到 reward value 判斷過(guò)去的那一系列探索是否有明顯的收益，例如距離下圍棋勝利是否更接近了。

? Agent：agent 會(huì)根據(jù)對(duì)環(huán)境的觀測(cè)和感知來(lái)輸出一個(gè)動(dòng)作，目標(biāo)是得到更高的 reward。agent 這個(gè)概念最早就是來(lái)自強(qiáng)化學(xué)習(xí)。

如果把這里的 agent 主體換成 LLM，那么會(huì)在探索的過(guò)程中做很多 LLM inference。因此這里 RL 在 LLM 中應(yīng)用的思路本質(zhì)是用 inference time 換 training time，來(lái)解決模型 scale up 暫時(shí)邊際收益遞減的現(xiàn)狀。這勢(shì)必也會(huì)對(duì) scaling law 帶來(lái)很多變化，詳細(xì)的變化我們會(huì)在 2.3 節(jié)進(jìn)行分析。

2. self-play + MCTS：高質(zhì)量博弈數(shù)據(jù)提升 reasoning 能力

要讓 RL 算法能夠在連續(xù)推理任務(wù)上做到最好，理解 self-play + MCTS 的思路是最重要的。放到 LLM 語(yǔ)境下，self-play 是讓 LLM 同時(shí)扮演一個(gè)或多個(gè) agent model 去做推理任務(wù)，并由另一個(gè) LLM 作為 reward model 來(lái)給出打分評(píng)價(jià)，一定次數(shù)后更新 LLM 權(quán)重讓其多記住做得好的推理方式。

Self-play 是 AlphaZero 等強(qiáng)化學(xué)習(xí)算法的合成數(shù)據(jù)方法，最早可以追溯到 1992 年的 TD-Gammon 算法。這個(gè)方法的本質(zhì)是利用 AI 無(wú)限的計(jì)算能力來(lái)補(bǔ)足它數(shù)據(jù)利用效率不夠的短板，更符合當(dāng)下 AI 的優(yōu)勢(shì)。好的 self-play 能合成大量高質(zhì)量的數(shù)據(jù)，甚至可能比人類歷史上見(jiàn)過(guò)的棋局、游戲數(shù)更多，用數(shù)據(jù)量來(lái)做到 super human：AlphaGo， Dota Five 都探索出了和人類不一樣的游戲套路，并戰(zhàn)勝了大部分職業(yè)選手。

讓我們以 AlphaZero 為例，在每一局對(duì)弈中，模型使用蒙特卡洛樹(shù)搜索（Monte Carlo Tree Search，MCTS）來(lái)選擇動(dòng)作。MCTS 結(jié)合了當(dāng)前神經(jīng)網(wǎng)絡(luò)提供的策略（policy）和價(jià)值（value），從而在每個(gè)游戲狀態(tài)下評(píng)估出最優(yōu)的行動(dòng)。其具體步驟如下：

隨機(jī)初始化：模型從完全隨機(jī)初始化的狀態(tài)開(kāi)始，沒(méi)有任何人類先驗(yàn)知識(shí)。
自我對(duì)弈（self-play）：模型自己與自己進(jìn)行對(duì)弈，生成大量的游戲數(shù)據(jù)。這些對(duì)弈中好的結(jié)果用于更新模型的參數(shù)。
蒙特卡洛樹(shù)搜索（MCTS）：在每一次對(duì)弈中，AlphaZero 會(huì)使用 MCTS 來(lái)搜索最佳動(dòng)作。MCTS 使用策略網(wǎng)絡(luò) （policy network）提供的動(dòng)作概率分布和價(jià)值網(wǎng)絡(luò) （value network）提供的局面評(píng)估結(jié)果來(lái)引導(dǎo)搜索。
策略更新（policy network）：根據(jù)自我對(duì)弈的結(jié)果，使用強(qiáng)化學(xué)習(xí)的方式來(lái)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)，使得模型逐步學(xué)習(xí)到更優(yōu)的策略。

這張圖來(lái)自 AlphaTensor 論文，是Alphazero 在矩陣運(yùn)算解題時(shí)的變種。圖中的 acting 包含了上文中的前三步任務(wù)，learning 步驟對(duì)應(yīng)著第4步：策略更新

AlphaZero 的神經(jīng)網(wǎng)絡(luò)架構(gòu)就是 policy network，包含了 policy head 和 value head。這是 self-play 定義的來(lái)源：policy 是負(fù)責(zé)下棋的部分，value 是負(fù)責(zé)評(píng)估的 reward model，他們來(lái)自同一個(gè)神經(jīng)網(wǎng)絡(luò)。

? 策略網(wǎng)絡(luò) （Policy head）：輸出當(dāng)前棋盤(pán)上每一個(gè)可能走子的地方的概率分布，表示模型在當(dāng)前狀態(tài)下認(rèn)為的最佳行動(dòng)。

? 價(jià)值網(wǎng)絡(luò) （Value head）：輸出一個(gè)標(biāo)量值，表示當(dāng)前棋盤(pán)狀態(tài)的評(píng)估，即模型認(rèn)為從當(dāng)前狀態(tài)到達(dá)游戲結(jié)束的勝負(fù)概率。

對(duì)比 LLM，AlphaZero 強(qiáng)調(diào)從零開(kāi)始的自我學(xué)習(xí)，不依賴任何人類的歷史數(shù)據(jù)或先驗(yàn)知識(shí)。所有知識(shí)均通過(guò)自我對(duì)弈產(chǎn)生和優(yōu)化，在 explore 上做到了極致；LLM 依賴于大量的預(yù)訓(xùn)練數(shù)據(jù)，這些數(shù)據(jù)所有互聯(lián)網(wǎng)文本和代碼內(nèi)容，反映了人類知識(shí)和語(yǔ)言模式，在 exploit 上做到了極致。

可能會(huì)問(wèn)，為什么 RLHF 中的 RL 很難進(jìn)一步給模型很強(qiáng)的探索推理能力，因?yàn)?RLHF 的任務(wù)目標(biāo)并不是機(jī)器智能，而是人機(jī)對(duì)齊。在像 average human 的偏好數(shù)據(jù)上做 RL 能做到“更像人”，但不能做到 super human 的智能。舉個(gè)例子，人類總是更喜歡好理解而不是邏輯嚴(yán)謹(jǐn)?shù)膬?nèi)容。

3. 如何評(píng)估 RL reasoning model 的能力？

當(dāng) OpenAI 和 Anthropic 的 reasoning model 發(fā)布時(shí)，應(yīng)該怎么評(píng)估其模型的智能程度呢？我們可以想到這樣幾個(gè)重要的 milestone，難度從低到高：

? Milestone 1：強(qiáng)推理能力的“理科生”

RL reasoning model 一定能在這兩個(gè)垂直領(lǐng)域達(dá)到很強(qiáng)的可用性：90%+ 復(fù)雜數(shù)學(xué)問(wèn)題正確率，完整生成 1000+ 行代碼的 github repo。

? Milestone 2：能規(guī)劃執(zhí)行 long horizon task 的 AI agent

如果 self-play 有可能通過(guò)自由探索互聯(lián)網(wǎng)數(shù)據(jù)，在一些任務(wù)上能為用戶執(zhí)行瀏覽器/操作系統(tǒng)級(jí)的 autopilot，這時(shí) AI agent 就真正來(lái)到了 ChatGPT 時(shí)刻。

? Milestone 3：AI society 對(duì)話系統(tǒng)

RL reasoning model 可以模擬兩個(gè)角色的對(duì)話，發(fā)現(xiàn)和優(yōu)化對(duì)話策略。例如一個(gè) LLM 可以扮演銷售和客戶、老師和學(xué)生、各國(guó)外交官等各種角色，通過(guò)自我對(duì)話學(xué)習(xí)如何在各種語(yǔ)境下的社交、溝通技巧，從中獲得真正的語(yǔ)言理解和共情能力。如果這里有 emergent capability 涌現(xiàn)，AI 智能能真正的社會(huì)化。

總結(jié)來(lái)說(shuō)，self-play 給了模型一個(gè)自己“卷”自己不斷進(jìn)步的框架，MCTS 方法讓模型在連續(xù)決策中更容易“打出連招”，self-play+LLM+MCTS 會(huì)成為 LLM post-training 中新的范式。至于能走到哪一個(gè) milestone，這里的核心 bottleneck 就是 reward model，我們?cè)谙乱还?jié)中將重點(diǎn)討論。

二、Reward model

RL reasoning 的核心難點(diǎn)

Self-play RL 是要在好的策略上持續(xù)探索，怎么定義“好”就尤其重要。因此， Reward model（獎(jiǎng)勵(lì)模型）是 RL 中最關(guān)鍵的模塊之一，有兩個(gè)關(guān)鍵的卡點(diǎn)是需要解決的，那就是 reward model 的泛化性和連續(xù)性。

1. 可驗(yàn)證的 reward model 讓 code & math 提升路徑明晰

Self-play RL 在棋牌、電子游戲、數(shù)學(xué)競(jìng)賽上之所以有效，是因?yàn)檫@些領(lǐng)域都有明確的勝負(fù)標(biāo)準(zhǔn)，可以作為 reward model 的基礎(chǔ)。有了 LLM 的 in-context learning，我們相信代碼、數(shù)學(xué)是可以通過(guò) LLM + self-play RL 來(lái)持續(xù)進(jìn)步的。根據(jù) The information 報(bào)道，strawberry 目前能力最強(qiáng)的領(lǐng)域就在 math 和 code 上，Sonnet 3.5 在代碼的提升也是很好的佐證。

這兩個(gè)領(lǐng)域具有準(zhǔn)確、快迭代的評(píng)判標(biāo)準(zhǔn)，使得模型能夠獲得明確的反饋：我們可以把 code script 放進(jìn) Python Interpreter/ compiler，把 math proof 放進(jìn) Lean（Lean 是一種編程語(yǔ)言，通過(guò)計(jì)算機(jī)驗(yàn)證數(shù)據(jù)定理，廣泛用在 AI 形式化數(shù)學(xué)證明中幫助 AI 理解數(shù)學(xué)題），就能自動(dòng)驗(yàn)證其準(zhǔn)確性。

數(shù)學(xué)作為形式化邏輯的典范，擁有一套可驗(yàn)證、精準(zhǔn)的符號(hào)系統(tǒng)。在這次 IMO 中，DeepMind 用 Alphaproof + AlphaGeometry 2 的方案成功獲得銀牌，Alphaproof 解決了 3 道題目，alphageometry 解決了 1 道題。其進(jìn)行做 RL 的方法有幾個(gè)值得關(guān)注的點(diǎn)：

Fine-tune Gemini 用于對(duì)數(shù)學(xué)問(wèn)題形式化，生成了～100M 用于訓(xùn)練的數(shù)據(jù)。這個(gè)數(shù)據(jù)量遠(yuǎn)比人類解數(shù)學(xué)題需要的量大。
用 AlphaProof 和 Lean Compiler 作為外部監(jiān)督信號(hào)告訴 solver network 其答案是否正確（今年 IMO 的題目是可以驗(yàn)證答案是否錯(cuò)誤的），再利用 MCTS 搜索更好的答案并訓(xùn)練。
由于問(wèn)題很難，Alphaproof 在推理過(guò)程中也會(huì)訓(xùn)練網(wǎng)絡(luò)（這可能是為什么他耗時(shí)那么久），即針對(duì)特定問(wèn)題 MCTS 采樣后，會(huì)把采樣中較好的 reasoning path 再投入訓(xùn)練，這種做法相當(dāng)于對(duì)特定任務(wù) finetune。
AlphaProof & Alphageometry 2 拆成了兩個(gè)策略網(wǎng)絡(luò)來(lái)達(dá)到最好的效果。因?yàn)椴煌囟ㄈ蝿?wù)可能需要分別設(shè)置 prior，比如 AlphaGeometry 需要增加輔助線。

Code 領(lǐng)域的可驗(yàn)證性也非常強(qiáng)，AI 能通過(guò) compiler/interpreter 自行驗(yàn)證可用性。如果不成功，報(bào)錯(cuò)信息也能幫助 AI 自己去發(fā)現(xiàn)和理解錯(cuò)誤在哪里。而且 coding 領(lǐng)域相比 math 還有兩個(gè)獨(dú)特的優(yōu)勢(shì)：

? 海量高質(zhì)量數(shù)據(jù)。開(kāi)源領(lǐng)域已經(jīng)有很多項(xiàng)目代碼，而且其數(shù)據(jù)質(zhì)量很高：有代碼項(xiàng)目的文件結(jié)構(gòu)、優(yōu)化歷史、遇到問(wèn)題時(shí)的修復(fù)方案，還有大量基于自然語(yǔ)言的注釋。

? 明確的分工方式。math 是一個(gè)比較個(gè)人英雄主義的領(lǐng)域，頂尖優(yōu)秀的數(shù)學(xué)家進(jìn)行自己的思維實(shí)驗(yàn)，能夠與其同頻協(xié)作的人非常少。而 code 領(lǐng)域已經(jīng)出現(xiàn)了復(fù)雜分工：PM 理解需求設(shè)計(jì)原型、SWE 開(kāi)發(fā)程序、QA 驗(yàn)證代碼、SRE 進(jìn)行運(yùn)維。前面提到 self-play 其實(shí)是一個(gè) multi-agent 分工環(huán)境，高效的分工影響了 RL 的質(zhì)量上限。

OpenAI 在今年 6 月宣布內(nèi)部訓(xùn)練了 CriticGPT 用于 post-training，是一個(gè) AI code verifier：CriticGPT 能夠?qū)?ChatGPT 生成的代碼進(jìn)行評(píng)估，識(shí)別出錯(cuò)誤并提修改建議。其訓(xùn)練方式也比較直接：通過(guò)在代碼中故意設(shè)置 bug 并進(jìn)行詳細(xì)標(biāo)注，訓(xùn)練出能夠 debug 的模型。盡管沒(méi)有說(shuō)明，我們相信其目標(biāo)一定是給 Q-star 訓(xùn)練 reward model。

Anthropic Artifact 也是這個(gè)領(lǐng)域非常好的案例：Sonnet 3.5 從能生成 20 行可靠代碼進(jìn)化到可以生成 200 行，自然也就帶來(lái)了這個(gè)產(chǎn)品 UI 上的創(chuàng)新。Anthropic 也完全有可能把這里的用戶數(shù)據(jù)作為 reward model 喂回給模型，是比 ChatGPT 的數(shù)據(jù)飛輪更高效的。

如果說(shuō) ai for math 可能對(duì)人類的科學(xué)探索有很大幫助，ai for coding 是更能產(chǎn)生直接的經(jīng)濟(jì)價(jià)值的。知識(shí)工作者有非常多的任務(wù)可以用代碼來(lái)定義并實(shí)現(xiàn)，只是目前沒(méi)有公司能為個(gè)性化長(zhǎng)尾需求寫(xiě)代碼。這一部分可能是 RL 成熟之后最大的創(chuàng)業(yè)機(jī)會(huì)，這將在文章的第 4 部分繼續(xù)深入。

2. reward model 對(duì)其他領(lǐng)域的泛化性并不明確

在數(shù)學(xué)和編程等領(lǐng)域，我們有明確的正確性標(biāo)準(zhǔn)，但在文本的開(kāi)放域我們沒(méi)有，很多時(shí)候任務(wù)的目標(biāo)是模糊的、沒(méi)有最優(yōu)解，這讓我們對(duì)智能通過(guò) RL 在所有語(yǔ)言任務(wù)上產(chǎn)生泛化感到悲觀：

? 物理、醫(yī)藥有明確的標(biāo)準(zhǔn)答案，但需要很長(zhǎng)的實(shí)驗(yàn)驗(yàn)證周期。這兩個(gè)領(lǐng)域看似是最接近 math、code 的，但缺少實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證的 synthetic data 可用性無(wú)法保障。

? 法律、金融的問(wèn)題往往沒(méi)有通用解法，很難用通用的 reward model 實(shí)現(xiàn)。例如在科技投資中，一級(jí)市場(chǎng)研究就會(huì) reward 前瞻性強(qiáng)的研究，而二級(jí)市場(chǎng)研究則對(duì)前瞻性的 reward 就相對(duì)少一些，reward 需要分配給很多強(qiáng)時(shí)效性的判斷。

? 文字創(chuàng)意領(lǐng)域的 reward 很多時(shí)候不符合馬爾可夫模型，也就是其 reward 常常會(huì)有跳變。一本好的小說(shuō)、劇本，會(huì)講究反轉(zhuǎn)，試想 LLM next-token prediction 到一個(gè)反轉(zhuǎn)之前其 reward 函數(shù)還很低，一個(gè)精彩的反轉(zhuǎn)讓 reward 函數(shù)突然大幅提升，self-play RL 很難捕捉這個(gè)突然的變化。

因此這里孕育著新范式下的第二個(gè)創(chuàng)業(yè)機(jī)會(huì)：垂直領(lǐng)域的 reward model，同樣會(huì)在第 4 部分詳細(xì)展開(kāi)。

而要讓 reward function 能捕捉到更多的信號(hào)，在垂直領(lǐng)域之外泛化，最重要的方向就是怎么用好 LLM 作為 reward model，并同時(shí)輸出數(shù)字和文字評(píng)估。

3. LLM as a PRM （process reward model）：通往泛化的重要路線

要實(shí)現(xiàn)泛化，背后的核心問(wèn)題是怎么設(shè)計(jì) reward function 才讓數(shù)據(jù)信號(hào)能被更高效地運(yùn)用，才能讓 AI 循序漸進(jìn)的學(xué)習(xí)。在 code 和 math 領(lǐng)域已經(jīng)有了一些解決方案：使用 LLM 作為 PRM + curriculum learning。這套方法的持續(xù)突破，一定會(huì)讓 reasoning model 訓(xùn)練得更好，配合 LLM 的語(yǔ)義表達(dá)能力甚至有可能實(shí)現(xiàn) reward model 的泛化。

PRM （Process reward model）是獎(jiǎng)勵(lì)好的推理步驟，而不僅僅是正確的結(jié)果。這更接近人類的學(xué)習(xí)和推理方式，實(shí)現(xiàn)方式常常是用 chain-of-thought 來(lái)表示推理過(guò)程，對(duì)每一步進(jìn)行打分。這是因?yàn)?LLM 的語(yǔ)義理解能力才成為可能的。在傳統(tǒng) RL 中，我們按照最終結(jié)果評(píng)分，其評(píng)分模型稱為 ORM（outcome reward model）；而通過(guò)專門(mén)訓(xùn)練 LLM 成為 process verifier ，新的評(píng)分模型叫做 PRM，往往是使用嬌小 LLM fine-tune 得到。

OpenAI 的 verify step-by-step 也是最近最重要的 paper 之一。他們訓(xùn)練的 PRM 在解決 MATH 數(shù)據(jù)集測(cè)試集中 78.2%的問(wèn)題時(shí)表現(xiàn)優(yōu)于 ORM。在今年 Google Research 的一篇 paper 中提到，PRM 在過(guò)程中一旦成功發(fā)現(xiàn)第一個(gè)錯(cuò)誤，就能使 RL 訓(xùn)練效果顯著提升。

而且在 process supervision 過(guò)程中，reward 的形式也不止限于數(shù)值，文字評(píng)價(jià)也可以作為指導(dǎo)模型繼續(xù)行動(dòng)的 reward。Google DeepMind 最新發(fā)布的 Generative Verifier 中，他們微調(diào)的 verifier 可以把問(wèn)題每一步都用數(shù)值和文字評(píng)估，給模型作為 reward。

Process learning 保證了推理思考過(guò)程得到評(píng)估，而 Curriculum learning 是為了讓思考過(guò)程得到由淺入深、循序漸進(jìn)的引導(dǎo)，其核心理念是將復(fù)雜任務(wù)分解為多個(gè)難度遞增的子任務(wù)，讓智能體逐步學(xué)習(xí)。這樣由簡(jiǎn)單到難的設(shè)計(jì)過(guò)程是很有必要的，這樣一方面避免了 reward model 在早期過(guò)于稀疏的問(wèn)題，一方面可以通過(guò)數(shù)據(jù)的多樣性來(lái)使 LLM 學(xué)習(xí)最適合其能力的課程，防止出現(xiàn)下棋時(shí)能贏李世石、但不能贏公園老大爺?shù)倪^(guò)擬合情況。

在課程學(xué)習(xí)中，有兩種關(guān)鍵的獎(jiǎng)勵(lì)機(jī)制：探索獎(jiǎng)勵(lì)和競(jìng)爭(zhēng)獎(jiǎng)勵(lì)。探索獎(jiǎng)勵(lì)是在完成簡(jiǎn)單子任務(wù)時(shí)給予的，旨在鼓勵(lì)智能體學(xué)習(xí)基礎(chǔ)技能。競(jìng)爭(zhēng)獎(jiǎng)勵(lì)則是在完成最終復(fù)雜任務(wù)時(shí)給予的。為了平衡這兩種獎(jiǎng)勵(lì)，課程學(xué)習(xí)引入了獎(jiǎng)勵(lì)退火機(jī)制：隨著訓(xùn)練的進(jìn)行，探索獎(jiǎng)勵(lì)逐漸減少，而競(jìng)爭(zhēng)獎(jiǎng)勵(lì)的比重逐漸增加。課程學(xué)習(xí)的設(shè)計(jì)原則遵循一個(gè)漸進(jìn)的過(guò)程。在訓(xùn)練的早期階段，系統(tǒng)提供稠密的探索獎(jiǎng)勵(lì)，幫助智能體快速掌握基礎(chǔ)技能。隨著訓(xùn)練的深入，探索獎(jiǎng)勵(lì)逐步減少，競(jìng)爭(zhēng)獎(jiǎng)勵(lì)的比重逐漸增加。

三、Scaling Law 范式變化

1. RL 合成數(shù)據(jù)的 unit economics 估算

在 RL 的新范式下，LLM 訓(xùn)練的 scaling law 需要被重寫(xiě)。因?yàn)橛?xùn)練時(shí)計(jì)算量不再只是和參數(shù)量的上升有關(guān)，還多了一個(gè)新變量：self-play 探索時(shí) LLM inference 的計(jì)算量。RL 的思路本質(zhì)是用 inference time 換 training time，來(lái)解決模型 scale up 暫時(shí)邊際收益遞減的現(xiàn)狀。最近 DeepMind 也發(fā)布了一篇paper 叫做：Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters，正是在討論這個(gè)范式變化。

在 MCTS 這樣的樹(shù)狀搜索算法中，在樹(shù)的每個(gè)節(jié)點(diǎn)多次模擬。在圍棋這樣范圍相對(duì)確定的任務(wù)里，AlphaGo 的計(jì)算量已經(jīng)很大。其訓(xùn)練過(guò)程模型通過(guò)反復(fù)進(jìn)行 self-play，不斷優(yōu)化其 policy 和 reward 評(píng)估能力。在 AlphaZero 的訓(xùn)練中，模型進(jìn)行了大約 500 萬(wàn)局自我對(duì)弈，每局大約 200 步，做好每一步平均需要 1600 次模擬。這使得總的模擬次數(shù)達(dá)到了 1.6 萬(wàn)億次。

MCTS 中的樹(shù)狀結(jié)構(gòu)示例

但 AlphaZero 只是一個(gè)千萬(wàn)參數(shù)量級(jí)的神經(jīng)網(wǎng)絡(luò)，和 LLM 差了 3-4 個(gè)數(shù)量級(jí)。要想搜索所有人類思考過(guò)程的可能性，還得處理更多數(shù)據(jù)和更復(fù)雜的參數(shù)，計(jì)算量只會(huì)更加龐大。要讓 LLM 做這樣大樣本量的 self-play 的算力需求是非常大的。好在我們大部分的推理問(wèn)題都可以拆解為一個(gè) 3-10 步的 chain-of-thought，接下來(lái)我們就計(jì)算一下 LLM 需要的推理成本，每一次模擬需要以下數(shù)據(jù)：

? context：?jiǎn)栴}和之前的推理過(guò)程。

? action：基于 context 接下來(lái)的行動(dòng)選擇。這里是和傳統(tǒng) RL 差異最大的地方，文字可以用無(wú)限開(kāi)放的方式進(jìn)行組合，而傳統(tǒng)任務(wù)比如下圍棋有著有限的決策空間。實(shí)踐中一些 paper 提到會(huì)用 temperature sampling 來(lái)生成 k 種回答（k 是一個(gè)固定數(shù)字，具體值需要實(shí)踐），把這 k 個(gè)回答作為決策空間。我們可以按 k = 32 進(jìn)行計(jì)算，也就是每一步推理需要 32 次 inference 模擬。

? reward：對(duì)每一步行動(dòng)，需要輸出 reward 來(lái)評(píng)估其效果。輸出的 process reward 一定包括數(shù)值，可能也包括文字。

那么這三部分?jǐn)?shù)據(jù)的推理成本我們可以做一個(gè)大致的簡(jiǎn)單估算：

? Agent model 是一個(gè) 50B LLM（$0.5/M tokens），reward model 是一個(gè) 10B LLM（$0.1/M tokens）；

? Reasoning 任務(wù)有 5 步推理深度，每步會(huì)模擬 32 種結(jié)果，選取 top 10% 的推理結(jié)果往下推理，那么總計(jì)需要大約 10000 次模擬；

? 每一次模擬平均 1000 tokens；

那么一個(gè)推理任務(wù)的總成本為 6 美金。由于大部分 token 都是在重復(fù) context，高質(zhì)量比例不會(huì)很大，可以認(rèn)為 10000 次模擬中有 1% 也就是 100 次模擬是有價(jià)值的（包括正例和負(fù)例，RL 中負(fù)例同樣很有幫助的），也就是 100k tokens。

2. 新的scaling law 正在浮現(xiàn)：算力周期性從 scaling 轉(zhuǎn)移到 inference-time compute

對(duì)于 GPT-4， Claude-3.5 水平的模型，我們推測(cè)要合成 1-10T 量級(jí)的高質(zhì)量推理數(shù)據(jù)才能真正讓模型大幅提升其推理能力，對(duì)應(yīng)的成本大致需要 6-60 億美金，這個(gè)在模型訓(xùn)練實(shí)驗(yàn)的算力中占的比例也是比較大的。

因此 RL 范式下，scaling law 仍然存在，計(jì)算成本仍然會(huì)大幅提升來(lái)獲得更優(yōu)的智能，但提升不再是模型的參數(shù)量本身的持續(xù)增長(zhǎng)，而是通過(guò) RL reasoning model 的方式來(lái) scale up。今年中 OpenAI 正式推出了 mid-training 這個(gè)崗位，可能就是通過(guò) RL reasoning model 合成大量高質(zhì)量數(shù)據(jù)做繼續(xù)學(xué)習(xí)。

但與預(yù)訓(xùn)練需求不同的是，inference 對(duì)單張卡性能和集群規(guī)模的需求相對(duì)低一些，也就是說(shuō)不一定要最頂尖的卡、3 萬(wàn)卡以上的集群才能再能跑 RL inference。因此各家大廠要追求 RL 范式下的 scaling law 還是需要在 GPU 算力上持續(xù)投入，但一年內(nèi)不會(huì)再去追求超大 H100 集群了。下一次大模型從 scaling up parameters 中獲取智能的時(shí)間點(diǎn)，可能是明年下半年 NVidia B 系列的發(fā)布，可以實(shí)現(xiàn)更大的 20 萬(wàn)量級(jí)互聯(lián)集群。

因此并不是未來(lái) foundational model 就不再需要 scale up 了，未來(lái)的趨勢(shì)可能是周期式的：2 年的 model scaling-up 周期，2 年的 RL reasoning 提升周期。硬件更新、類 transformer 架構(gòu)優(yōu)化、next token prediction 目標(biāo)有關(guān)，都可能再次點(diǎn)燃模型 scale up 的趨勢(shì)。

3. 推理成本大幅上升：MCTS 搜索加入 LLM inference

在去年的 LLM 范式預(yù)測(cè)中我們提到過(guò)，LLM 直接生成是可以類比系統(tǒng) 1 的慢思考。而 RL 就為 LLM 帶來(lái)了系統(tǒng) 2 慢思考。

引入了 MCTS 之后，LLM inference 會(huì)變得更慢、更貴、更智能。因?yàn)槊恳淮位卮饐?wèn)題時(shí)都會(huì)推演很多種可能的思考路徑，并自行評(píng)估哪一個(gè)能獲得最高的 reward，然后再將最終的生成結(jié)果輸出給用戶。理想中越難的問(wèn)題需要分配更多的算力和時(shí)間：簡(jiǎn)單問(wèn)題 1s 直接輸出答案，復(fù)雜問(wèn)題可能需要 10min 甚至 10h 來(lái)思考最佳的解決方式。MCTS 實(shí)際推理中，可能是和之前我們預(yù)測(cè)成本的范式類似：把任務(wù)拆解成 5 步推理，每一步嘗試 k 次模擬，搜索一整個(gè)決策樹(shù)中的最佳方案。Alphago 下圍棋時(shí)也是這么在推理時(shí)深度推演之后的下棋決策的，只是應(yīng)用到 LLM 上對(duì)算力的要求更高了，需要更多智能剪枝等優(yōu)化方式。

因此這一部分很難定量的計(jì)算其實(shí)際對(duì)推理需求帶來(lái)了多大數(shù)量級(jí)的提升：理論上 MCTS 推演的策略集越全面一定是效果越好的，但是推理算力、用戶體驗(yàn)的角度來(lái)說(shuō)一定需要 LLM 廠商去做嚴(yán)格的資源約束，來(lái)達(dá)到性能和成本之間的平衡。

四、RL 新范式帶來(lái)了什么創(chuàng)業(yè)和投資機(jī)會(huì)？

1. AI for coding 帶來(lái)編程能力民主化

代碼開(kāi)發(fā)是最近 AI 提升最大、熱度最高的領(lǐng)域，背后最重要的原因就是 sonnet3.5 的發(fā)布帶來(lái)的推理能力的提升。這個(gè)提升最直接的 benchmark 就是寫(xiě)出可靠代碼的行數(shù)：原本 4o 只能可以寫(xiě) 20 行可靠的代碼，Sonnet 3.5 可以寫(xiě) 200 行。

如果 reasoning model 的突破把這個(gè) benchmark 擴(kuò)大到 1000 行，那么很多簡(jiǎn)單的代碼項(xiàng)目其實(shí)不需要專業(yè)的開(kāi)發(fā)者來(lái)完成，而是 ai 獨(dú)立完成一整個(gè)項(xiàng)目。這時(shí)使用這類產(chǎn)品的用戶數(shù)，都會(huì)有一個(gè)數(shù)量級(jí)的提升，每個(gè)項(xiàng)目的平均 DAU 會(huì)下降，對(duì)代碼的性能要求也會(huì)降低。

我們會(huì)把 AI for coding 分為兩類。第 1 類目前已經(jīng)有比較成熟的產(chǎn)品了，而第 2 類在 reasoning model 出現(xiàn)前后才剛剛開(kāi)始：

? AI for developers，為專業(yè)開(kāi)發(fā)者的 ai 提效。這個(gè)領(lǐng)域已經(jīng)有一些比較成熟的產(chǎn)品了，我們比較看好 AI IDE 的入口級(jí)效應(yīng)和 e2e coding agent 對(duì)工作流的顛覆，Cursor 是目前明顯的領(lǐng)先者。

? No-code AI developers，人人都成為產(chǎn)品經(jīng)理，為自己的需求設(shè)計(jì)軟件。完成一個(gè)軟件項(xiàng)目的無(wú)代碼開(kāi)發(fā)品牌。

AI for developers

Cursor

Anysphere 是一家專注于開(kāi)發(fā) AI 驅(qū)動(dòng)工具以提升軟件開(kāi)發(fā)效率的初創(chuàng)公司，其旗艦產(chǎn)品是名為 Cursor 的 AI IDE。加持了 Sonnet 3.5 之后，Sonnet 的產(chǎn)品口碑特別優(yōu)秀，就像去年上半年我看到 Perplexity 的用戶口碑那樣。他們的產(chǎn)品對(duì)用戶正在開(kāi)發(fā)項(xiàng)目的 context 做了非常深入的理解，同時(shí)也有優(yōu)秀的 chat UI，和各種支持 AI 協(xié)同編輯的快捷鍵。由于其產(chǎn)品體驗(yàn)很優(yōu)秀，甚至可以在 Youtube 上看到一個(gè)美國(guó)的 8 歲女孩用 cursor 在 45 分鐘內(nèi)實(shí)現(xiàn)了一個(gè)自己想要的哈利波特 chatbot。

Cursor 團(tuán)隊(duì)下一步的開(kāi)發(fā)目標(biāo)也是 AI 自動(dòng)化提升，減少 human in the loop。比如他們提到正在開(kāi)發(fā)后臺(tái)獨(dú)立運(yùn)行的 shadow workspace，AI 可以在其中持續(xù)自由修改代碼、運(yùn)行測(cè)試和獲取反饋，而不會(huì)影響實(shí)際項(xiàng)目文件，并再將最終的建議反饋給用戶。這樣的 AI 沙盒的下一步就是 AI 能夠獨(dú)立完成所有代碼，屆時(shí) Cursor 團(tuán)隊(duì)也完全有可能去切入一個(gè)更大的普通用戶開(kāi)發(fā)市場(chǎng)。

Zed

Zed 是一款由 Atom 和 Tree-sitter 的創(chuàng)建者開(kāi)發(fā)的高性能多人代碼編輯器。他們主打的特點(diǎn)是支持多人甚至 AI 實(shí)時(shí)協(xié)作編輯代碼。開(kāi)發(fā)者可以實(shí)時(shí)看到其他用戶的編輯操作，同時(shí)多人修改同一個(gè)文件，并通過(guò)聊天、語(yǔ)音、視頻會(huì)議等工具進(jìn)行實(shí)時(shí)溝通。在發(fā)布了 Zed AI 之后，這樣一些協(xié)同功能都有可能成為 AI 開(kāi)發(fā)使用的重要 context。

這里盤(pán)點(diǎn)的還只是應(yīng)用工具層的典型產(chǎn)品，還有 4-5 家 e2e agent 公司尚未發(fā)布產(chǎn)品，會(huì)在之后另外發(fā)布相關(guān)研究。

No-code AI developers

這個(gè)新賽道不是服務(wù)專業(yè)開(kāi)發(fā)者的，而是能用低門(mén)檻方式服務(wù)普通用戶的，設(shè)計(jì)出低門(mén)檻的交互方式非常重要。這就像攝像頭在手機(jī)上便攜之后，出現(xiàn)了 Instagram、Tik tok 這樣的產(chǎn)品，產(chǎn)品的主要價(jià)值就在其前端交互幫助普通用戶都能拍出高質(zhì)量的照片視頻并形成內(nèi)容平臺(tái)。

Websim

Websim 是這個(gè)領(lǐng)域中重要的交互創(chuàng)新，其 vison 是 no-code 的方式用 AI 生成模擬出一個(gè)新的互聯(lián)網(wǎng)。其產(chǎn)品形態(tài)用內(nèi)嵌的瀏覽器做交互，用戶可以通過(guò)多次的 prompt 生成復(fù)雜度還不錯(cuò)的網(wǎng)頁(yè)。

這個(gè)項(xiàng)目從今年初就已經(jīng)出現(xiàn)了，而 Sonnet 3.5 讓這個(gè) idea 可以實(shí)現(xiàn)了?，F(xiàn)在 Websim 社區(qū)中已經(jīng)有各種 hobbyist 在開(kāi)發(fā)產(chǎn)品，甚至由用戶在其中開(kāi)發(fā)出了一個(gè)完整的 3D 建模編輯器。用戶可以在產(chǎn)品上不斷迭代測(cè)試網(wǎng)站的原型，也可以瀏覽其他用戶創(chuàng)作出的產(chǎn)品，有一些從工具到平臺(tái)的轉(zhuǎn)移。

用戶在 Websim 上創(chuàng)作的 Google2.0

Wordware

Wordware 也在從工具到平臺(tái)轉(zhuǎn)移上做得很好。他們的產(chǎn)品用類似 notion 的方式做交互，把 IDE 的門(mén)檻降低，普通用戶能像用 notion 文檔一樣構(gòu)建一個(gè)好玩的 app。

Wordware 是 ProductHunt 最成功的發(fā)布之一，發(fā)布當(dāng)天獲得了 6151 票。他們?cè)?10 天內(nèi)有 700 萬(wàn)用戶用了 twitter agent，新增 25 萬(wàn) wordware 用戶，總計(jì)注冊(cè)用戶達(dá)到 27.2 萬(wàn)。

Wordware 團(tuán)隊(duì)擅長(zhǎng)用自己的產(chǎn)品去推出病毒式傳播的內(nèi)容：twitter.wordware.ai。Wordware 的增長(zhǎng)負(fù)責(zé)人 Kamil Ruczynski 提出了這個(gè) idea：可以閱讀你所有推文，對(duì)你的個(gè)性進(jìn)行吐槽和分析的 AI Agent。這款 Agent 產(chǎn)品的核心邏輯非常簡(jiǎn)單：提示詞 + 推特 API + AI，主打犀利吐槽、獵奇有趣，命中了最大量的 18-29 歲推特用戶群體。

2. Reasoning model Lab 有新的模型層機(jī)會(huì)？

上一波范式下的 startup 開(kāi)始收斂，Inflection、Adept、Character 都被收購(gòu)。在新范式下又有新的 research lab 又涌現(xiàn)出來(lái)，其中我們認(rèn)為最值得關(guān)注的有以下三家。

SSI

Safe Superintelligence Inc. （SSI）是由 Ilya Sutskever、Daniel Gross 和 Daniel Levy 共同創(chuàng)立的公司，專注于開(kāi)發(fā)安全的超級(jí)人工智能。他們公司還在 lab research 階段，選擇的很可能就是從有 self-play RL 的 LLM 路線開(kāi)始。

Chief scientist Ilya 的前瞻性無(wú)需多言，從 AlexNet、Seq2seq、Dota Five 到 ChatGPT，他完整地引領(lǐng)了過(guò)去十年中所有 AI 領(lǐng)域的 milestone。SSI 是有了 Ilya 離開(kāi) OpenAI 才成為可能。

CEO Daniel Gross 在硅谷核心圈子的影響力很大。他出生于耶路撒冷，曾是 Y Combinator 的合伙人，投過(guò) Uber、Instacart、Figma、Github 等項(xiàng)目。從 YC 離開(kāi)后他和 Nat Fridman 一起創(chuàng)立了 AI grant，投資了 CAI、Perplexity 等項(xiàng)目。做投資人之前他 cofound 過(guò)搜索引擎公司 Cue，后來(lái)被蘋(píng)果收購(gòu)。這次和 Ilya 聯(lián)合創(chuàng)立公司，他和 Sam Altman 的定位類似，為公司籠絡(luò)足夠多的商業(yè)資源。

CTO Daniel Levy 是 22 年加入 OpenAI 的 researcher，在 GPT-4 報(bào)告中定位是 Overall vision co-lead， optimization lead，并參與了 Training run babysitting，在多模態(tài)研究上擔(dān)任了很核心的工作，離開(kāi)前是 OpenAI optimization lead。此外關(guān)于他的信息不多，在 researcher 之間有著很好的口碑。

Harmonic

Harmonic 是一家由前 Robinhood CEO Vlad Tenev 和前 Helm AI CTO Tudor Achim 于 2023 年底 cofound 的公司。該公司專注于 AI for 數(shù)學(xué)推理的人工智能平臺(tái)，并通過(guò)數(shù)學(xué)推理智能能力的不斷提升去解決可驗(yàn)證的問(wèn)題，未來(lái)可能通過(guò) math + code 去解決醫(yī)藥、科學(xué)、金融等行業(yè)的問(wèn)題。

他們最新的數(shù)學(xué)證明模型 Aristotle 已經(jīng)在 MiniF2F 任務(wù)上做到了 90% 的準(zhǔn)確度（MiniF2F 是一個(gè)數(shù)學(xué)規(guī)范問(wèn)題 benchmark，問(wèn)題來(lái)源于數(shù)學(xué)競(jìng)賽和大學(xué)課本）。他們還提到 Harmonic 開(kāi)發(fā)了一種自動(dòng)將自然語(yǔ)言問(wèn)題和解決方案翻譯為其形式表示的能力，稱為自動(dòng)形式化。這使得 Aristotle 能夠與可能不熟悉 Lean 的數(shù)學(xué)家和教育工作者合作。優(yōu)秀的模型能力和對(duì) reasoning interpreter 交互泛化性的重視都是他們值得關(guān)注的原因。

Symbolica

嚴(yán)格來(lái)說(shuō)，Symbolica 要做的事情和上文中的 RL 路線不同，他們更偏向符號(hào)主義方法論。不過(guò)由于他們主攻的方向也是基于代碼、math 等形式化邏輯的 reasoning model，也應(yīng)該放在這里作為一個(gè)差異化路線進(jìn)行介紹。

Symbolica 的 vision 是將傳統(tǒng)符號(hào)人工智能（通過(guò)定義的符號(hào)、規(guī)則集來(lái)解決任務(wù)）的數(shù)學(xué)抽象與神經(jīng)網(wǎng)絡(luò)結(jié)合起來(lái)，來(lái)開(kāi)發(fā)開(kāi)發(fā)可控、可解釋的 AI 模型。他們模型最先解決的任務(wù)也會(huì)是生成代碼、證明數(shù)學(xué)定理。

不過(guò)這個(gè)領(lǐng)域的競(jìng)爭(zhēng)會(huì)非常激烈和 capital intensive， OpenAI、Anthropic、Google DeepMind 這三個(gè) LLM 的頭部玩家在 RL 領(lǐng)域的技術(shù)積累非常深，是否有其他創(chuàng)業(yè)公司彎道超車的機(jī)會(huì)還有待時(shí)間驗(yàn)證。

3. Vertical reward model 會(huì)成為應(yīng)用層的新主題

Reward model 能泛化到整個(gè)文本推理領(lǐng)域的概率是比較小的，因?yàn)椴煌袠I(yè)領(lǐng)域?qū)?reward value 的定義非常不一樣。這就留給創(chuàng)業(yè)公司去建立垂直領(lǐng)域 reward model 的創(chuàng)業(yè)機(jī)會(huì)，其具體如何與 LLM 結(jié)合還得看 Anthropic/OpenAI 是否會(huì)為公司開(kāi)放 reward model fine-tune 的接口。但每一個(gè)垂直領(lǐng)域都是值得建立 reward model 的，因?yàn)榇蟛糠诸I(lǐng)域現(xiàn)在都會(huì)遇到 fine-tune 和 RAG 能解決問(wèn)題有限的問(wèn)題。

這個(gè)領(lǐng)域和 No-code AI developers 一樣才剛剛開(kāi)始，我們判斷會(huì)有兩類機(jī)會(huì)：

? 給一個(gè)垂直行業(yè)建立 reward model，比如金融/法律。以 Harvey 為代表。

? 給一類 agent 使用場(chǎng)景建立 reward model，比如操作瀏覽器。以 Induced AI 為代表。

Harvey

Harvey AI 我們之前發(fā)過(guò)一個(gè)獨(dú)立的研究。他們的首個(gè)產(chǎn)品是一個(gè)在 GPT4 底座模型上加入大量法律專業(yè)數(shù)據(jù) finetune 的 AI Chatbot，它的主要能力包括：

? 法律寫(xiě)作：撰寫(xiě)長(zhǎng)篇、格式化的法律文件，幫助起草合同，撰寫(xiě)客戶備忘錄，作為工作起點(diǎn)；

? 掌握專業(yè)法律知識(shí)，可以回答復(fù)雜的法律問(wèn)題等；

? 進(jìn)行合同及文件的理解與處理。

這些任務(wù)都是在處理法律行業(yè)最 junior 的工作。如果要深入到行業(yè)中更為復(fù)雜、需要決策和行動(dòng)的任務(wù)，需要與這些頂級(jí)律所持續(xù)合作制定一個(gè)法律行業(yè)專用的 reward model。由于 Harvey 是所有垂直領(lǐng)域中與 OpenAI 合作最為密切的（常常在 PR 中提到互相合作的案例），他們很可能也是最早有機(jī)會(huì)開(kāi)始合作垂直領(lǐng)域 reward model 的。

Induced AI

Induced 是一個(gè) AI-native 的瀏覽器自動(dòng)化 RPA 平臺(tái)。其收集用戶使用數(shù)據(jù)的過(guò)程可以認(rèn)為是在做 browser 領(lǐng)域的 reward model。

使企業(yè)能夠用簡(jiǎn)單的自然語(yǔ)言輸入 workflow，或給 AI 觀看操作錄屏視頻，就能將指令實(shí)時(shí)轉(zhuǎn)換為偽代碼，模擬人類的網(wǎng)絡(luò)瀏覽行為，自動(dòng)瀏覽網(wǎng)頁(yè)，收集并有效地處理和分析關(guān)鍵信息，來(lái)處理通常由后臺(tái)管理的許多重復(fù)性任務(wù)，如銷售、合規(guī)、內(nèi)部運(yùn)營(yíng)等方面。它應(yīng)用了一種雙向交互系統(tǒng)，允許人類根據(jù)需要在某些步驟中進(jìn)行干預(yù)，而其余步驟則由 AI 自主管理。

Induced AI 通過(guò)云優(yōu)先構(gòu)建，意味著自動(dòng)化的任何任務(wù)都在后臺(tái)運(yùn)行，不會(huì)影響本地計(jì)算機(jī)。同時(shí)，在 Chromium 上專門(mén)構(gòu)建了一個(gè)瀏覽器環(huán)境，用于自主工作流程運(yùn)行。它擁有自己的內(nèi)存、文件系統(tǒng)和認(rèn)證憑證（電子郵件、電話號(hào)碼），能夠處理復(fù)雜流程。

總的來(lái)說(shuō)，我們期待用 RL self-play + MCTS 提升 LLM 推理能力的方式能成為下一代技術(shù)范式，并實(shí)現(xiàn)智能的泛化，扮演 LLM 思考中的系統(tǒng) 2。這樣一定能帶來(lái) AI reasoning 能力大幅提升，解鎖很多 AI 應(yīng)用 use case 的落地，帶來(lái)新的一波 AI 創(chuàng)業(yè)投資機(jī)會(huì)。

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】，微信公眾號(hào)：【海外獨(dú)角獸】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App