久久无码久久中文字幕,亚洲永久免费播放片欧洲专区,国产精品V欧美精品V日韩精品

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

The Second Half：一位 OpenAI 科學(xué)家的 AI 下半場(chǎng)啟示錄

海外獨(dú)角獸

2025-04-21

0 評(píng)論 1794 瀏覽 2 收藏

隨著人工智能技術(shù)的飛速發(fā)展，我們正站在AI發(fā)展的新起點(diǎn)上。本文深入探討了AI發(fā)展的下半場(chǎng)，即從解決具體問題轉(zhuǎn)向定義問題、從模型訓(xùn)練轉(zhuǎn)向模型評(píng)估的新階段，供大家參考。

本篇內(nèi)容是 OpenAI Agent Reseacher 姚順雨對(duì)于 AI 下半場(chǎng)的解讀，授權(quán)海外獨(dú)角獸編譯。

在 OpenAI o1 模型發(fā)布前，我們猜想 LLM 迎來 RL 新范式，AGI 路線也隨之進(jìn)入下半場(chǎng)。如果說 LLM 的 pre-training 是對(duì)已有知識(shí)進(jìn)行壓縮學(xué)習(xí)，RL 則更需要和環(huán)境交互產(chǎn)生新知識(shí)。相比 pre-training，RL 的算法和環(huán)境搭建更復(fù)雜，頭部 Labs 對(duì) RL 的探索也尚未收斂。我們?cè)撊绾嗡伎?RL 的意義，如何更好理解 AI 的下半場(chǎng)？ Shunyu 的這篇文章帶來了很多啟發(fā)。他認(rèn)為在 AI 訓(xùn)練中，定義問題將比解決問題更重要，evaluation 將比 training 更重要，enviornment 和 priors 的重要性被低估了。

有評(píng)論稱這篇文章是 Bitter Lesson 級(jí)別的存在，或許是因?yàn)楹?Bitter Lesson 類似，這篇文章也試圖從 high level 指出 AI 研究中一種思維范式的徹底改變。Bitter Lesson 啟發(fā)了大家從“人類指導(dǎo) AI” 轉(zhuǎn)向算力和數(shù)據(jù)的 scaling，而 The Second Half 告訴大家在 RL 全面到來時(shí)，我們應(yīng)該徹底重新思考問題定義和真實(shí)用例的 evaluation。

姚順雨本科畢業(yè)于清華姚班，是姚班聯(lián)席會(huì)主席，2024 年從 Princeton 博士畢業(yè)后加入 OpenAI 擔(dān)任 Research Scientist，參與了 OpenAI 的 Computer-Using Agent，Deep Research 等多個(gè)產(chǎn)品項(xiàng)目。他是 Agent 領(lǐng)域的最前沿探索者，這個(gè)領(lǐng)域不少最重要的 framework 和 benchmark 都來自他 Phd 期間的工作：ReAct、Tree of Thought、SWE_Bench。

這篇 Blog 主要內(nèi)容來自姚順雨在 CS 224N 和 Columbia 大學(xué)所做的演講，初稿由 OpenAI Deep Research 閱讀演講 Slides 后完成。

01.我們正處于AI 的半場(chǎng)時(shí)刻

數(shù)十年來，AI 的核心一直在于開發(fā)新訓(xùn)練方法和模型。這種路徑確實(shí)有效：打敗國(guó)際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過大部分人、贏得 IMO（國(guó)際數(shù)學(xué)奧林匹克）和 IOI （國(guó)際信息學(xué)奧林匹克）金牌，這些寫進(jìn) AI 歷史書里的里程碑——DeepBlue，AlphaGo，GPT-4 和 o 系列，都來自底層訓(xùn)練方法的創(chuàng)新，search，deep RL，scaling，reasoning。一切都在隨著時(shí)間持續(xù)進(jìn)步。

那么現(xiàn)在到底有什么變了？

簡(jiǎn)單來說，強(qiáng)化學(xué)習(xí)（reinforcement learning, RL）終于有效了。更確切地說，RL 終于有了泛化能力。經(jīng)過幾次彎路，也跨過了一系列重要里程碑后，我們終于找到了正確的配方（recipe），能通過語言模態(tài)和推理能力來解決廣泛的強(qiáng)化學(xué)習(xí)任務(wù)。

即便在一年前，如果你告訴大多數(shù) AI 研究者，有一種 recipe 能同時(shí)應(yīng)對(duì)軟件工程、創(chuàng)意寫作、IMO 級(jí)別的數(shù)學(xué)問題、鼠標(biāo)鍵盤操作以及長(zhǎng)篇問答——他們只會(huì)嘲笑你在幻想。這些任務(wù)每一項(xiàng)都極其艱難，許多研究者整個(gè)博士期間只專注于其中一個(gè)細(xì)分領(lǐng)域。

但今天這件事的確發(fā)生了。

接下來會(huì)發(fā)生什么？

AI 的下半場(chǎng)——從現(xiàn)在開始——會(huì)從解決問題轉(zhuǎn)向定義問題。在這個(gè)新階段，Evaluation（模型評(píng)估）會(huì)比 Training （模型訓(xùn)練）更重要。我們不再只是問，“我們能不能訓(xùn)練模型來解決 X ？” 而是開始問：“我們究竟應(yīng)該訓(xùn)練模型來做什么，如何衡量真正的進(jìn)展？”要想贏得 AI 的下半場(chǎng)，我們必須及時(shí)轉(zhuǎn)變心態(tài)和技能，也許要更像產(chǎn)品經(jīng)理。

02.什么是 AI 上半場(chǎng)

要理解 AI 上半場(chǎng)的意義，可以看看這個(gè)階段的 winners。

先來想一個(gè)問題，你認(rèn)為迄今最具影響力的 AI 論文有哪些？我在 Stanford CS 224N 的課堂現(xiàn)場(chǎng)提出了這個(gè)問題，大家的答案并不意外：Transformer、AlexNet、GPT-3 等。這些論文的共同點(diǎn)在于它們提出了訓(xùn)練更強(qiáng)模型的一些基礎(chǔ)性突破，但同時(shí)也在一些 benchmark 上展示了顯著的性能提升，從而得以發(fā)表。

CS 224N 是 Stanford 深度學(xué)習(xí)與 NLP 主題的公開課，是過去十年 AI 領(lǐng)域的很多學(xué)生和學(xué)者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。
Chris Manning 是 Stanford 語言學(xué)和計(jì)算機(jī)科學(xué)系首任 Thomas M. Siebel 機(jī)器學(xué)習(xí)教授、人工智能實(shí)驗(yàn)室（SAIL）主任和以人為本人工智能研究所（HAI）聯(lián)合創(chuàng)始人，他還是 ACM、AAAI 和 ACL 的 Fellow，并曾于 2015 年擔(dān)任 ACL 主席，是自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的先鋒人物。

這些經(jīng)典論文還有一個(gè)潛在共性：它們幾乎都是訓(xùn)練方法或模型，而不是 benchmark 或者 tasks。即便是被認(rèn)為是最有影響力的基準(zhǔn)數(shù)據(jù)集 ImageNet，它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。

比如，Transformer 使用的主要 benchmark 是 WMT’14，WMT’14 的 workshop report 引用量大約為 1300 次，而 Transformer 本身的論文引用早已突破 16 萬次。

這些對(duì)比形象地說明了 AI 上半場(chǎng)是關(guān)注于構(gòu)建新的模型和訓(xùn)練方法，evaluation 和 benchmark 則位于第二位，盡管對(duì)于學(xué)術(shù)發(fā)表體系而言，后者是十分必要的。

為什么會(huì)出現(xiàn)這種現(xiàn)象？

一個(gè)重要原因是，在 AI 上半場(chǎng)，訓(xùn)練方法比定義 tasks 更難也更令人興奮。從零開始發(fā)明一種全新的算法或模型架構(gòu)，比如反向傳播算法、卷積神經(jīng)網(wǎng)絡(luò)（AlexNet），或是 GPT-3 所用的 Transformer，都需要非凡的洞察力和工程能力。

相比之下，為 AI 定義 tasks 往往顯得更直接：我們只是把人類已經(jīng)在做的事情，比如翻譯、圖像識(shí)別或下棋，轉(zhuǎn)化為 benchmark，這個(gè)過程幾乎不需要太多洞察，甚至不需要多少工程工作。

訓(xùn)練方法往往比具體任務(wù)更通用、適用范圍更廣，因此顯得格外有價(jià)值。比如，Transformer 架構(gòu)最終推動(dòng)了 CV、NLP、RL 等多個(gè)領(lǐng)域的進(jìn)展，影響范圍遠(yuǎn)遠(yuǎn)超出最初驗(yàn)證它效果的 WMT’14 這個(gè)翻譯數(shù)據(jù)集。一個(gè)出色的新訓(xùn)練方法往往能在多個(gè) benchmark 上取得較好效果，因?yàn)樗銐蚝?jiǎn)單、通用，它的影響也因此會(huì)超越某個(gè)具體任務(wù)。

過去數(shù)十年來都是訓(xùn)練方法論的創(chuàng)新先行，催生了許多改變世界的理念和突破，并通過在各個(gè)領(lǐng)域不斷提升的 benchmark 表現(xiàn)出來。

那么，為什么今天這件事會(huì)發(fā)生改變？因?yàn)檫@些理念和突破的積累，在解決任務(wù)方面帶來了本質(zhì)改變，造就了一套真正有效的 recipe。

03.AI 的有效配方

這套 recipe 到底是什么？recipe 的關(guān)鍵成分并不讓人意外：大規(guī)模的語言 pre-training，數(shù)據(jù)和算力的 scaling，reasoning 和 acting 的理念。這幾個(gè)詞乍一聽很像今天出現(xiàn)頻率極高的 buzzwords。

為什么將這幾個(gè)詞稱為 recipe ？我們可以從 RL 的角度來看。

RL 通常被認(rèn)為是 AI 的“終極形態(tài)”，畢竟從理論上，它能夠保證在 game 中取勝，而在實(shí)踐上，幾乎所有 superhuman 水平的 AI 系統(tǒng)（比如 AlphaGo）都離不開 RL 的支撐。

game：在博弈論中，game 指的是所有在封閉環(huán)境中，有明確輸贏的博弈任務(wù)。

RL 領(lǐng)域有三個(gè)關(guān)鍵組成部分：算法（algorithm）、環(huán)境（environment）和先驗(yàn)知識(shí)（priors）。

很長(zhǎng)時(shí)間以來，RL 研究者主要關(guān)注算法，比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等，也就是 agent 如何學(xué)習(xí)的這一核心機(jī)制。

DQN：Deep Q-Network，即深度 Q 網(wǎng)絡(luò)，是深度強(qiáng)化學(xué)習(xí)的一種重要算法，使用深度神經(jīng)網(wǎng)絡(luò)來逼近Q 值函數(shù)，并通過最大化 Q 值來選擇最優(yōu)動(dòng)作，其中 Q 值計(jì)算的是 Agent 執(zhí)行某個(gè)行動(dòng)帶來的價(jià)值變化。
TD-learning：Temporal difference learning，即時(shí)序差分學(xué)習(xí)，結(jié)合了動(dòng)態(tài)規(guī)劃（Dynamic Programming）和蒙特卡羅方法（Monte Carlo）的優(yōu)點(diǎn)。
Actor-critic：即演員-評(píng)論家算法，是一種結(jié)合策略梯度和時(shí)序差分學(xué)習(xí)的強(qiáng)化學(xué)習(xí)方法，包括演員（Actor，負(fù)責(zé)行動(dòng)）和評(píng)價(jià)者（Critic，負(fù)責(zé)評(píng)價(jià)）用神經(jīng)網(wǎng)絡(luò)分工進(jìn)行博弈。
PPO：Proximal Policy Optimization，即近端策略優(yōu)化，是 OpenAI 在 2017 年提出的一種強(qiáng)化學(xué)習(xí)算法，被認(rèn)為是目前強(qiáng)化學(xué)習(xí)領(lǐng)域的 SOTA 方法，也是適用性最廣的算法之一。PPO 簡(jiǎn)化了以前的策略梯度算法，通過幾個(gè)關(guān)鍵技術(shù)提高了訓(xùn)練的穩(wěn)定性和效率。這是之前 RLHF 最常用的 RL 算法，在 reasoning model 場(chǎng)景下 Deepseek 提出的 GRPO 算法正在取代成為主流。
TRPO：Trust Region Policy Optimization，即置信域策略優(yōu)化，是一種用于強(qiáng)化學(xué)習(xí)的策略優(yōu)化算法。

相比之下，環(huán)境（environment）和先驗(yàn)知識(shí)（priors）往往被當(dāng)作既定條件，或者被盡可能簡(jiǎn)化處理。例如，Sutton 和 Barto 的經(jīng)典教材幾乎講的都是算法，對(duì)于環(huán)境和先驗(yàn)知識(shí)幾乎只字未提。

但在深度強(qiáng)化學(xué)習(xí)時(shí)代，環(huán)境在實(shí)踐中的重要性凸顯：一個(gè)算法的效果往往高度依賴于它所開發(fā)和測(cè)試的環(huán)境。如果忽視環(huán)境，可能會(huì)導(dǎo)致我們構(gòu)建的最優(yōu)算法只在過于簡(jiǎn)化的環(huán)境中有效。

那么，為什么我們不先思考清楚真正想要解決的環(huán)境，再去尋找最適合它的算法？

OpenAI 最初就是這么計(jì)劃的。

OpenAI 先是打造了 Gym，一個(gè)用于各類 game 的標(biāo)準(zhǔn) RL 環(huán)境，接著又推出了 World of Bits 和 Universe，試圖將互聯(lián)網(wǎng)或計(jì)算機(jī)變成一個(gè) game。這個(gè)設(shè)計(jì)很好，一旦我們可以將所有數(shù)字世界轉(zhuǎn)化為 environment，再用 RL 算法來解決問題，我們就能實(shí)現(xiàn)數(shù)字領(lǐng)域 AGI。

Gym：Gym 是 OpenAI 在 2016 年 4 月發(fā)布的一個(gè)用于開發(fā)和比較 RL 算法的工具包，提供了多種預(yù)定義環(huán)境，以便研究者和開發(fā)者可以在相同的 benchmarks 下測(cè)試他們的算法。
World of Bits 和 Universe：OpenAI 的 World of Bits 是基于 Universe 的訓(xùn)練平臺(tái)，也是 Universe 項(xiàng)目的前身。Universe 發(fā)布于 2016 年 12 月，是一個(gè)能在幾乎所有環(huán)境中衡量和訓(xùn)練 AI 通用智能水平的開源平臺(tái)，目標(biāo)是讓 AI Agent 能像人一樣使用計(jì)算機(jī)。

這個(gè)設(shè)計(jì)很好，但并不完全奏效。雖然 OpenAI 取得了巨大的進(jìn)展，比如利用 RL 解決了 Dota、機(jī)器人手等問題，但還沒有解決 computer use 或 web navigation ，并且，在一個(gè)領(lǐng)域表現(xiàn)出色的 RL agent 并不能遷移到另一個(gè)領(lǐng)域。某些關(guān)鍵因素仍然缺失。

直到 GPT-2 或 GPT-3 出現(xiàn)，我們才發(fā)現(xiàn)缺失的是先驗(yàn)知識(shí) （priors）。你需要進(jìn)行大規(guī)模 pre-training，將常識(shí)和語言知識(shí)提煉到模型中，然后通過微調(diào)使其成為網(wǎng)絡(luò) agent（WebGPT）或聊天 agent（ChatGPT），從而改變世界。

結(jié)果發(fā)現(xiàn)，RL 中最重要的部分可能甚至不是 RL 算法或環(huán)境，而是先驗(yàn)知識(shí)，而這些先驗(yàn)知識(shí)的獲取方式與 RL 完全無關(guān)。

語言模型的 pre-training 為對(duì)話類任務(wù)提供了良好的先驗(yàn)知識(shí)，但在控制計(jì)算機(jī)或玩電子游戲方面卻不夠理想。因?yàn)檫@些領(lǐng)域和互聯(lián)網(wǎng)的文本分布相差很大，直接在這些領(lǐng)域上做 SFT 或 RL 的泛化效果很差。

我是在 2019 年意識(shí)到的這個(gè)問題，當(dāng)時(shí) GPT-2 剛剛發(fā)布，我在它的基礎(chǔ)上做了 SFT 或 RL 來解決基于文本的 game，最終做出了 CALM。CALM 是世界上第一個(gè)基于 pre-training 語言模型構(gòu)建的 agent，但它要花費(fèi)上百萬步的 RL，才能在單一 game 中取得進(jìn)展，而且無法遷移到其他 game 上。

雖然這正是 RL 的特點(diǎn)，對(duì) RL 研究者來說并不意外，但我仍覺得很反常，因?yàn)槿祟惪梢暂p松上手一款新游戲，而且在零樣本的前提下做得比 agent 更好。

這時(shí)，我迎來了人生中第一個(gè)頓悟時(shí)刻：人類之所以能泛化，是因?yàn)槿祟惒粌H能做“去 2 號(hào)柜子”、“用 1 號(hào)鑰匙打開 3 號(hào)箱子”或“用劍殺死地牢怪物”這類操作，還能思考：“地牢很危險(xiǎn)，我需要一件武器。附近沒有武器，我需要在鎖著的柜子或箱子里找，3 號(hào)箱子在 2 號(hào)柜子里，那我應(yīng)該先去那里把柜子打開?！?

思考（thinking）或推理（reasoning）是一種很特殊的行為，它并不會(huì)直接改變外部世界，但卻擁有一個(gè)開放、無限組合的空間，我們可以想一個(gè)單詞、一句話、一段話，或者一萬個(gè)隨機(jī)英語單詞，但周圍環(huán)境不會(huì)立刻發(fā)生變化。

在經(jīng)典 RL 理論中，reasoning 是一個(gè)糟糕的存在，因?yàn)樗鼤?huì)讓決策變得不可能。比如，一個(gè)人需要從兩個(gè)盒子中選一個(gè)，其中一個(gè)裝著 100 萬美元，另一個(gè)是空的，這個(gè)時(shí)候預(yù)期收益是 50 萬美元?，F(xiàn)在如果我們往這個(gè)人面前放了無數(shù)個(gè)空盒子，那么他的預(yù)期收益就變成了 0。

但如果我們?cè)? RL 環(huán)境的動(dòng)作空間（Action Space）中加上 reasoning，我們就能利用語言模型 pre-training 中獲得的先驗(yàn)知識(shí)進(jìn)行泛化，并可以在不同的決策中靈活分配 test-time compute。

動(dòng)作空間：不同的環(huán)境允許不同種類的動(dòng)作，在給定的環(huán)境中，有效動(dòng)作的集合被稱為動(dòng)作空間（Action Space）。在離散動(dòng)作空間（Discrete Action Space），agent 的動(dòng)作數(shù)量是有限的，在連續(xù)動(dòng)作空間（Continuous Action Space），動(dòng)作是實(shí)值的向量。

這個(gè)過程很神奇，我會(huì)在未來專門寫一篇 blog 來講?？梢酝ㄟ^ ReAct 這篇論文先了解我對(duì) agent reasoning 的看法。

ReAct：ReAct 是姚順雨在 ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架，到今天還在 agent framework 中占有一席之地。

當(dāng)下，我對(duì)于這件事的解釋是：雖然一個(gè)人面前被放置了無數(shù)個(gè)空盒子，但他在此之前，他已經(jīng)在各種 game 中見過這些盒子，之前的這些選盒子的經(jīng)驗(yàn)?zāi)軒椭玫刈R(shí)別出哪個(gè)盒子更可能裝著錢。

用一句抽象的話來說：語言通過 agent reasoning 來實(shí)現(xiàn)泛化（language generalizes through reasoning in agents.）。

一旦我們擁有了正確的 RL 先驗(yàn)知識(shí)（語言 pre-training）和 environment（將語言推理作為行動(dòng)），算法可能是最微不足道的部分?，F(xiàn)在我們有了 o 系列、R1、deep research、computer-using agent，未來還會(huì)有更多的成果。多么諷刺的轉(zhuǎn)折！

長(zhǎng)期以來，RL 研究者更關(guān)心算法，遠(yuǎn)勝于關(guān)心 environment ，幾乎沒有人關(guān)注先驗(yàn)知識(shí)——所有的 RL 實(shí)驗(yàn)本質(zhì)上都是從零開始的，但我們繞了幾十年的彎路，才意識(shí)到也許我們的優(yōu)先級(jí)應(yīng)該反過來。

但正如 Steve Jobs 所說：You can’t connect the dots looking forward; you can only connect them looking backward.

04.歡迎來到 AI 下半場(chǎng)

這套 recipe 在徹底改變 AI 的游戲規(guī)則，AI 上半場(chǎng)的游戲規(guī)則是：

我們開發(fā)出新穎的訓(xùn)練方法或模型，在各種 benchmarks 上取得更好的成果。
我們創(chuàng)造出更難的 benchmarks，并繼續(xù)這個(gè)循環(huán)。

現(xiàn)在這個(gè)游戲規(guī)則正在被徹底改變，原因在于：

這套 recipe 本質(zhì)上已經(jīng)把攻克 benchmark 的過程標(biāo)準(zhǔn)化、流程化了，我們不再需要太多新的想法。并且因?yàn)檫@套 recipe 具有較好的 scaling 和泛化能力，你為某個(gè)具體任務(wù)設(shè)計(jì)的全新方法可能只能帶來 5% 的提升，而下一代的 o 系列模型即使沒有專門針對(duì)這個(gè)任務(wù)訓(xùn)練，也能帶來 30% 的提升。
即使我們?cè)O(shè)計(jì)出了更難的 benchmark，它們也往往會(huì)很快（而且越來越快）被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖，直觀地展示了這個(gè)趨勢(shì)。

那 AI 下半場(chǎng)應(yīng)該做什么？如果新的訓(xùn)練方法不再必要，更難的 benchmark 也會(huì)被越來越快地攻克，我們應(yīng)該怎么做？

我認(rèn)為我們需要從根本上重新思考“評(píng)估”（evaluation），這不僅意味著設(shè)計(jì)更新、更難的 benchmarks，而是要徹底質(zhì)疑現(xiàn)有的評(píng)估方法，創(chuàng)造新的評(píng)估方法，這樣才能迫使我們發(fā)明超越現(xiàn)有有效的 recipe 的新方法。

但這很難，因?yàn)槿祟愑袘T性，人類很少去質(zhì)疑最基礎(chǔ)的假設(shè)——你只是理所當(dāng)然地接受它們，卻沒意識(shí)到它們其實(shí)只是“假設(shè)（assumptions）”，而不是“定律（laws）”。

用一個(gè)例子來說明這種慣性，假如你基于人類考試，發(fā)明出了一種史上最成功的 AI 評(píng)估方法之一。在 2021 年這也許是一個(gè)突破性的想法，但到了 3 年后，這一方法已被很多人使用，屬于非常常規(guī)的評(píng)估方法。那么你接下來會(huì)做什么？很可能是再設(shè)計(jì)一套更難的考試。

再比如，你已經(jīng)成功解決了基礎(chǔ)的編程任務(wù)，那么你接下來會(huì)做什么？很可能是尋找更難的編程任務(wù)，直到達(dá)到 IOI 金牌的水平。

慣性是一種很自然的現(xiàn)象，但問題也正出在這里。AI 已經(jīng)在國(guó)際象棋和圍棋上戰(zhàn)勝了世界冠軍，在 SAT 和律師資格考試中超過了大多數(shù)人類，達(dá)到了 IOI 和 IMO 金牌的能力，但至少?gòu)慕?jīng)濟(jì)或 GDP 的角度看，世界并沒有發(fā)生太大變化。

我將這個(gè)稱之為“效用問題（utility problem）”，我認(rèn)為這是當(dāng)下 AI 領(lǐng)域最重要的問題。

也許我們很快就能解決“效用問題”，也許還不能。但無論結(jié)果如何，這個(gè)問題背后的根源可能非常簡(jiǎn)單：我們的評(píng)估方法在很多基本假設(shè)上與現(xiàn)實(shí)世界的設(shè)定不同。

舉兩個(gè)假設(shè)為例：

假設(shè) 1：評(píng)估應(yīng)該是自動(dòng)運(yùn)行

通常一個(gè) agent 會(huì)收到一個(gè)任務(wù)輸入，自動(dòng)完成任務(wù)，最后得到一個(gè)任務(wù)獎(jiǎng)勵(lì)。但現(xiàn)實(shí)中，agent 往往需要在整個(gè)任務(wù)過程中持續(xù)與人類互動(dòng)，比如你不會(huì)給客服發(fā)一條長(zhǎng)信息，然后等十分鐘，期待對(duì)方給出一條詳細(xì)答復(fù)來解決所有問題。當(dāng)我們質(zhì)疑這種評(píng)估假設(shè)時(shí)，就催生出了新的 benchmarks，要么將真實(shí)人類引入交互環(huán)節(jié)（例如 Chatbot Arena），要么引入用戶模擬（例如 tau-bench）。

假設(shè) 2：被評(píng)估的任務(wù)應(yīng)該是獨(dú)立同分布（i.i.d.）的

如果你有一個(gè)包含 500 個(gè)任務(wù)的測(cè)試集，評(píng)估的時(shí)候，你會(huì)將每個(gè)任務(wù)獨(dú)立運(yùn)行，最后對(duì)結(jié)果取平均，得出整體評(píng)分。

但現(xiàn)實(shí)中，任務(wù)往往是順序進(jìn)行的，而不是并行的。一位 Google 的軟件工程師在逐步熟悉 google3 倉(cāng)庫(kù)后，會(huì)越來越高效地解決問題，但一個(gè)軟件工程 agent 在同一個(gè)倉(cāng)庫(kù)中解決多個(gè)問題，卻無法獲得這種熟悉度。我們顯然需要 long-term memory 的方法（事實(shí)上已經(jīng)有一些相關(guān)嘗試），但學(xué)術(shù)界缺乏能合理體現(xiàn)這種需求的正確 benchmarks，甚至缺乏質(zhì)疑 i.i.d. 這個(gè)被視為機(jī)器學(xué)習(xí)基礎(chǔ)假設(shè)的勇氣。

獨(dú)立同分布：Independent and identically distributed，即 i.i.d.，是機(jī)器學(xué)習(xí)中一個(gè)重要的假設(shè)，它表明訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)遵循相同的概率分布。這個(gè)假設(shè)確保了在訓(xùn)練集上訓(xùn)練的模型能夠有效地在測(cè)試集上進(jìn)行泛化，從而在未知數(shù)據(jù)上保持良好性能。

這些假設(shè)一直以來就是默認(rèn)存在的。在 AI 上半場(chǎng)，基于這些假設(shè)來設(shè)計(jì) benchmarks 是合理的，因?yàn)樵谥悄芩捷^低時(shí)，提高智能通常就能提升效用?，F(xiàn)在在這些假設(shè)下，那套通用 recipe 已幾乎被保證奏效。那么 AI 下半場(chǎng)這個(gè)新游戲的玩法會(huì)是：

我們需要開發(fā)面向現(xiàn)實(shí)世界效用的全新評(píng)估設(shè)定或 task；
我們需要用 recipe 來攻克這些評(píng)估設(shè)定或 task，或用新組件來增強(qiáng) recipe，然后重復(fù)這個(gè)循環(huán)。

這個(gè)游戲很難，因?yàn)樗錆M了未知，但也格外令人興奮。AI 上半場(chǎng)的玩家專注于攻克電子游戲和標(biāo)準(zhǔn)化考試，AI 下半場(chǎng)的玩家則通過把智能轉(zhuǎn)化為有用的產(chǎn)品，打造出數(shù)十億甚至萬億美元的公司。

上半場(chǎng)充斥著各種不斷迭代的訓(xùn)練方法和模型，而下半場(chǎng)在某種程度上對(duì)它們進(jìn)行了篩選。通用 recipe 會(huì)輕松碾壓你的漸進(jìn)式改進(jìn)，你創(chuàng)造出能打破這套 recipe 的新假設(shè)。那時(shí)，你就能做出真正改變游戲規(guī)則的研究。

歡迎來到 AI 下半場(chǎng)！

作者：姚順雨，OpenAI researcher

編譯：海外獨(dú)角獸

本文由人人都是產(chǎn)品經(jīng)理作者【海外獨(dú)角獸】，微信公眾號(hào)：【海外獨(dú)角獸】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App