AI正式進入推理時代,意味著什么?

1 評論 1340 瀏覽 0 收藏 18 分鐘
🔗 技术知识、行业知识、业务知识等,都是B端产品经理需要了解和掌握的领域相关的知识,有助于进行产品方案设计和评估

本文介紹了AI從預訓練向推理能力轉變的趨勢,探討了這一變化對AI市場、軟件公司和投資領域的影響,并展望了AI代理應用的未來發(fā)展?jié)摿Α?/p>

今年9月,OpenAI發(fā)了一個新模型——OpenAI o1模型。

這意味著,AI的發(fā)展方向發(fā)生了重大變化,即從預訓練所帶來的“快速思考”,向基于強化學習的“慢速思考”發(fā)展。這一演變將解鎖更多新的AI代理應用。

如何理解這個變化,成為所有AI行業(yè)從業(yè)者共同關心的話題。不久前,紅杉資本發(fā)布了一篇文章,詳細闡述了對AI轉向推理層開發(fā)的看法以及未來趨勢展望。

在這篇文章中,紅杉資本分享了其對以下問題的思考:

模型強化推理能力,對AI市場的創(chuàng)始人意味著什么?對現(xiàn)有的軟件公司有多大的影響?作為投資者,AI行業(yè)的哪些領域是最值得投資的?

01?讓AI真正學會推理

2024年最重要的模型更新屬于OpenAI的o1,以前稱為Q*,也稱為Strawberry。這是第一個具備真正通用推理能力的大模型,而實現(xiàn)這一點靠的是推理時間計算。(推理時間計算是指在人工智能和機器學習中,通過增加額外的計算時間來優(yōu)化模型在解決特定問題時的表現(xiàn)。)

以前,預訓練模型是通過對大量數(shù)據的學習,進而實現(xiàn)后續(xù)內容的預測。這背后依賴于大量的模型訓練時間,但這種推理能力很有限。

現(xiàn)在,通過推理時間計算,模型會在給你答復之前停下來思考,這需要在推理時進行更多的計算?!巴O聛硭伎肌钡牟糠志褪峭评?。?

02?AlphaGo和大模型

當模型停下思考時,它在做什么呢?

要回答這個問題,我們先來回顧一下2016年3月在首爾舉行的活動。

AlphaGo與傳奇圍棋大師李世石下棋,是深度學習歷史上最具開創(chuàng)性的時刻之一。這不僅僅是一場人AI與人類的比賽——這讓世界看到AI不僅會模仿,還會思考。

與大模型一樣,AlphaGo也經過了大量的預訓練,可以模仿人類專家,其數(shù)據庫包含來自之前游戲的大約3000萬步以及更多的自我對弈。但AlphaGo不會提供來自預訓練模型的下意識反應,而是會花時間停下來思考。

在推理時,模型會在各種潛在的未來情景中運行搜索或模擬,對這些情景進行評分,然后以具有最高預期值的情景(或答案)進行響應。AlphaGo的時間越長,其表現(xiàn)就越好。在零推理時間計算的情況下,模型無法擊敗最優(yōu)秀的人類玩家。

但隨著推理時間的延長,AlphaGo會越來越好,直到超越最優(yōu)秀的人類玩家?;氐酱竽P?,復制AlphaGo的難點在于,構建價值函數(shù)或者說對答案進行評分的函數(shù)。

如果你是在下圍棋,這事就更簡單了,看誰贏就行了。(編程也同理)但是你應該怎么給一篇文章打分呢?這就是當前方法很難進行推理的原因。這也是為什么Strawberry在接近邏輯的領域(例如編碼、數(shù)學、科學)相對較強,而在更開放和非結構化的領域(例如寫作)不那么強大的原因。

?Strawberry的關鍵思想是,圍繞模型生成的思維鏈進行強化學習。這很接近于人類的思考和推理方式。例如,o1展示了在卡住時回溯的能力,這是擴展推理時間的突發(fā)屬性。它還展示了以人類的方式思考問題的能力(例如,將球體上的點可視化以解決幾何問題)和以新的方式思考問題的能力(例如,以人類不會的方式解決編程競賽中的問題)。

研究團隊正在努力提高模型的推理能力,他們正在研究許多新想法來推動推理時間計算(例如計算獎勵函數(shù)的新方法、縮小生成器/驗證器差距的新方法)。換句話說,深度強化學習又流行起來了,它正在實現(xiàn)一個全新的推理層。

03?系統(tǒng)1與系統(tǒng)2有何不同?

從預訓練的本能反應(“系統(tǒng)1”)到更深層次、深思熟慮的推理(“系統(tǒng)2”)的飛躍是人工智能的下一個前沿。模型僅僅了解事物是不夠的——它們還需要具備實時暫停、評估和推理決策的能力。

我們將預訓練看作系統(tǒng)1。無論模型是針對圍棋的數(shù)百萬步(AlphaGo)還是大模型進行預訓練,其工作原理都是模仿。但模仿雖然很強大,但并不是真正的推理。因為它無法正確思考復雜的新情況,尤其是樣本之外的情況。這恰恰就是系統(tǒng)2的優(yōu)勢所在,也是最新一波AI研究的重點。

對于許多任務來說,系統(tǒng)1已經足夠了。比如,不丹的首都在哪,想是想不出來的,要么知道,要么不知道??焖佟⒒谀J降幕貞洠陬愃频娜蝿丈暇秃芄苡?。

但當我們研究更復雜的問題時——比如數(shù)學或生物學上的突破——快速、本能的反應并不奏效。這些進步需要AI花更多時間進行更深入的思考,并具備創(chuàng)造性解決問題的能力。

04?新的擴展定律:推理競賽已拉開帷幕

o1論文中最重要的一個觀點是,誕生了一條新的擴展定律。

預訓練LLM遵循一個易于理解的擴展定律:在預訓練模型上花費的計算和數(shù)據越多,模型性能就越好。o1論文則為擴展計算帶來了另一種可能:即給模型推理時間的越長,其推理效果就越好。

如果模型能夠思考數(shù)小時、數(shù)天或數(shù)十年,會發(fā)生什么?我們會解決黎曼猜想嗎?我們會回答阿西莫夫的最后一個問題嗎?

這種轉變將使我們從大規(guī)模預訓練集群的世界走向推理云——可以根據任務的復雜性動態(tài)擴展計算的環(huán)境。

05?被證偽的兩個預測

當OpenAI、Anthropic、Google和Meta擴展其推理層,并開發(fā)出越來越強大的推理機器時會發(fā)生什么?我們會有一個模型來統(tǒng)治它們嗎?

生成式AI市場剛起步時,人們曾假設,一家單一的模型公司將變得無所不能,甚至還會吃掉AI應用產品的機會。但現(xiàn)在,這兩個預測都是錯誤的。

首先,模型層競爭激烈,SOTA(最好技術或者模型)能力不斷超越。有公司通過廣泛領域的自我博弈找到持續(xù)自我改進的方法并取得突破,但目前我們還沒有看到這方面的證據。但我們能夠清楚看到模型競爭有多激烈?自上一個開發(fā)日以來,GPT-4的token價格已下跌98%。

其次,除了ChatGPT外,大部分模型很難在應用層面形成比較大的突破。

06?混亂的現(xiàn)實世界:定制認知架構

科學家計劃和采取行動實現(xiàn)目標的方式,與軟件工程師的工作方式截然不同,甚至不同公司的軟件工程師情況也有所不同。

隨著AI研究不斷提升模型推理能力上限,我們仍然需要具體的應用落地。但通用模型很難實現(xiàn)在特定領域的具體落地。

輸入認知架構,或者您的系統(tǒng)如何思考:接受用戶輸入并執(zhí)行操作或生成響應的代碼流和模型交互。

例如,在Factory的案例中,他們的每個“機器人”產品都具有自定義認知架構,可以模仿人類解決特定任務的思維方式,例如審查拉取請求或編寫和執(zhí)行遷移計劃以將服務從一個后端更新到另一個后端。

Factory機器人將分解所有依賴關系,提出相關的代碼更改,添加單元測試并拉取人類進行審查。然后在批準后,在開發(fā)環(huán)境中對所有文件運行更改,如果所有測試都通過,則合并代碼。就像人類可能會做的那樣——在一組離散任務中,而不是一個通用的黑盒答案中。

07?應用層,或許是創(chuàng)業(yè)者的最佳選擇

目前,基礎模型固然厲害,但也有不少缺陷。比如,大模型無法處理黑匣子、幻覺等問題。或者,消費者面對大模型不知道問什么?這些都會是應用層的機會。

兩年前,許多AI應用公司被嘲笑為“只是GPT-3上的包裝器”。如今,這些包裝器被證明是構建持久價值的唯一可靠方法之一。最初的“包裝器”已經演變成“認知架構”。

應用層AI公司價值不僅僅是基礎模型之上的UI。更重要的是,它們擁有復雜的認知架構,包括多個基礎模型,頂部有某種路由機制、用于RAG的矢量和/或圖形數(shù)據庫、確保合規(guī)性的護欄,以及模仿人類思考工作流程推理方式的應用程序邏輯。

08?服務即軟件

云計算的本質是,軟件即服務。這讓軟件產業(yè)變成了一個價值3500億美元的機會。

到了AI時代,類似的機會同樣出現(xiàn)。人工智能轉型本質是服務即軟件,即AI公司用AI應用替代勞動力。這意味著,AI應用可能面臨著價值數(shù)萬億美元的服務市場。

勞動力替代意味著什么?Sierra就是一個很好的例子。B2C公司將Sierra(AI客服公司)放在他們的網站上與客戶交談。用AI代理來解決客戶所提出的問題,每完成一次服務獲得相應的報酬。這與傳統(tǒng)軟件按“席位”付費的模式有很大區(qū)別。

這是許多AI公司所追求的目標。但不是所有公司都這么幸運,現(xiàn)在出現(xiàn)的另一個新興模式是,先部署為副駕駛(人機交互),然后再迭代成完全自動化。GitHub Copilot就是一個很好的例子。?

09?新一代代理應用

隨著生成式人工智能的推理能力不斷增強,一類新的代理應用程序開始涌現(xiàn)。這些應用層公司是什么樣子的?至少從目前看,這些公司看起來與云計算公司有很多不同:

  • 云計算公司瞄準的是軟件利潤池,人工智能公司瞄準的是服務利潤池。?
  • 云計算公司出售軟件($/席位)。人工智能公司出售工作($/成果)
  • 云計算公司喜歡自下而上,采用無摩擦分銷模式。而人工智能公司則越來越多地采用自上而下,采用高接觸、高信任的交付模式。

我們看到,這些新型代理應用正在知識經濟的各個領域涌現(xiàn)。以下是一些示例。

Harvey: AI律師
Glean: AI工作助理
Factory:AI軟件工程師
Abridge:AI醫(yī)療文書記錄員
XBOW: AI測試員
Sierra:AI客服

通過降低提供這些服務的邊際成本,這些代理應用程序正在擴展并創(chuàng)造新的市場。

以XBOW為例,XBOW正在構建AI“滲透測試員”。滲透測試是對計算機系統(tǒng)進行的模擬網絡攻擊,公司通過執(zhí)行此測試來評估自己的安全系統(tǒng)。

在生成式AI出現(xiàn)之前,由于人工測試的成本很高,所以公司在個別情況下才能聘請滲透測試員。然而,XBOW現(xiàn)在正在展示基于最新推理LLM構建的自動化滲透測試,效果可以與最熟練的人工滲透測試員相媲美。這擴大了滲透測試市場,并為各種規(guī)模的公司提供了持續(xù)滲透測試的可能性。

10?這對SaaS世界意味著什么?

現(xiàn)在很多人都關心一個問題:人工智能轉型是否會摧毀SaaS公司嗎?

之前由于AI能力絕大部分都來自模型,我們會覺得老牌SaaS公司受益于數(shù)據和分銷方面的優(yōu)勢,會最終受益。初創(chuàng)公司的主要機會不是取代老牌軟件公司——而是追逐可自動化的市場機會。

但現(xiàn)在,我們不再這么確定了,因為將模型能力轉化成端到端業(yè)務解決方案需要大量的工程設計。那么,AI企業(yè)會不會最終取代軟件?我們可以從Day.ai的案例上看出一些端倪。

Day是一款人工智能原生CRM。此前,系統(tǒng)集成商通過配置Salesforce來滿足客戶的需求,賺取了數(shù)十億美元。現(xiàn)在,Day只需訪問您的電子郵件和日歷,并回答一頁問卷,即可自動生成完全適合客戶業(yè)務的CRM。單靠這一點,Day就已經吸引了很多的客戶。

11?投資人應該投什么?

作為投資者,我們應該如何投資AI產業(yè)呢?以下是我們的簡要分析。

基礎設施:這已經是巨頭的戰(zhàn)場,更多是戰(zhàn)略博弈的選擇而非經濟利益驅動,對于VC來說,這不是一個好的選擇。

模型:這是巨頭和金融投資者的領域。巨頭正在用資產負債表換取損益表,投資的資金將以計算收入的形式回流到他們的云業(yè)務中。金融投資者則熱衷于討論AI的宏大敘述。雖然這些模型很厲害,團隊也很強,但很難用微觀經濟學去理解。

開發(fā)工具和基礎設施軟件:對戰(zhàn)略投資者價值很小,更適合VC參與。在云轉型的時候,這個領域跑出了15家收入超過10億美元的公司,AI領域也會如此。

應用程序:這是最適合VC參與的領域。在云計算轉型期間,大約有20家應用層公司成立,收入超過10億美元。在移動互聯(lián)網時候,又有大約20家公司成立。AI時代大致也會如此。

12?結束語

在生成式人工智能的下一階段,我們預計推理研發(fā)會逐漸影響到應用層,預計AI代理會變得更加強大和復雜。

回到研發(fā)層面,推理和推理時間計算在可見的未來里仍然是一個很重要的驅動因素。這是下一場AI競賽的主題。但在特定領域,收集現(xiàn)實世界數(shù)據建立認知仍然很困難。因此,能夠完成AI落地最后一公里的公司將有巨大的價值。

展望未來,多智能體系統(tǒng)(如Factory的機器人)可能會迎來更大的發(fā)展。當我們模擬了感知、推理和行動的過程,AI可以用這種方式進行更多的探索,也許這就是通過AGI的正確道路。

文:林白
本文由人人都是產品經理作者【汪仔2763】,微信公眾號:【烏鴉智能說】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. AI推理時代的到來真是太激動人心了,這種從“快速思考”向“慢速思考”的轉變,感覺就像是給AI開了新的智慧之門,未來AI的應用潛力無限??!

    來自北京 回復
专题
32209人已学习21篇文章
产品经理每月必须做的事情,10个用户调查,关注100个用户博客,收集1000个用户的反馈。
专题
14740人已学习12篇文章
在协同办公场景越来越丰富的背景下,协同办公产品起到了关键性的作用。本专题的文章分享了协同办公产品的设计思路。
专题
13397人已学习12篇文章
随着互联网的不断发展,如今获客渠道及方式也有很多。本专题的文章分享了获客渠道及方法。
专题
16265人已学习16篇文章
企业服务(2B)公司的创业有8个阶段,所有SaaS公司或2B公司不可能跳过这些阶段,每个阶段都有明确的任务。本专题的文章分享了SaaS创业路线图。
专题
18945人已学习13篇文章
本专题的文章分享了社区运营的正确姿势。
专题
14764人已学习13篇文章
本专题的文章分享了小红书营销指南。