av网网站免费观看,久久久综合亚洲色一区二区

搜索

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標識

發(fā)布

注冊 | 登錄

2024 大模型年度五問：等不來GPT 5怎么過？

AI鯨選社

2025-01-02

0 評論 1822 瀏覽 3 收藏

22 分鐘

這一年，AI領(lǐng)域經(jīng)歷了翻天覆地的變化，從大模型的分化發(fā)展到視頻生成技術(shù)的突破，再到AI編程和智能助手的興起，每一項進步都在推動著我們向更智能的未來邁進。在這篇文章中，我們將回顧2024年AI行業(yè)的五大核心問題，這些問題不僅定義了今年的技術(shù)趨勢，也為2025年的發(fā)展方向提供了線索。

2024這一年中，我們見證了AI行業(yè)諸多令人興奮，卻又有些坎坷的進步。

從跳票一年終亮相的Sora，到o3掀開推理側(cè)大發(fā)展的序幕，以及DeepSeek V3帶來的驚喜與爭議，這一切的繁榮，似乎讓人覺得AGI似乎就在不遠的前方。

然而，另一方面，大模型商業(yè)化、落地的困境，卻仍舊沒有得到解決，眾人期待中的SuperApp，也還是沒有出現(xiàn)。

與此同時，近乎耗盡的訓(xùn)練數(shù)據(jù)，以及Scaling Law 即將“撞墻”的傳聞，也不由讓人對AI的遠大前景產(chǎn)生了一絲隱憂。

今天，在2024行將結(jié)束之際，就讓我們一一盤點今年AI行業(yè)的幾大主要進展及趨勢，并通過5個核心問題，探尋2025年大模型走向何方？

一、要不要做預(yù)訓(xùn)練，Scaling Law是否還有效？

當(dāng)有人質(zhì)疑本次的AI革命，是否會重蹈前兩次革命失敗的覆轍時，Scaling Law總能讓人拾起信心。

因為它讓當(dāng)前的AI，找到了一種基于“數(shù)據(jù)-規(guī)模-能力”的正向循環(huán)系統(tǒng)。這也是AI實現(xiàn)持續(xù)進化的根本所在。

然而，這個讓奇跡不斷涌現(xiàn)的“黃金定律”，今年似乎不再那么靈了。

今年11月，The Information的一份獨家爆料聲稱，GPT系列模型改進緩慢，下一代旗艦?zāi)Ｐ蚈rion并不像前代實現(xiàn)巨大的飛躍。

這篇文章直擊OpenAI痛點，提出Scaling Law逐漸放緩，原因之一是高質(zhì)量文本數(shù)據(jù)越來越少。

此文一出，AI圈立刻炸了鍋，眾人對LLM能否通向AGI的質(zhì)疑聲此起彼伏。

然而，沒過多久，OpenAI研究員Adam稱，Scaling剛剛找到了另一套「齒輪」！o1系列模型scaling的兩個重要維度——訓(xùn)練時間和測試（推理）時間。

一時間，Scaling的定義似乎悄然發(fā)生了改變，在這個新的維度，模型性能不再僅僅受限于預(yù)訓(xùn)練階段，現(xiàn)在可以通過增加推理計算資源來提升模型表現(xiàn)。

于是，以o1為代表的，一批試著以“深度推理”改變Scaling范式的大模型紛紛涌現(xiàn)了出來。

例如，DeepSeek （深度求索）推出了 R1-Lite ；Kimi（月之暗面）推出了主打數(shù)學(xué)能力的推理能力強化模型 k0-math；阿里先后推出 Marco-o1、QwQ 兩款推理模型；昆侖萬維推出了 Skywork o1 。

在具備深度推理能力后，大模型的自我反思、學(xué)習(xí)能力提升明顯。

在OpenAI和智譜給出的“通往AGI五階段”的定義中，二者均將多模態(tài)和大語言模型能力歸在L1階段，也就是最為基礎(chǔ)的能力配備。而o1的出現(xiàn)，則標志著大模型能力突破到了L2階段。

國產(chǎn)選手里，確實有不少深度推理類大模型，在推理鏈上做了不少功夫，例如R1-Lite這類大模型，在處理復(fù)雜問題時，思路展示得特別詳細清晰。

差距最明顯的地方，說白了就是”深度”和”連貫性”。

拿數(shù)學(xué)題來說，DeepSeek-R1-Lite、K0-math這類模型，面對長鏈路推理時，模型思維鏈有時會失敗，會承認超出能力范圍，但也會陷入死循環(huán)狀態(tài)。相較之下，o1卻能一口氣推導(dǎo)出8-10個步驟，而且每步都嚴絲合縫。

12天春晚發(fā)布的o3，進化幅度更是夸張。從 0% 到o1的 5%，整整花了五年的時間；從o1的 5% 到o3的 87.5%，只花了半年。

GPT 5遲遲不能出現(xiàn)的情況下，大模型在推理側(cè)瘋狂生長。

二、Sora不如預(yù)期，現(xiàn)實還能存在多久？

如果要為2024年的大模型，找一個最耀眼的類別，那這樣的桂冠，或許非視頻生成類大模型莫屬。

在2024年2月初，OpenAI推出的文生視頻模型Sora，以驚艷的表現(xiàn)震撼了全球科技圈。憑借通過文字生成高清、流暢視頻的能力，AI讓人們看到了“一鍵生成萬千世界”的可能。

當(dāng)時業(yè)內(nèi)甚至有人認為，其對現(xiàn)實物理規(guī)律的模擬能力，是打造“世界模型”，并讓人類最終通往AGI的途徑之一。

“Sora類”模型突破的背后，則是DiT（Diffusion Transformer）架構(gòu)的創(chuàng)新。

DiT架構(gòu)賦予Sora等視頻生成模型前所未有的時間—空間建模能力，通過將擴散模型的去噪機制與Transformer的動態(tài)特性結(jié)合，提升了視頻生成的連貫性和靈活性，使其能夠高效生成長時序、高分辨率且視覺一致的視頻內(nèi)容。

從字節(jié)跳動的“即夢”到快手的“可靈”，再到智譜的“清影”，以及后來MinMax的海螺AI，都代表了國產(chǎn)文生視頻技術(shù)在這一年迅速發(fā)展。

在眾人對Sora望眼欲穿的日子里，可靈憑借2分鐘、1080P、每秒30幀的高規(guī)格視頻生成能力，滿足了人們對文生視頻AI最大的渴望。

然而，興奮之余，務(wù)實的人們卻發(fā)現(xiàn)，大模型商業(yè)化的困境，卻沒有隨著文生視頻類AI的“奇跡”迎刃而解。

雖然在2024年，《山海奇鏡》等AI短劇的出現(xiàn)，似乎為這一賽道增添了幾分光彩。

然而，這種由少數(shù)專業(yè)團隊支撐起來的“奇觀”，影響仍局限在業(yè)內(nèi)的小范圍。

高昂的生成成本、不穩(wěn)定的輸出質(zhì)量，以及有限的應(yīng)用場景，共同構(gòu)成了阻礙文生視頻AI大規(guī)模商業(yè)化的重重屏障。

據(jù)業(yè)內(nèi)調(diào)研顯示，目前5秒左右的高質(zhì)量AI視頻生成成本約為1-3元，但由于AI生成的不穩(wěn)定性，創(chuàng)作者往需要反復(fù)生成，才能得到滿意的結(jié)果。例如《白骨精前傳》的AI短劇作者Danny，就花了五六千塊。

這一成本，仍然令普通的C端用戶望而卻步。

同時，一種AI版的“恐怖谷”效應(yīng)，也成了除了直接的技術(shù)外，阻礙AI視頻被大眾接受的“工藝”問題。

好在2024年，尚顯稚嫩的視頻AI，仍在蹣跚學(xué)步，但12月份Sora的正式發(fā)布，以及可靈1.6和Google Veo 2給這一片惆悵的灰色中，增加了一抹新的色彩。

在12月的“12 Days of OpenAI”活動期間，OpenAI終于宣布推出“鴿”了10個月之久的Sora模型，相比于早期版本，Sora Turbo的生成效率大幅提升。

Sora在模型端的表現(xiàn)并不令人驚喜，甚至比國產(chǎn)的沒有表現(xiàn)更好。但其對視頻的可編輯性，對Sora類工具走向?qū)嶋H應(yīng)用的產(chǎn)品化，邁出了重要一步。這樣的收尾，總算是給不太圓滿的視頻AI，在年末畫上了一個振奮人心的句號。

三、AI coding興起，程序員會失業(yè)嗎？

回望2024年AI編程領(lǐng)域的變化，一個最矚目的問題是：AI真的會取代程序員嗎？

2024年，隨著 AI編程領(lǐng)域開始從Copilot向Agent轉(zhuǎn)型，對專業(yè)開發(fā)者而言，AI將逐步承擔(dān)代碼測試、審查和遷移等重復(fù)性工作，提高開發(fā)效率。

而在眾多涌現(xiàn)的AI編程工具中，Cursor則像一匹黑馬，憑借AI驅(qū)動的智能代碼助手和用戶友好的工具界面迅速躥紅，甚至引發(fā)了行業(yè)內(nèi)對AI代理未來可能性的討論。

這個4名本科生打造的編程“神器”Cursor，年化收入已經(jīng)達到了6500萬美元。

要說Cursor為什么這么火，其實答案很簡單：它抓住了開發(fā)者真正需要的東西，同時又做得特別聰明、特別到位。

和傳統(tǒng)的代碼編輯器比起來，它直接就把AI變成了開發(fā)過程的核心助手。你不用再花時間到處找插件、改配置，從代碼補全到自動生成邏輯，全都內(nèi)置搞定。

同樣地，OpenAI的Canvas也是今年的重頭戲之一。Canvas基于GPT-4o，為用戶提供了一個專門的協(xié)作平臺。其最大的亮點是透明化了代碼修改的過程，程序員不僅能看到改動的細節(jié)，還能通過自然語言指令快速優(yōu)化代碼結(jié)構(gòu)。

而谷歌的Jules則瞄準了更深層次的編程應(yīng)用。這款工具不僅結(jié)合了Google的Gemini 2.0模型和深度代碼分析能力，自動生成解決方案，甚至可以與GitHub等平臺無縫集成，完成從需求分析到代碼實現(xiàn)的全流程。

要說今年的AI編程，為何取得了如此大的進展，那恐怕要歸功于ReAct(Reasoning and Acting)框架的突破。

這是讓AI編程助手實現(xiàn)從”輔助”到”自主”轉(zhuǎn)變的關(guān)鍵技術(shù)。它通過將推理(Reasoning)和行動(Acting)緊密結(jié)合，建立了一套”思考-行動-反饋”的循環(huán)機制，讓AI首次具備了真正的問題解決能力，而不是簡單的模式匹配和代碼生成。

在這樣的突破下，有人調(diào)侃，有了AI，將來寫代碼就像聊天一樣簡單，用自然語言說出需求，AI就能給你一套解決方案。AI似乎正在把軟件開發(fā)這個高大上的領(lǐng)域，變得像做PPT一樣簡單。

這樣的進步，讓人產(chǎn)生了一種“將來程序員都要失業(yè)了”的錯覺，確實，AI現(xiàn)在幫我們搞定了很多從前費時費力的活兒，但在專業(yè)的業(yè)內(nèi)大佬看來，AI Coding 雖然功能強大，但偶爾生成的邏輯會讓人覺得“AI還在學(xué)走路”。

就連谷歌CEO劈柴也承認：”所有AI代碼都必須經(jīng)過工程師的“人工”審核和驗收”。盡管如此，今年的AI Coding，確實打開了想象的空間，讓軟件開放從“純?nèi)四X的作品”開始逐漸變成“人與機器協(xié)作的產(chǎn)物”。

四、真Siri來臨，能開啟智能硬件第二春？

2024年的語音AI發(fā)展，用一種革命性的方式，重新定義了人機交互范式。

回想《Her》里那個溫暖有感情的虛擬助手Samantha，不少人曾以為這是遙不可及的幻想。

但今年，OpenAI的GPT-4o、科大訊飛的星火模型、字節(jié)跳動的豆包，還有智譜清言等，都在用各自的技術(shù)證明，這種科幻的想象，現(xiàn)在真的照進了現(xiàn)實。

與傳統(tǒng)的TTS（文本到語音轉(zhuǎn)換）技術(shù)相比，像GPT-4o這樣的新一代端到端語音大模型的最大亮點，就在于它能“懂場合”、“通人性”。

簡單來說，傳統(tǒng)的TTS技術(shù)多半是以靜態(tài)規(guī)則為主，比如為特定句子設(shè)計語調(diào)模板，但GPT-4o這樣端到端語音模型，不僅能通話中實時做到感知上下文，且能靈活選擇聲音的節(jié)奏、語氣，甚至能被打斷和停頓。

有了這種更“人性”的特點后，各個AI企業(yè)各顯高招，從總體上看，實時語音AI的賽道，在2024年，大致呈現(xiàn)出了“多語言”、“個性化”的特點。

例如科大訊飛的星火大模型4.0 Turbo，不僅支持74種語言和方言，還引入了“超擬人”特性，通過個性化定制功能，讓用戶可以和AI助手形成更貼近現(xiàn)實的交流方式。

雖然在2024年，語音AI已經(jīng)讓人覺得“科幻照進現(xiàn)實”，但這個“現(xiàn)實”還有點“昂貴”。

從行業(yè)角度看，這波實時語音AI的競爭，比拼的其實是”算力經(jīng)濟學(xué)”。

為了應(yīng)對實時語音的高昂成本，聰明的公司開始搞”算力分層”。簡單對話用輕量級模型，復(fù)雜問題才上重型火力。

這也是為什么，在視頻通話這種場景下，如果涉及到多模態(tài)交互，尤其是需要結(jié)合視覺線索或復(fù)雜上下文理解的時候（例如長文章或代碼），語音AI的表現(xiàn)也常常不如文本模式下的大語言模型——回復(fù)的深度和質(zhì)量會明顯遜色。

總體來說，當(dāng)前的語音AI，雖然給了行業(yè)驚鴻一瞥的驚喜，但要真正成為一個得力的智能助手，它需要的不只是更流利的語音，而是多項功能的整合。

五、AI Agent，噱頭還是即將落地？

2024年的AI Agent，不再僅僅是大模型的附屬品，而是開始以獨立角色，重新定義智能交互的邊界。

像智譜的AutoGLM、Anthropic的Claude Computer Use，榮耀的手機AI助手，以及谷歌剛剛在年末發(fā)布的瀏覽器Agent助手Project Mariner等，正在逐漸將科幻里的“萬能助手”變成現(xiàn)實。

從總體上看，今年的AI Agent，大致呈現(xiàn)出了兩個方面的特征：

一是跨APP的Agent能力更強

以前一直有句話叫App墻，不同APP直接難以逾越。

現(xiàn)在這種“執(zhí)行層”的變革，讓AI擺脫了傳統(tǒng)APP間的界限，使未來一種統(tǒng)領(lǐng)“千百APP”的超級應(yīng)用成為了可能；

以谷歌的Project Mariner為例，這款瀏覽器Agent可以理解和操作網(wǎng)頁上的所有元素，包括文本、代碼、圖片和表單。它不只是單純?yōu)g覽，而是能夠完成從信息搜索到購買、表單填寫等一系列操作。

而Anthropic的Claude Computer Use，則專注于電腦端操作，能用鼠標和鍵盤模擬用戶行為，完成文件編輯和多程序協(xié)作。二者都展示了Agent在處理復(fù)雜的多模態(tài)任務(wù)時，進行多種工具調(diào)用的適配能力。

二就是CUI時代漸漸來臨

一句話點200杯咖啡，一句話發(fā)2萬的紅包。

像智譜的AutoGLM，以及榮耀的手機AI助手，可以通過簡單的語音指令完成手機端和跨APP的復(fù)雜任務(wù)，比如訂咖啡、對比航班價格甚至建群發(fā)紅包。

如今，正從GUI（圖形用戶界面）向CUI（對話式用戶界面）時代轉(zhuǎn)變。

蘋果在對GUI的巨大貢獻，引發(fā)了一場交互革命，如今AI公司正在引發(fā)新的交互顛覆性創(chuàng)新。

此外，2024年的AI Agent技術(shù)，帶來的另一個驚喜，是AI在游戲行業(yè)的突破。

尤其是網(wǎng)易伏羲在《永劫無間》手游和騰訊的《暗區(qū)突圍》的AI隊友，在結(jié)合了多模態(tài)技術(shù)后，已經(jīng)不僅僅是傳統(tǒng)意義上的“NPC”，而是一個能聽懂語音指令、實時調(diào)整策略、甚至和玩家情感互動的“智能隊友”。

這些突破性的應(yīng)用，讓AI不再只是游戲中的“工具”，而是玩家的真正伙伴。

從趨勢來看，AI Agent正在向多模態(tài)能力和更深層次的智能化發(fā)展。

結(jié)合視覺、語音、文本等多模態(tài)信息，它們能夠更全面地理解用戶需求，并從一個“對話工具”成長為“得力助手”，逐漸正帶領(lǐng)我們進入一個更加無縫和高效的智能時代。六、結(jié)語

在這個充滿變數(shù)與驚喜的2024年，AI就像一個正在成長的孩子——有時笨拙，有時驚艷，但始終充滿無限可能。

盡管道路上有數(shù)據(jù)枯竭的憂慮，有商業(yè)化的陣痛，有技術(shù)的不完美。大模型支撐著AI原生應(yīng)用高速發(fā)展，2025年被譽為AI發(fā)展元年，未來會越來越精彩。

作者｜林書編輯丨楊曉鶴

本文由人人都是產(chǎn)品經(jīng)理作者【AI鯨選社】，微信公眾號：【AI鯨選社】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

AI鯨選社

最新AI產(chǎn)業(yè)報道和產(chǎn)品分析

16篇作品 33985總閱讀量

抖音加碼圖書，不只為了幾兩紙錢

02-201961 瀏覽

數(shù)據(jù)分析，如何評估活動的好壞？

10-067640 瀏覽

產(chǎn)品經(jīng)理最容易進入的十個誤區(qū)

09-201616 瀏覽

數(shù)字營銷其實是「CEO工程」

07-124657 瀏覽

品牌如何進行數(shù)字化建設(shè)規(guī)劃？

03-316280 瀏覽

評論

目前還沒評論，等你發(fā)揮！

這樣打分公平嗎？聊聊評分系統(tǒng)的用戶體驗設(shè)計

06-154201 瀏覽
產(chǎn)品經(jīng)理如何用產(chǎn)品思維做投資

11-133093 瀏覽
?時代變了，電商產(chǎn)品經(jīng)理的能力模型也發(fā)生了變化，你跟上了么?

09-211076 瀏覽

2024 大模型年度五問：等不來GPT 5怎么過？

一、要不要做預(yù)訓(xùn)練，Scaling Law是否還有效？

二、Sora不如預(yù)期，現(xiàn)實還能存在多久？

三、AI coding興起，程序員會失業(yè)嗎？

四、真Siri來臨，能開啟智能硬件第二春？

五、AI Agent，噱頭還是即將落地？