國內(nèi)的AI大模型們路走偏了吧!
從ChatGPT引起的AI爆火已經(jīng)2年了,國外已經(jīng)在系統(tǒng)型超級(jí)應(yīng)用的方向高歌猛進(jìn),而國內(nèi)則沒什么消息。拿移動(dòng)互聯(lián)網(wǎng)作類比,安卓是重要也更基礎(chǔ),但其實(shí)可能沒有微信重要。那么,這條路真的對(duì)嗎?
在差不多10個(gè)月前寫的開源大模型LLaMA 2會(huì)扮演類似Android的角色么?和AI個(gè)體戶的崛起:普通人“屁胡”的機(jī)會(huì)、模式和風(fēng)險(xiǎn)等文章里提出過AI產(chǎn)品落地的的三段論:大模型、系統(tǒng)型超級(jí)應(yīng)用、長尾工具。事隔10個(gè)月回頭再看,AI發(fā)展的走勢基本與此相同。其中大模型、長尾工具大家談?wù)摫容^多,這次還是專注于系統(tǒng)型超級(jí)應(yīng)用。核心原因是從各種新聞來看國外在這里已經(jīng)開始高歌猛進(jìn),像一個(gè)局點(diǎn)一樣,但國內(nèi)則相對(duì)安靜,似乎被錯(cuò)過了??蛇@里才是AI應(yīng)用的重鎮(zhèn)。拿移動(dòng)互聯(lián)網(wǎng)作類比,安卓是重要也更基礎(chǔ),但其實(shí)可能沒有微信重要。
一、什么是系統(tǒng)型超級(jí)應(yīng)用呢?
系統(tǒng)型超級(jí)應(yīng)用這類產(chǎn)品太復(fù)雜,實(shí)在不好理解,單純類比操作系統(tǒng)也還是不行,所以這次換個(gè)路數(shù),我們拿一個(gè)最近受眾比較多的App 豆包以及背后的大模型來做類比,在產(chǎn)品形態(tài)、業(yè)務(wù)模式等各方面說明下這類產(chǎn)品。需要的話大家也可以一邊操作一邊形成直觀感受。
豆包APP自身可以看成系統(tǒng)型超級(jí)用的面向C端的部分,但系統(tǒng)型超級(jí)應(yīng)用不是豆包APP。
系統(tǒng)是指操作系統(tǒng),超級(jí)應(yīng)用是指功能沒邊界。
一邊對(duì)各種硬件設(shè)備進(jìn)行抽象靠驅(qū)動(dòng)程序接入各種硬件。
一邊對(duì)應(yīng)用進(jìn)行開放,在它之上可以開發(fā)Office,PS等各種應(yīng)用。
兩邊是被隔離的,做應(yīng)用的時(shí)候不需要關(guān)注硬件差異,可以無差別的使用硬件的功能或者計(jì)算機(jī)的計(jì)算能力。
系統(tǒng)型超級(jí)應(yīng)用首先具備這種系統(tǒng)特征。
那什么是超級(jí)應(yīng)用呢?微信如果沒有小程序、支付等一系列子功能而是只局限于IM,單是人多那不能被稱之為超級(jí)應(yīng)用。超級(jí)應(yīng)用一個(gè)特征固然是用戶龐大,更關(guān)鍵的是通過二次開放應(yīng)用商店,在功能上沒有邊界。
拿豆包這一簇產(chǎn)品做下類比,第一豆包大模型把各種算法完整進(jìn)行封裝,比如識(shí)別、語音合成、大模型等,提供了一種AI的通用計(jì)算和算法調(diào)度能力,這是通用能力部分。其次你會(huì)發(fā)現(xiàn)它現(xiàn)在至少在一邊開放了技能商店(火山方舟/扣子)。APP的具體功能由技能來定義。
這個(gè)地兒不適合用“APP”這個(gè)詞形容可自定義的功能,確實(shí)用技能更合適。就好比一個(gè)機(jī)器人它上一秒鐘還不會(huì)開直升飛機(jī),但裝載新技能后下一秒就可以了。對(duì)機(jī)器人而言這是一種技能。
另一邊如果參照操作系統(tǒng)其實(shí)是要投射到不同硬件上,這點(diǎn)豆包這一簇產(chǎn)品現(xiàn)在好像就覆蓋了手機(jī)和電腦,但這種基于自然語言的應(yīng)用對(duì)端上硬件的資源要求是非常低的,甚至可以放到只有1M內(nèi)存的設(shè)備上。這靠開放平臺(tái)來覆蓋會(huì)更適合,下面會(huì)說。(其實(shí)這里還得區(qū)分特征是屬于應(yīng)用的運(yùn)行時(shí)還是屬于純粹的云服務(wù),小程序是微信的運(yùn)行時(shí)技能,但有點(diǎn)復(fù)雜不展開了)
我們總結(jié)下這種系統(tǒng)型超級(jí)應(yīng)用的構(gòu)成,基本上是三位一體:
這里面容易被低估的可能是類似火山方舟這個(gè)位置的產(chǎn)品(CUDA大概是在這個(gè)位置),早期這個(gè)位置的產(chǎn)品絕對(duì)賠錢,很多時(shí)候還得靠降價(jià)來反哺它(看發(fā)布會(huì)豆包大模型把價(jià)格訂到:0.0008元/千Tokens,這確實(shí)是敢下狠手,比我在用的便宜很多很多。干的就是上面說的事)。但其實(shí)這里是通路也是標(biāo)準(zhǔn),培養(yǎng)粘性和鏈接的地方??磮?bào)道,火山方舟在持續(xù)升級(jí)從模型訓(xùn)練、推理、評(píng)測到精調(diào)的全方位服務(wù),還有插件以及工具鏈。打點(diǎn)其實(shí)是對(duì)的。
基于這個(gè)可以預(yù)測下面OpenAI的行為,它大概率會(huì)補(bǔ)自己直接的C端應(yīng)用(不是簡單套殼)。從GPT-4o的發(fā)布來看,OpenAI內(nèi)部似乎已經(jīng)統(tǒng)一了認(rèn)識(shí):往應(yīng)用方向整。這樣磕下去,科技巨頭里面估計(jì)會(huì)多一個(gè),并且大概率會(huì)和Google直接碰撞,除非再有首席科學(xué)家起義。(有點(diǎn)像修仙,阻人成道了就一定會(huì)PK,和喜歡不喜歡沒有關(guān)系)。
二、系統(tǒng)型超級(jí)應(yīng)用的打法
我為什么看著好像還算了解這類產(chǎn)品呢?
因?yàn)槲乙欢仍?jīng)帶團(tuán)隊(duì)設(shè)計(jì)了完整的這種超級(jí)應(yīng)用以及其打法,那產(chǎn)品和現(xiàn)在的豆包至少有60%的相似度……。(但實(shí)在干不動(dòng)。別的都好說,這類產(chǎn)品太費(fèi)錢了,再加上上代技術(shù)也沒那么成熟,最終搞不動(dòng)了)
這類系統(tǒng)型超級(jí)應(yīng)用幾乎必然是To B和To C兩線同時(shí)著手。特別不單點(diǎn)極致,一般人可別整十死無生。
沒有C端的標(biāo)桿,沒人相信你能干好,對(duì)于這種基于新技術(shù)的新品類也沒人知道你在說啥。所以就需要一個(gè)豆包這樣的C端應(yīng)用做Pilot??磮?bào)道提到豆包APP月活2600萬,豆包大模型日均處理1200億Tokens文本,生成3000萬張圖片。這是很可怕的數(shù)字,智能音箱峰值的時(shí)候,每年出貨也就只有近4000萬臺(tái),活躍更是遠(yuǎn)遜(有的不足銷量的10分之1)。(當(dāng)年我們的C端產(chǎn)品叫:TA來了,說實(shí)話我覺得比豆包還好聽一些,但數(shù)實(shí)在不行)
而為了把這種能力投射到更多的設(shè)備里面就必然需要構(gòu)建開放平臺(tái),既輸出能力也負(fù)責(zé)管理各種技能(應(yīng)用運(yùn)行時(shí)的技能平臺(tái)和MaaS形式的輸出,前者只在用戶量級(jí)上來了才有意義)。
還要有一些共同依托的能力,否則沒有根基。當(dāng)年是一堆算法比如聲學(xué)的(可復(fù)制性最差,現(xiàn)在好像還沒解決),識(shí)別的,NLP的(過去可復(fù)制性也很差,現(xiàn)在基于大模型解決了),現(xiàn)在是豆包大模型這樣的新一代模型。里面看起來各種算法都打包進(jìn)去了。
很多人可能沒注意的是包括大模型的這套算法核心計(jì)算其實(shí)在云上,端上要求的計(jì)算量極低,主要運(yùn)行聲學(xué)算法等。前面提到你甚至可能在一個(gè)只有1M內(nèi)存的終端設(shè)備上把這種AI能力集成進(jìn)去。也就是說這種能力可以下探到語音無屏的開關(guān)這類小設(shè)備。
這導(dǎo)致這種超級(jí)智能應(yīng)用先天的優(yōu)勢就是多設(shè)備投射,進(jìn)行沉浸式計(jì)算。這時(shí)候各種設(shè)備平權(quán)不是以手機(jī)為中心。
當(dāng)前看起來豆包這些新一代超級(jí)應(yīng)用還沒去干這個(gè)事,確實(shí)也沒到這個(gè)時(shí)點(diǎn),其它所有硬件設(shè)備加起來創(chuàng)造的日活的和可能也不如APP的十分之一。
這種系統(tǒng)型超級(jí)應(yīng)用要想干好,基礎(chǔ)能力和殺手型的技能都不能缺。
基礎(chǔ)能力搞不好有點(diǎn)浮沙筑高臺(tái),房子很難蓋起來。(大模型還是很給力,一定程度上解決這問題)
技能搞不好有點(diǎn)像要蓋大房子但梁不給力,過去智能音箱搞不好核心就這問題。
什么是基礎(chǔ)能力呢?
這是領(lǐng)域本身定義的。比如如果是需要面向C端,TTS音色這個(gè)看著不重要的就和大模型的內(nèi)容生成一樣重要。GPT-4o在補(bǔ)這個(gè),豆包大模型也在強(qiáng)化這個(gè)。
在APP里什么可以成為一個(gè)比較Killer的技能呢?
播音樂的這類功能的支撐度總是不夠強(qiáng)壯,之前景鯤帶著小度在家往教育做垂直應(yīng)該就是嘗試解決這個(gè)問題。
當(dāng)年我們做過類似《Her》的嘗試,很有趣的是豆包也選了它。
但新一代模型的效果實(shí)在好很多,從端點(diǎn)檢測的精度到語音識(shí)別再到TTS(音色)再到內(nèi)容生成。新一代技術(shù)比過去流暢太多了。
這里面有個(gè)叫《曖昧對(duì)象》的技能,真的差不多可以做陪聊天的服務(wù)了。(忘記是團(tuán)隊(duì)那個(gè)產(chǎn)品同學(xué)認(rèn)為最能有用的就是陪聊天,比放音樂有用,這是對(duì)的,奈何當(dāng)年算法不給力,做完連貫性不過關(guān))
這一組算法最終的效果是個(gè)乘法問題,每個(gè)都0.8最終一乘體驗(yàn)就變0.5分。現(xiàn)在的識(shí)別精度,音色的流暢度和大模型的通用內(nèi)容生成乘在一起應(yīng)該還能剩下90分以上。如果不是你知道它是人工智能的情境下,已經(jīng)很難分得清這是人還是AI。
上一波人工智能創(chuàng)業(yè)里面,NLP公司心心念念的《Her》真的有人要做出來了,還附贈(zèng)了和之前嘗試但不好使的聲音復(fù)刻功能(《黑鏡》那種男朋友沒了,現(xiàn)在看連聲音至少能做出一個(gè)70分的陪你聊天的他了…)。這比匹配意圖偶爾還得扣槽這種土鱉方式的開放式聊天實(shí)在是好太多了。
做過這個(gè)的可以試試,體驗(yàn)下國內(nèi)最新進(jìn)展。
上面我們拿豆包APP以及背后的豆包大模型做例子分解了一下系統(tǒng)型超級(jí)應(yīng)用的特征以及前者商業(yè)模式。
但系統(tǒng)型超級(jí)應(yīng)用可不只局限于豆包以及背后大模型所代表的B端、C端,而是有著更寬廣深遠(yuǎn)的空間,更關(guān)鍵的其實(shí)是行業(yè)。最先能收支平衡的有可能也是行業(yè)。
字節(jié)跳動(dòng)這種公司走OpenAI的路沒啥問題,但看起來好像所有做大模型的都跑這條路上來了。這就是標(biāo)題說的國內(nèi)AI大模型路可能走偏了。類似OpenAI這個(gè)地兒恐怕也沒那么大容量。從上面分解中也能看出這模式夸張的難度和資源需求。
三、系統(tǒng)型超級(jí)應(yīng)用可復(fù)制到更寬的領(lǐng)域么
有兩個(gè)新聞可以放在一起看:一個(gè)是DeepMind發(fā)布AlphaFold3,號(hào)稱為疾病治療和藥物研發(fā)開辟全新路徑;一個(gè)是Xaira公司融了10億美金。
這是什么呢?這是垂域大模型。(其實(shí)我不知道他們細(xì)節(jié),也許沒想的那么大,但不關(guān)鍵)
顯然的Deepmind并沒有因?yàn)镺penAI亂了陣腳,繼續(xù)在自己的路上死磕。但很可能收支平衡比OpenAI還快。
因?yàn)樗娴挠绊懶袠I(yè),重塑價(jià)值創(chuàng)造的過程。很多科學(xué)家會(huì)因?yàn)锳lphaFold的調(diào)用次數(shù)和開放程度而造反,這反襯的正是影響力。那個(gè)國內(nèi)的AI大模型有這種行業(yè)影響力。
每一個(gè)這種垂域模型不太可能是一個(gè)單獨(dú)的裸的模型,在落地的時(shí)候總是要和現(xiàn)實(shí)的信息進(jìn)行連接。
這點(diǎn)上我之前拿Watson舉過例子。
雖然沃森不成功,但這種簡單架構(gòu)上已經(jīng)清楚的表明這是行業(yè)的系統(tǒng)型超級(jí)應(yīng)用。
Watson固然是不成功,但真做出來呢?
那是真的會(huì)解決醫(yī)療行業(yè)的根本問題的,比如醫(yī)療資源不足的問題。
這才是新質(zhì)生產(chǎn)力。
想象一下,這些模型一旦達(dá)到AlphaGo在圍棋里面的程度,那整個(gè)行業(yè)就要圍著這個(gè)模型轉(zhuǎn)了。對(duì)應(yīng)行業(yè)會(huì)發(fā)生劇烈重整。
為什么提這個(gè)呢?
因?yàn)锳I行業(yè)國內(nèi)真干大模型的同學(xué)的選擇好像都擠一塊去了。
受OpenAI刺激,很多團(tuán)隊(duì)都跑去干類似chatGPT的大模型,然后自己從頭搞又特別費(fèi)勁,所以往往會(huì)借助開源。在這個(gè)基礎(chǔ)上(相對(duì)通用的類似chatGPT模型)上包裝出行業(yè)大模型。好處是瞬間可以出好多,壞處是不解決行業(yè)深層次問題,最終很可能變成上波的賺方案的錢,然后收支失衡。(參見:為什么說這些倒騰AI的方式會(huì)把自己搞死)
真正的垂域大模型,那怕把法律搞清楚也是有用的(康達(dá)的李思川李律,視頻號(hào):川哥說法,就和我聊過好幾次)。但門檻確實(shí)還是太高,直接拿通用大模型上能靠譜么,我不咋看好??涩F(xiàn)在看真做垂直的的反倒是不多。
四、垂域大模型和AGI
以前也寫過一點(diǎn)這個(gè)話題:chatGPT 和AlphaGo下圍棋,誰贏?垂域大模型有戲么?,現(xiàn)在仍然維持原來的觀點(diǎn):在專門的領(lǐng)域尤其是價(jià)值比較高,有很多專業(yè)信息和知識(shí)的領(lǐng)域chatGPT這種代表AGI的模型是很難PK掉垂域模型的。
我是靠常識(shí)做這個(gè)判斷,很不權(quán)威。
常識(shí)是說一部分?jǐn)?shù)據(jù)內(nèi)蘊(yùn)了各種知識(shí)和規(guī)則,把這些數(shù)據(jù)的種類覆蓋的越全,這個(gè)模型的相應(yīng)的事能力也就越強(qiáng)大。通用大模型能力再強(qiáng),沒有這部分信息,也會(huì)甕中之腦一樣空有智商。何況模型訓(xùn)練過程中總是可以產(chǎn)生很多的Know-How,這會(huì)進(jìn)一步增加差距。
在很長一段時(shí)間里可能會(huì)是一個(gè)通用大模型,上面承載幾個(gè)類似豆包/火山方舟/豆包大模型這樣的超級(jí)應(yīng)用(比如搜索方向也可能出新的超級(jí)應(yīng)用)還有一些垂域大模型共同為不同的系統(tǒng)型超級(jí)應(yīng)用提供引擎。
五、小結(jié)
chatGPT屬于開局的點(diǎn),我們把它刨除在外。那AI大模型真正的局點(diǎn)其實(shí)是這些系統(tǒng)型超級(jí)應(yīng)用,不是小團(tuán)隊(duì)做的輔助工具。那誰在做這東西呢?也可能是我真的不知道,但如果確實(shí)沒有行業(yè)性的,而是都圍在了通用模型上,那可能會(huì)在AI的局點(diǎn)上缺席了不少東西。那不管對(duì)于VC還是真的從業(yè)者其實(shí)遺憾的事情。(當(dāng)年傅朱爭論過一場,從這個(gè)角度看實(shí)在是都偏了)
專欄作家
琢磨事,微信公眾號(hào):琢磨事,人人都是產(chǎn)品經(jīng)理專欄作家。聲智科技副總裁。著有《終極復(fù)制:人工智能將如何推動(dòng)社會(huì)巨變》、《完美軟件開發(fā):方法與邏輯》、《互聯(lián)網(wǎng)+時(shí)代的7個(gè)引爆點(diǎn)》等書。
本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。
- 目前還沒評(píng)論,等你發(fā)揮!