鏖戰(zhàn) AI Agents:硅谷修路,中國造車

硅星人
0 評論 845 瀏覽 1 收藏 21 分鐘

硅谷正通過制定如 MCP 和 A2A 等開放協(xié)議構建基礎設施,推動 Agent 之間的連接與互通;而中國企業(yè)則更注重在特定場景下打造高效實用的解決方案,積極搶占市場份額。

AI Agent行業(yè)的全球圖景,中國和硅谷正在走上兩條路線。

硅谷正在逐步拆掉影響Agent發(fā)展的墻,從0-1的建立規(guī)則。從Anthropic推出了MCP開放協(xié)議,統(tǒng)一了大模型連接應用的方式,到谷歌發(fā)布名為Agent2Agent(A2A)的全新開放協(xié)議,建立了Agent與Agent之間的對話語言。越來越多的互聯(lián)網(wǎng)公司開始加入MCP陣營,包括Anthropic的老對手OpenAI,硅谷超過2000+企業(yè),國內(nèi)阿里百煉平臺、魔搭開發(fā)社區(qū)開始構建基于MCP的平臺,騰訊云、百度云等云平臺也在陸續(xù)加入。

看起來節(jié)奏清晰井井有條。

而國內(nèi)的AI Agent領域,則顯得更加躁動。一邊Manus以“全自動Agent”的故事引爆著資本熱潮,另一邊則是曾經(jīng)的行業(yè)獨角獸瀾碼科技遭遇發(fā)展危機,被曝出停薪資、停社保已經(jīng)超過三個月,并于近期對數(shù)十名員工解除勞動合同。

“Manus爆火后,投資人把相關文章甩給我們質(zhì)問‘人家這么牛,你們?yōu)槭裁床恍校俊?某Agent公司創(chuàng)始人在收到如此詢問時,她甚至找不到合適的語言向資方解釋,什么是模塊“縫合怪”。但與此同時,這種混亂又在給他們帶來實打?qū)嵉男略鲇唵涡枨?。客戶不再問AI Agent是什么,而是直接提需求下訂單。

它們都指向一個重要的信號:Agent行業(yè)正從“概念驗證期”邁入“生態(tài)定型期”,技術標準與商業(yè)模式的“分水嶺”已然浮現(xiàn)。在這兩種不同的氛圍背后,是兩種不同的路線,硅谷沉迷于對AI Agent制定規(guī)則,而中國公司已經(jīng)在搶跑了。

01 中國為什么沒有MCP?

首先我們必須明確的是:Agent不僅僅是一種應用形態(tài),將其簡單對比“超級應用”實際上是對其本質(zhì)的誤解。Agent代表了一條全新的產(chǎn)業(yè)鏈,它連接并整合了多個技術環(huán)節(jié),需要調(diào)動幾乎整個互聯(lián)網(wǎng)生態(tài)的軟件資源。

我們簡單制作了目前Agent產(chǎn)業(yè)生態(tài)的圖譜(當然它是動態(tài)變化的)以供大家理解。當前,構建真正通用的智能體需要兩個核心要素:一是強大的“大腦”:能夠接收任務并進行精細拆解,對每個步驟的微操作都能完美執(zhí)行,這要求大模型具備強大的多模態(tài)能力;而是可靠的“手腳”,則能夠穩(wěn)定執(zhí)行在各種環(huán)境中,確保跨平臺、跨設備的一致性表現(xiàn)。

針對To C和To B兩種場景,對Agent的能力要求截然不同:To C的通用型Agent不必追求極高準確性,但需要更強的通用性和靈活性,依賴強大的“大腦”進行決策;而To B場景下的“數(shù)字員工”則要求極高的準確性,對靈活性要求相對較低,更依賴高效穩(wěn)定的“手腳”執(zhí)行能力。

因此,行業(yè)內(nèi)幾乎形成共識:通用型Agent深度依賴基礎模型能力,本質(zhì)上是模型廠商能力的延伸,會隨模型升級而進化,創(chuàng)業(yè)公司在此領域能施展的空間極為有限。

從這一視角看,Anthropic作為基礎模型廠商率先推出MCP,并非因其擁有最強話語權,而是因其最需要與互聯(lián)網(wǎng)現(xiàn)有軟件生態(tài)建立連接,實現(xiàn)底層能力的整合與打通。

硅谷與中國在Agent領域的發(fā)展差異,正是兩地軟件生態(tài)長期積累形成的根本區(qū)別的直接反映。硅谷軟件生態(tài)以高度標準化和互聯(lián)互通為核心特征。制造業(yè)Agent數(shù)字員工打造者語核科技創(chuàng)始人翟星吉精準指出:“美國市場中,每個細分場景往往會有獨立的SaaS公司提供垂直服務,這使得互通互聯(lián)成為Agent發(fā)展的必要條件”。在SaaS普及率超過80%的環(huán)境下,Salesforce、Slack等頭部產(chǎn)品成為企業(yè)標配,自然催生了對標準化接口的強烈需求。

在MCP等統(tǒng)一協(xié)議框架下,現(xiàn)有SaaS服務自然成為生態(tài)組成部分,既服務終端用戶,又能被其他Agent調(diào)用。企業(yè)級數(shù)字員工AI Agent平臺來也科技CTO胡一川形象地比喻:“MCP對行業(yè)的影響類似于USB-C標準化對電子設備的影響,它大幅降低了開發(fā)成本。以前100個開發(fā)者連接100個工具需要10000項工作,現(xiàn)在通過MCP,雙方只需準備好對應接口,即可實現(xiàn)全面連接,工作量呈指數(shù)級下降?!?/p>

相比之下,中國軟件生態(tài)發(fā)展不均衡,而這種軟件生態(tài)的根本差異,最終導致了中國缺乏類似MCP的統(tǒng)一協(xié)議標準。這不只是Agent技術路徑的不同,更顯現(xiàn)了數(shù)字基礎設施發(fā)展階段的不同。

一旦MCP與A2A構建起智能體世界的“水電煤”基礎設施,后來者要么接入這套體系成為生態(tài)參與者,要么被排除在主流交互網(wǎng)絡之外。

那么制定標準的人將掌握了最重要的話語權,如同我們所見的安卓系統(tǒng),或是Cuda,當下國內(nèi)Agent公司都正面臨著是加入還是獨立發(fā)展的重要節(jié)點。

從當前的情況來看,似乎中國互聯(lián)網(wǎng)的基礎模型公司,并沒有另起爐灶的打算。 4月15日,魔搭推出全新MCP廣場,上架千余款熱門的MCP服務。魔搭MCP產(chǎn)品經(jīng)理告訴硅星人:“我們正在成為MCP的生態(tài)共建者,包括建立一些MCP應用的BenchMark,以及給一些應用提供啟動流量等等?!?/p>

本該是兵家必爭之地的標準制定者,為什么基模廠商輕易讓給了Anthropic?

據(jù)硅星人的了解,一部分原因是因為統(tǒng)一協(xié)議本身可能只是AI發(fā)展的階段性產(chǎn)物,從技術的角度來說,一旦建立了Agent的通用行動模型(參考機器人模型),就可以繞過API或者協(xié)議接口,直接完成操作,爭也只是一時;另一方面,互聯(lián)網(wǎng)大廠們快速加入MCP陣營后,能夠?qū)⒋饲暗膬?yōu)勢積累釋放,比如魔搭接入了收割支付寶提供的支付MCP接口,一旦Agent采用了通用的支付接口,支付生態(tài)可以在AI時代復利,這或許是一個比掌握協(xié)議本身更大的市場。

02 硅谷修路,中國造車

硅谷通過推動統(tǒng)一協(xié)議標準,對Agent生態(tài)而言就像是在“修路”,建立基礎設施和互聯(lián)互通的標準。而中國企業(yè)則專注于“造車”,打造能在特定場景下高效運行的實用解決方案。加入MCP、A2A或其他協(xié)議,對中國企業(yè)而言只是時間和選擇問題。無論哪種路徑,最終要讓Agent生態(tài)完整運轉,都需要一輛輛“車”真正跑起來。

在中國市場,C端Agent仍處于非常早期階段,以智譜AutoGLM為代表的通用智能體正在積極打磨產(chǎn)品形態(tài)、技術路線和商業(yè)模式,而絕大多數(shù)創(chuàng)業(yè)公司則將目光聚焦在2B領域。

“我們認為未來2-3年是智能體商業(yè)化落地的關鍵窗口期。端到端的純大模型方案(如Manus等)不太可能在這個時間窗口內(nèi)達到理想的商業(yè)落地水平,因為它們在可控性、穩(wěn)定性和成本方面仍存在重大挑戰(zhàn)?!逼髽I(yè)級通用智能體企業(yè)實在智能創(chuàng)始人孫林君判斷道。

To B的快速發(fā)展首先來源于市場需求的爆發(fā)性增長?!白詮慕衲?月DeepSeek發(fā)布之后,我們明顯感受到企業(yè)級Agent市場迎來了一波’爆單潮’,”翟星吉回憶道,“僅在最近三個月,我們在推進的新項目就超過了20個,今年的預期營收也超過了千萬。這在以前是很難想象的速度?!?/p>

胡一川也表達了類似觀察:“我們在制造業(yè)和金融領域的Agent項目詢單量比去年同期暴增了數(shù)倍。企業(yè)客戶對AI Agent的熱情程度遠超我們預期,尤其是那些有明確流程優(yōu)化需求的傳統(tǒng)行業(yè)客戶?!?/p>

其次是to B領域相對清晰的商業(yè)模式,比如將銷售轉化率從5%提升到6%,雖然只增加了1個百分點,但對企業(yè)來說實際增長了20%,對大型企業(yè)而言這是相當可觀的收益。

實際上,to B Agent實際上替代了傳統(tǒng)的定制化系統(tǒng),以更高效的方式解決企業(yè)痛點。這些“數(shù)字員工”正在形成全新的商業(yè)模式,不同于傳統(tǒng)SaaS的固定功能,它們能夠根據(jù)企業(yè)需求持續(xù)進化,實現(xiàn)真正的軟件“活體化”。

“其實,MCP這類協(xié)議對2C市場的影響遠大于2B領域。在企業(yè)場景中,系統(tǒng)大多采用封閉架構,且以本地私有化部署為主,很少需要連接公共互聯(lián)網(wǎng)應用?!钡孕羌a充到,這一特點使得中國企業(yè)在缺乏協(xié)議層支撐的情況下,被迫自主研發(fā)從數(shù)據(jù)處理到執(zhí)行操作的全鏈條技術棧。

語核Langtum企業(yè)級Agent應用落地平臺

如語核科技,其技術核心之一在于自研的工業(yè)文檔解析引擎,專門處理企業(yè)分散的非結構化數(shù)據(jù)(將PDF格式的工藝參數(shù)表轉化為結構化數(shù)據(jù)),以便大模型能夠更好地理解行業(yè)專業(yè)知識。在硅谷,這本應是獨立細分賽道的技術環(huán)節(jié),但在中國市場環(huán)境下,語核不得不將其作為Agent解決方案的一部分直接交付。

“比如在制造業(yè)的采購環(huán)節(jié),我們的Agent能夠自動校對采購單、查找供應商、比對報價并完成下單流程,將原本需要2-3天的工作壓縮至30分鐘內(nèi)完成,同時還能保持95%的準確性。”翟星吉講道。

來也科技則是通過將RPA(流程自動化)與AI結合,構建出一個一體化平臺,來保證更高準確率和更強靈活性?!拔覀兊姆桨覆皇呛唵蔚貙⒋竽P秃蚏PA拼接,而是構建了一個能夠自我調(diào)整的智能系統(tǒng),”胡一川解釋道,“在傳統(tǒng)RPA的基礎上,我們增加了決策節(jié)點,允許系統(tǒng)在執(zhí)行過程中根據(jù)實時情況進行判斷和路徑調(diào)整?!?/p>

來也科技數(shù)字員工平臺架構圖

例如,在某大型汽車主機廠的質(zhì)檢環(huán)節(jié),來也科技的Agent能夠自動識別并處理各類質(zhì)檢文檔,當遇到異常情況時,系統(tǒng)會自動調(diào)用歷史案例庫進行比對分析,確定最佳處理方案?!斑@一應用將質(zhì)檢文檔處理時間從原來的8小時縮短至1小時,準確率提升至99.2%,每年為客戶節(jié)省人力成本超過200萬元?!焙淮ㄑa充道,“更重要的是,隨著使用時間延長,系統(tǒng)能夠不斷學習新的異常模式,持續(xù)提升處理能力?!?/p>

中國企業(yè)在構建Agent時往往采取這種“由點及面”的策略:先在特定場景中解決核心痛點,然后逐步擴展功能范圍。實在智能創(chuàng)始人孫林君描述了他們的方法:“我們首先為制造業(yè)客戶打造質(zhì)檢文檔處理的專用Agent,證明價值后,再逐步擴展到生產(chǎn)計劃、物料管理等相關環(huán)節(jié),最終形成覆蓋整個生產(chǎn)管理鏈條的智能體系統(tǒng)?!?/p>

當積累了大量針對復雜場景的實戰(zhàn)經(jīng)驗,具體場景中的Agent往往具有更強的環(huán)境適應能力和問題解決能力。

03 Agent的另一種解法

硅谷的軟件生態(tài)已經(jīng)高度成熟,MCP等協(xié)議正在將這一生態(tài)重新連接,形成Agent主導的新格局。但這一趨勢不可避免地將逐漸弱化傳統(tǒng)軟件企業(yè)的地位,使軟件最終成為Agent的組件。

在美國,各軟件間的標準化接口已經(jīng)成為基礎設施,Agent開發(fā)可以專注于調(diào)用這些接口。而在中國,Agent企業(yè)必須直面軟件碎片化的現(xiàn)實,通過創(chuàng)新性的技術路徑解決執(zhí)行層問題。從某種意義上說,這反而催生了更加普適的技術方向。

“我們看到一個根本性問題:傳統(tǒng)的Agent執(zhí)行層要么依賴API調(diào)用,要么依賴像素級的視覺模擬,兩者都存在明顯局限,”實在智能創(chuàng)始人孫林君解釋道,“前者在中國企業(yè)軟件生態(tài)中成本很高且速度慢 ,后者則面臨穩(wěn)定性和泛化能力不足的挑戰(zhàn)?!?/p>

那么,RPA方案和視覺感知方案有沒有可能融合在一起?實在智能創(chuàng)新性的嘗試了“融合拾取技術”。

“我們訓練了一個名為塔斯(TARS)的垂直大模型,專注于電腦操作領域。這個模型提升了任務理解、狀態(tài)識別和操作決策能力,本質(zhì)上是一種‘text-to-action’或更精確地說是‘text+image-to-action’模型。例如,當看到一個有搜索框和按鈕的界面時,模型能理解「搜索實在智能」這樣的指令,確定需要在搜索框中輸入文本并點擊特定按鈕,然后生成相應代碼執(zhí)行操作?!?/p>

“我們訓練的視覺模型可在100-200毫秒內(nèi)識別界面中的各類元素(輸入框、按鈕、下拉菜單、表格、對話框、密碼區(qū)域等),然后將這些視覺識別結果與傳統(tǒng)方式識別的底層元素整合。目前在網(wǎng)頁元素識別和操作方面比GPT-4o高出約10個百分點,在任務拆解方面高出4-5個百分點,這項技術也獲得國家優(yōu)秀獎專利?!睂O林君補充道。

一般遇到未見過的軟件,都需要派工程師到客戶現(xiàn)場進行適配。但現(xiàn)實中未見過的軟件可能是無窮無盡的,這種人工適配模式難以擴展。融合拾取突破了傳統(tǒng)Computer Vision方案對屏幕分辨率和界面布局的依賴,提高了Agent在真實復雜環(huán)境中的適應能力。

除了技術創(chuàng)新外,在生態(tài)構建上也出現(xiàn)了新的機會。Agent公司究竟應該以什么身份對企業(yè)進行服務?是傳統(tǒng)軟件?定制化系統(tǒng)?還是AI技術提供商?商業(yè)模式是軟件付費模式、按token付費、還是以“數(shù)字員工”的形式按人頭付費?

“我們認識到一個現(xiàn)實:在2B領域,尤其是傳統(tǒng)行業(yè),行業(yè)know-how的積累至關重要,但從0到1自己完成這一過程周期太長,很難滿足當下市場的迫切需求,”AI Agent 智能體云生態(tài)服務平臺匯智智能創(chuàng)始人孫志明表示,“因此我們選擇了另一條路——成為行業(yè)知識與AI技術的整合者,將已經(jīng)數(shù)字化的行業(yè)知識與Agent能力結合,打造1+1大于2的解決方案?!?/p>

這種模式的核心在于識別并整合已被數(shù)字化的行業(yè)知識。在制造業(yè)、醫(yī)療、金融等領域,過去十年的信息化建設已經(jīng)沉淀了大量專業(yè)知識,孫志明解釋到,“例如,ERP系統(tǒng)中的工藝流程、醫(yī)療系統(tǒng)中的診斷規(guī)則、金融系統(tǒng)中的風控模型,這些都是經(jīng)過多年驗證的行業(yè)智慧。我們不需要重新發(fā)明輪子,而是將這些知識提取、結構化,然后與大模型能力結合。我們與行業(yè)信息化服務商、垂直領域咨詢公司、以及專業(yè)數(shù)據(jù)提供商建立了深度合作關系,共同打造完整的智能解決方案?!?/p>

對于像瀾碼這樣的創(chuàng)業(yè)公司,從0到1自主積累行業(yè)知識確實周期過長,對創(chuàng)企的考驗也更加大,核心原因在于沒有找準自己的定位,是技術提供者、知識整合者還是解決方案交付者,然后圍繞這一定位構建合作生態(tài)。

相比之下,新的商業(yè)模式或許更加適合中國市場現(xiàn)狀。在中國大型企業(yè)的數(shù)字化程度參差不齊,但幾乎所有企業(yè)都有不同程度的信息化基礎,在Agent驅(qū)動下,或許能重新定義軟件服務的形態(tài)和交付方式。

畢竟,技術發(fā)展從來不是單一直線,在這個過程中,中國企業(yè)和硅谷巨頭都在用各自的方式,共同推動Agent走向成熟。

本文由人人都是產(chǎn)品經(jīng)理作者【硅星人】,微信公眾號:【硅星人Pro】,原創(chuàng)/授權 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請關注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!
专题
16738人已学习14篇文章
本专题的文章分享了拼团功能的设计指南。
专题
15549人已学习14篇文章
痛点是什么?为什么用户会有痛点?如何抓住用户痛点?优先解决哪些用户痛点?本专题的文章分享了以上的问题详解。
专题
13264人已学习13篇文章
本专题的文章分享了产品经理数据分析方法论。
专题
12962人已学习12篇文章
营销数字化与数字化营销,是两个不同的概念,很多容易混淆。本专题的文章分享了关于营销数字化的解读。
专题
17736人已学习13篇文章
本专题的文章对整个商业模式进行了一个清晰的梳理和设计,并说明了商业模式如何变成可执行的路径。