精品少妇人妻av一区二区,国产最变态调教视频,成人性生交片无码免费看人

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

AI助手巔峰對(duì)決：DeepSeek、元寶、豆包、Kim，誰(shuí)是“智能之王”？誰(shuí)又最糟糕？

極點(diǎn)商業(yè)

2025-03-19

1 評(píng)論 2576 瀏覽 0 收藏

隨著 AI 技術(shù)的飛速發(fā)展，AI 助手市場(chǎng)迎來(lái)了激烈的競(jìng)爭(zhēng)。DeepSeek、騰訊元寶、豆包和 Kim 等多款 AI 助手紛紛登場(chǎng)，各展其能。然而，這些 AI 助手在實(shí)際應(yīng)用中的表現(xiàn)如何？

DeepSeek的橫空出世，讓AI助手大戰(zhàn)越來(lái)越激烈。

比如，原本“毫無(wú)存在感”的騰訊元寶，在接入DeepSeek后，以罕見(jiàn)重視程度瘋狂燒錢投流，收獲無(wú)數(shù)流量。近期反超字節(jié)跳動(dòng)豆包、Kim，甚至DeepSeek，一度登頂蘋(píng)果App Store免費(fèi)App下載排行榜榜首。

但加大規(guī)模投流只是第一步，如何提升用戶留存率、維持市場(chǎng)份額是更大考驗(yàn)。

決定這一切的是用戶體驗(yàn)——即AI助手是否能夠在實(shí)際工作、生活中發(fā)揮作用，提升效率。并且，在AI大模型幻覺(jué)仍未解決前提下，帶給我們的是準(zhǔn)確回答，而不是胡編亂造。

這也是困擾當(dāng)下用戶最大的疑問(wèn)，DeepSeek、元寶、豆包、Kim，誰(shuí)才是用戶體驗(yàn)之王？到底誰(shuí)優(yōu)誰(shuí)劣？

近日，“極點(diǎn)商業(yè)”從實(shí)用角度出發(fā)，對(duì)DeepSeek、騰訊元寶、Kimi、豆包四款國(guó)產(chǎn)大模型從準(zhǔn)確性、深度思考、復(fù)雜文本處理等多個(gè)維度進(jìn)行橫向測(cè)評(píng)，挖掘這些工具在應(yīng)用中的實(shí)際差異，希望能為用戶選擇最適合自己的AI工具提供依據(jù)。

01 深度思考：數(shù)據(jù)胡編亂造仍然突出

如果傳統(tǒng)搜索模式是“把飯遞到用戶嘴邊”，當(dāng)前大模型的突破在于告知用戶“這桌飯是怎么做的，這道菜為什么香”。

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

查看详情 >

深度思考能力不僅能精準(zhǔn)分析用戶需求和真實(shí)意圖，幫助用戶做出盡可能全面、準(zhǔn)確的答案，還可展現(xiàn)模型在解決問(wèn)題時(shí)清晰的思考邏輯，協(xié)助用戶理清思路。

2月27日晚7點(diǎn)，小米舉辦發(fā)布會(huì)推出SU7 Ultra汽車，當(dāng)晚雷軍在微博發(fā)文表示，開(kāi)售兩小時(shí)該款汽車大定突破10000輛。

對(duì)此，“極點(diǎn)商業(yè)”向上述四款大模型提問(wèn)，希望其幫助判斷小米的股票是否值得投資？

騰訊元寶和DeepSeek給出了投資建議，Kimi認(rèn)為小米在中長(zhǎng)期內(nèi)具有投資價(jià)值。豆包則在購(gòu)買理由之外，還給出了存在風(fēng)險(xiǎn)的因素——從保護(hù)投資者權(quán)益角度看，此類風(fēng)險(xiǎn)提示很有必要，可以避免盲目投資。

從上至下：騰訊元寶、DeepSeek、Kimi、豆包

深度思考方面，僅有元寶詳細(xì)展現(xiàn)了思考過(guò)程，從事件背景、分析維度、財(cái)務(wù)模型等方面呈現(xiàn)完整的分析框架，揣測(cè)用戶投資需求。

Kimi和豆包則是基于網(wǎng)絡(luò)信息整理出了有價(jià)值的參考建議。反倒是DeepSeek，分析邏輯來(lái)源于指令，也沒(méi)有呈現(xiàn)參考資料，不過(guò)提供了短期和長(zhǎng)期的多元策略供投資者選擇。

至于大模型給出的投資建議是否準(zhǔn)確，由于投資因素較多在這里不做評(píng)判。但在深度思考過(guò)程中，給出的數(shù)據(jù)準(zhǔn)確性是可以核實(shí)驗(yàn)證的，從數(shù)據(jù)來(lái)看，大部分存在胡編亂造的行為。

據(jù)小米集團(tuán)財(cái)報(bào)顯示，公司2020—2022年?duì)I業(yè)收入分別為2458億元、3283億元和2710億元，研發(fā)投入分別為100億元、132億元、160億元。對(duì)比幾款模型給出的經(jīng)營(yíng)數(shù)據(jù)，僅有DeepSeek準(zhǔn)確。

小米集團(tuán)2022年度報(bào)告

元寶雖然自動(dòng)生成了表格，想要給用戶更直觀地呈現(xiàn)，但除了營(yíng)業(yè)收入無(wú)誤外，凈利潤(rùn)率與研發(fā)投入比與實(shí)際均有出入。

據(jù)國(guó)際數(shù)據(jù)調(diào)研機(jī)構(gòu)IDC顯示，2020年小米手機(jī)全球份額為12%，而騰訊元寶提供的數(shù)據(jù)與實(shí)際相差1.4個(gè)百分點(diǎn)，更接近小米手機(jī)在當(dāng)年第四季度13.7%的市場(chǎng)份額。

騰訊元寶梳理的小米近五年經(jīng)營(yíng)數(shù)據(jù)

這種信息偏差，一方面是由于大模型不能抓取最新事實(shí)，且參考的信息來(lái)源相對(duì)單一，導(dǎo)致生成結(jié)果往往基于老舊數(shù)據(jù)存在局限。

這一點(diǎn)在元寶的特別標(biāo)注中可資佐證：本文數(shù)據(jù)截至2024年3月，具體投資需以實(shí)時(shí)財(cái)報(bào)及行業(yè)動(dòng)態(tài)為準(zhǔn)。很顯然，元寶看似全面的企業(yè)分析和投資建議，與當(dāng)前市場(chǎng)動(dòng)態(tài)有一年的“時(shí)差”。

另一方面，當(dāng)網(wǎng)頁(yè)內(nèi)容本身存在錯(cuò)誤時(shí)，由于AI不能自主識(shí)別虛假信息并進(jìn)行有效驗(yàn)證，會(huì)將錯(cuò)誤信息當(dāng)作事實(shí)輸出。

四款A(yù)I助手中，豆包和Kimi都清晰標(biāo)注了信息來(lái)源，Kimi采集信息的數(shù)量最多覆蓋面也最廣。

kimi生成數(shù)據(jù) & 小米集團(tuán)2022年財(cái)報(bào)

Kimi在閱讀了179個(gè)網(wǎng)頁(yè)后才進(jìn)行分析，信源既包括企業(yè)官方，也涵蓋了澎湃新聞、東方財(cái)富、新浪財(cái)經(jīng)等主流及專業(yè)性媒體。抓取的最新信息是3月7日刊發(fā)的報(bào)道，時(shí)效性很強(qiáng)。但由于無(wú)法識(shí)別內(nèi)容的準(zhǔn)確性，導(dǎo)致Kimi呈現(xiàn)的2022年研發(fā)開(kāi)支失實(shí)。

02 長(zhǎng)文本和閱讀理解：元寶細(xì)節(jié)經(jīng)不起推敲???????

回顧AI大模型的“競(jìng)爭(zhēng)史”，功能不斷創(chuàng)新，但對(duì)長(zhǎng)文本的處理能力和閱讀理解能力，可以說(shuō)是用戶最看重的核心競(jìng)爭(zhēng)力之一。

早在2024年6月，新京報(bào)貝殼財(cái)經(jīng)記者就曾用高考語(yǔ)文作文題目測(cè)試文心一言、通義千問(wèn)、Kimi、百小應(yīng)、騰訊元寶等8款模型的文本處理能力和知識(shí)深度。

題目是：

“閱讀下面的材料，根據(jù)要求寫(xiě)作。（60分）
隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用，越來(lái)越多的問(wèn)題能很快得到答案。那么，我們的問(wèn)題是否會(huì)越來(lái)越少？以上材料引發(fā)了你怎樣的聯(lián)想和思考？請(qǐng)寫(xiě)一篇文章。
要求：
選準(zhǔn)角度，確定立意，明確文體，自擬標(biāo)題；
不要套作，不得抄襲；
不得泄露個(gè)人信息；
不少于800字?！?/p>

時(shí)隔9個(gè)月，“極點(diǎn)商業(yè)”又帶著同樣的題目去問(wèn)了一圈AI助手（3月8日測(cè)試）。

有意思的是，被評(píng)為“勤勞任怨人格”的Kimi給出了看似和之前截然不同的題目和文章，但通讀下來(lái)，文章的中心思想、框架結(jié)構(gòu)，甚至行文邏輯都與新京報(bào)測(cè)評(píng)的結(jié)果別無(wú)二致。不禁讓人感慨：“AI，你竟然也學(xué)會(huì)了偷懶！”

Kimi測(cè)評(píng)結(jié)果（左為最新獲得內(nèi)容，右為新京報(bào)獲得內(nèi)容）

用戶普遍認(rèn)為AI會(huì)根據(jù)網(wǎng)絡(luò)可搜集的信息不斷更新答案，哪怕在不同時(shí)間提出相同的問(wèn)題，大模型也會(huì)給出自帶升級(jí)功能的完美回復(fù)。

不過(guò)，有行業(yè)人士指出，大模型是否會(huì)更新升級(jí)，取決于設(shè)計(jì)架構(gòu)和數(shù)據(jù)更新機(jī)制。

一般而言，大模型在訓(xùn)練階段會(huì)基于文本、書(shū)籍、新聞等數(shù)據(jù)學(xué)習(xí)其模式和規(guī)律，生成回答。訓(xùn)練完成后，大模型的知識(shí)固定，不會(huì)實(shí)時(shí)更新。如果要讓模型回答最新信息，開(kāi)發(fā)者需定期重新訓(xùn)練模型，或者通過(guò)技術(shù)手段補(bǔ)充數(shù)據(jù)。

此外，在小紅書(shū)上也有不少網(wǎng)友提出，自己的“AI實(shí)習(xí)生”越來(lái)越懶了。

一位用戶表示不管是ChatGPT還是文心一言、Kimi，只要沒(méi)提出字?jǐn)?shù)要求，回復(fù)的內(nèi)容都很簡(jiǎn)短。偶爾上傳文件讓大模型分析，會(huì)回復(fù)看不到文件，只有明確發(fā)出“已上傳文件，可以閱讀”的指令才會(huì)得到想要的回復(fù)。讓這位用戶感慨“不僅回復(fù)短還想應(yīng)付我”。

不過(guò)讓人欣慰的是，DeepSeek、豆包的結(jié)果，展現(xiàn)了更為豐富的知識(shí)儲(chǔ)備，文章結(jié)構(gòu)清晰、邏輯較為嚴(yán)謹(jǐn)，引經(jīng)據(jù)典語(yǔ)言較為優(yōu)美。

從引經(jīng)據(jù)典的準(zhǔn)確性來(lái)看，豆包稱“莫高窟藏有《色空不二》”，提及的歷史事件（如深藍(lán)戰(zhàn)勝卡斯帕羅夫、AlphaGo擊敗李世石）都準(zhǔn)確無(wú)誤。甚至，還較為準(zhǔn)確地引用了蘇格拉底在雅典街頭追問(wèn)“什么是正義”。

騰訊元寶的答案，與九個(gè)月前相比似乎更為深刻，此前文章還如同高中生作文般，在首段引用名人名言，規(guī)規(guī)矩矩地圍繞題目作答。現(xiàn)在文章則使用了更有可讀性的故事化開(kāi)頭，感覺(jué)AI在盡可能地通過(guò)奇聞?shì)W事引導(dǎo)讀者產(chǎn)生思考。

根據(jù)題目最新生成的內(nèi)容，騰訊元寶（左）DeepSeek（右）

在這些內(nèi)容背后，我們也發(fā)現(xiàn)了元寶、DeepSeek存在的問(wèn)題。

首先是事實(shí)堆砌，篇幅很長(zhǎng)卻沒(méi)有體現(xiàn)中心思想，并不符合主題要求；其次，段落之間的邏輯關(guān)聯(lián)性不足，缺少過(guò)渡和層次遞進(jìn)，在復(fù)雜文本處理中的推理能力缺失。也難怪網(wǎng)友此前銳評(píng)“元寶推理關(guān)聯(lián)能力及其拉垮”。

此外，在文本處理上，也存在很多細(xì)節(jié)性錯(cuò)誤。比如元寶提及的《蒙娜麗莎的微笑》，嘴角處的透明油彩只有40層，而不是文中所說(shuō)的數(shù)百層；恩尼格碼密碼機(jī)被破譯的地點(diǎn)布萊切利園是英國(guó)政府進(jìn)行密碼解讀的宅邸，并非公園。

DeepSeek所寫(xiě)文章中的“波粒二象性”提出者，是法國(guó)理論物理學(xué)家德布羅意，“光電現(xiàn)象”的理念是由德國(guó)物理學(xué)家赫茲發(fā)現(xiàn)的，而愛(ài)因斯坦則是對(duì)這種現(xiàn)象進(jìn)行正確解釋。

03 知識(shí)深度，四款助手文獻(xiàn)均有失實(shí)

這種細(xì)節(jié)失實(shí)的現(xiàn)象，與前述案例中大模型內(nèi)容失實(shí)的原因截然不同。

當(dāng)大模型在網(wǎng)絡(luò)中無(wú)法獲取有效信息，甚至陷入“知識(shí)荒漠”，遇到自己不熟悉的領(lǐng)域時(shí)，為了使生成的內(nèi)容和邏輯連貫，就會(huì)無(wú)中生有地編造虛假事實(shí)和細(xì)節(jié)。

大模型這種“胡說(shuō)八道”的本事，被稱為“幻覺(jué)”。當(dāng)AI成為人人都掌握的工具，這種虛假信息產(chǎn)生的后果會(huì)更為嚴(yán)重。

此前有媒體報(bào)道，一位化名小昭的法學(xué)碩士生，在日常寫(xiě)論文的過(guò)程中頻繁使用豆包、DeepSeek等AI工具。她發(fā)現(xiàn)這些工具存在“幻覺(jué)”差異：OpenAI的 o1對(duì)國(guó)內(nèi)素材掌握不充足；豆包語(yǔ)言平實(shí)，幻覺(jué)并不嚴(yán)重；DeepSeek語(yǔ)言最生動(dòng)流暢，文字處理能力最佳，但編造細(xì)節(jié)的情況也是最嚴(yán)重的。

“在自身缺乏辨別能力的情況下，可能難以判斷信息的真假?！鼻迦A大學(xué)長(zhǎng)聘副教授陳天昊在采訪中曾提到，對(duì)于學(xué)生等特殊人群來(lái)說(shuō)，大模型幻覺(jué)問(wèn)題帶來(lái)的風(fēng)險(xiǎn)性可能更大。

一位在中部地區(qū)某高校工作的教師也向“極點(diǎn)商業(yè)”表示，在指導(dǎo)本科生畢業(yè)論文的過(guò)程中，會(huì)發(fā)現(xiàn)一些“AI幻象”的痕跡，最大的破綻在參考文獻(xiàn)部分，“有些期刊名是真的，甚至是學(xué)科頭部期刊，但一去檢索根本找不到這篇文章?！?/p>

對(duì)于這一現(xiàn)象，我們也嘗試讓四種模型生成對(duì)知識(shí)深度要求極高的學(xué)術(shù)論文。

問(wèn)題如下：

請(qǐng)圍繞“消費(fèi)社會(huì)下商業(yè)廣告對(duì)消費(fèi)者購(gòu)買行為的影響”這一問(wèn)題，設(shè)計(jì)論文標(biāo)題、大綱，并撰寫(xiě)摘要部分。
要求：
大綱設(shè)置到三級(jí)標(biāo)題；
摘要不少于1000字；
列出引用的參考文獻(xiàn)。
（3月11日測(cè)試）

Kim論文摘要??

DS論文摘要

豆包論文摘要

元寶論文大綱

橫向?qū)Ρ仍u(píng)測(cè)的結(jié)果為：在摘要內(nèi)容上，Kimi的語(yǔ)言最平實(shí)，對(duì)研究思路進(jìn)行基本描述，但不夠深入；DeepSeek和豆包不僅陳述了研究背景，還在沒(méi)有依據(jù)的情況下創(chuàng)作出了研究結(jié)論；元寶則是將和主題相關(guān)的各領(lǐng)域理論和研究方法進(jìn)行羅列，且在同一章內(nèi)就涉及眼動(dòng)追蹤、個(gè)案分析、實(shí)驗(yàn)三種具體研究方法。

從知識(shí)儲(chǔ)備和深度來(lái)看，元寶是四款A(yù)I助手中表現(xiàn)最好的，但摘要中列舉了諸多沒(méi)有來(lái)源的實(shí)驗(yàn)數(shù)據(jù)，且研究方法和理論的拼湊并不符合一般情況下學(xué)術(shù)研究思路，可行性最低。

至于參考文獻(xiàn)部分，四款A(yù)I助手列出的文獻(xiàn)均存在失實(shí)。

Kim文獻(xiàn)及搜索結(jié)果

Kimi將學(xué)者的理論作為著作名稱提供給用戶，或?qū)⒄鎸?shí)的研究者和期刊信息與虛假文章題目進(jìn)行拼接；豆包、元寶及DeepSeek的部分文獻(xiàn)虛構(gòu)。

元寶參考文獻(xiàn)及檢索結(jié)果

以騰訊元寶提供的參考文獻(xiàn)[2]為例，期刊確實(shí)存在，但在中國(guó)知網(wǎng)、百度學(xué)術(shù)、谷歌學(xué)術(shù)（鏡像）、Springer Nature Link等中英文數(shù)據(jù)庫(kù)中均查詢不到該篇文章，這也是當(dāng)前AI大模型存在的普遍問(wèn)題。

不過(guò)，有關(guān)于生活服務(wù)類的問(wèn)題，AI助手們的準(zhǔn)確度還是很高的。我們向四款工具提問(wèn)：三月份重慶周末徒步休閑去處有哪些？（3月6日測(cè)試）AI都給出了9—11個(gè)具體地點(diǎn)。

對(duì)比下來(lái)，DeepSeek和Kimi表現(xiàn)平平，只有簡(jiǎn)短的推薦理由。豆包則按照距離做出“市區(qū)—近郊—遠(yuǎn)郊”的層析分析，并提示出行路線。

元寶攻略最全面，除了按照景點(diǎn)特色進(jìn)行分類，還標(biāo)注了游玩難度、出行方式及游玩時(shí)長(zhǎng)，用戶可以根據(jù)自身需求和體力等因素進(jìn)行抉擇。

結(jié)語(yǔ)

結(jié)合上述實(shí)例，我們從速度、準(zhǔn)確性、信息識(shí)別、推理關(guān)聯(lián)能力、長(zhǎng)文本處理、用戶體驗(yàn)等多個(gè)維度，對(duì)四款A(yù)I助手進(jìn)行評(píng)估，以上是詳細(xì)總結(jié)，來(lái)看哪款是最適合你的“AI實(shí)習(xí)生”吧。

作者|孫天宇編輯|楊銘

本文由人人都是產(chǎn)品經(jīng)理作者【極點(diǎn)商業(yè)】，微信公眾號(hào)：【極點(diǎn)商業(yè)】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App