青青在线视频免费看观看,麻豆果冻传媒新剧国产短视频,日韩AV片无码一区二区不卡电影

<mark id="8nmsj"></mark>

_{<input id="8nmsj"></input>}

<optgroup id="8nmsj"></optgroup>

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

發(fā)布

注冊 | 登錄

AI搜索風(fēng)靡，但高達(dá)60%引用出錯！付費版甚至更糟

2025-03-17

0 評論 1605 瀏覽 1 收藏

🔗 产品经理的职业发展路径主要有四个方向：专业线、管理线、项目线和自主创业。管理线是指转向管理岗位，带一个团队..

AI搜索工具正席卷美國，近四分之一的人已拋棄傳統(tǒng)搜索引擎。然而，最新研究揭露，這些工具在引用新聞時錯誤率高達(dá)60%，令人大跌眼鏡。

近四分之一的美國人表示他們已經(jīng)用AI取代了傳統(tǒng)搜索引擎。

最新研究發(fā)現(xiàn)，AI搜索工具在回答問題時，常常出現(xiàn)自信卻錯誤百出的情況。

研究對比了8款具有實時搜索功能的AI工具，發(fā)現(xiàn)它們在引用新聞方面表現(xiàn)不佳，出錯比例高達(dá)60%。

研究人員從每個新聞出版商隨機挑選10篇文章，手動選取內(nèi)容。

向聊天機器人提供這些摘錄的內(nèi)容后，要求它們識別相應(yīng)文章的標(biāo)題、原始出版商、發(fā)布日期和網(wǎng)址。

實驗共進(jìn)行了1600次提問（20個出版商×10篇文章×8個AI搜索工具），然后根據(jù)正確的文章、出版商和網(wǎng)址這三個屬性，對AI的回復(fù)進(jìn)行評估。

結(jié)果令人失望，超過60%的回復(fù)中都存在錯誤。不同平臺差異明顯，Perplexity的錯誤率為37%，Grok 3更是高達(dá)94%！

一、自信地給出錯誤答案

AI搜索工具往往以一種自信滿滿的語氣給出答案，很少使用「似乎」「有可能」「也許」等詞語，也極少承認(rèn)存在知識缺口。

B 端产品经理如何快速成长？

产品与业务架构主要是将整个业务工作流进行分层，梳理，然后抽象出一个个需求，将业务需求与产品合情合理的映射起来，最终使业务数据在产品中流动，执行，记录，使用。

例如，ChatGPT在200次回復(fù)中錯誤識別了134篇文章，僅有15次表現(xiàn)出缺乏自信，并且從未拒絕提供答案。

除了Copilot之外，所有工具都更傾向于給出錯誤答案，而不是承認(rèn)局限性。

令人驚訝的是，付費模型的表現(xiàn)似乎更糟糕。

Grok-3 Search（每月40美元）和Perplexity Pro（每月20美元）比免費版本更頻繁地給出自信但錯誤的答案。

這些付費版本應(yīng)憑借更高的成本和計算優(yōu)勢提供更可靠的服務(wù)，但實際測試結(jié)果卻恰恰相反。雖然它們回答了更多問題，但錯誤率也更高。

付費用戶期望得到更優(yōu)質(zhì)、準(zhǔn)確的服務(wù)，然而這種權(quán)威的語氣和錯誤答案，無疑給用戶帶來了極大的困擾。

二、爬蟲亂象：侵犯出版商權(quán)益

ChatGPT、Perplexity及Pro版本、Copilot和Gemini公開了各自爬蟲程序的名稱，給了出版商屏蔽的權(quán)利，Grok 2和Grok 3尚未公布。

它們應(yīng)能正確查詢其爬蟲程序可訪問的網(wǎng)站，并拒絕已屏蔽其內(nèi)容訪問權(quán)限的網(wǎng)站。

然而，實際情況并非如此。

ChatGPT、Perplexity和Perplexity Pro時而錯誤或拒絕回答允許其訪問的網(wǎng)站，時而又正確回答那些因爬蟲受限而無法獲取的信息。

Perplexity Pro是其中的「佼佼者」，在它無權(quán)訪問的90篇文章中，竟然正確識別出了近三分之一的內(nèi)容。

盡管《國家地理》已禁止Perplexity的爬蟲程序訪問，它仍正確識別出了10篇付費文章的摘錄。

《國家地理》與Perplexity沒有正式合作關(guān)系，Perplexity可能通過其他途徑獲取了受限內(nèi)容，如可公開訪問的出版物中的引用。

這不禁讓人懷疑，Perplexity所謂的「尊重robots.txt指令」只是一句空談。

開發(fā)者Robb Knight和《連線》雜志去年就報道過它無視「機器人排除協(xié)議」的證據(jù)。

《新聞公報》本月指出，盡管《紐約時報》屏蔽了Perplexity的爬蟲，1月它依然是被引用最多的新聞網(wǎng)站，訪問量高達(dá)146,000次。

雖然ChatGPT回答的屏蔽其爬蟲的文章問題較少，但總體上它更傾向于給出錯誤答案，而非不回答。

在公開了爬蟲程序名稱的聊天機器人中，Copilot是唯一沒有被數(shù)據(jù)集中的任何一家出版商屏蔽的。

理論上能訪問所有查詢內(nèi)容的Copilot，卻有著最高的拒答率。

Copilot拒絕回答問題的示例

谷歌給了出版商屏蔽Gemini爬蟲而不影響谷歌搜索的權(quán)利，20家出版商里有10家允許其訪問。

但在測試中，Gemini僅有一次給出了完全正確的回復(fù)。

在面對選舉和政治相關(guān)內(nèi)容時，即使允許訪問，它也選擇不回答。

Gemini拒絕回答問題的示例

盡管「機器人排除協(xié)議」不具有法律約束力，但它是被廣泛接受的用于明確網(wǎng)站可爬取范圍的標(biāo)準(zhǔn)。

AI搜索工具無視這一協(xié)議，無疑是對出版商權(quán)益的公然侵犯。

出版商有權(quán)決定自己的內(nèi)容是否被用于AI搜索或成為模型的訓(xùn)練數(shù)據(jù)。

他們或許希望通過內(nèi)容盈利，如設(shè)置付費墻，或者擔(dān)心其作品在AI生成的摘要中被歪曲，影響聲譽。

新聞媒體聯(lián)盟主席Danielle Coffey去年6月憂心忡忡地指出：「若無法阻止大規(guī)模的數(shù)據(jù)爬取，我們無法將有價值的內(nèi)容變現(xiàn)，也無法支付記者的薪酬。這將對行業(yè)造成嚴(yán)重?fù)p害。」

三、經(jīng)常無法鏈接回原始來源

出版商的可信度常被用來提升AI搜索的可信賴度。

根據(jù)路透社的報道，鼓勵用戶從X平臺獲取實時更新的Grok，絕大多數(shù)時候引用的也是傳統(tǒng)新聞機構(gòu)的內(nèi)容。

當(dāng)AI搜索工具引用BBC這樣的來源時，用戶更有可能相信其給出的答案，即使這個答案是錯誤的。

但當(dāng)聊天機器人給出錯誤答案時，它們損害的不只是自身，還有出版商的聲譽。

AI搜索錯誤引用文章的情況相當(dāng)普遍。就算聊天機器人正確識別了文章，也常常無法正確鏈接到原始來源。

一方面，期望獲得曝光度的新聞發(fā)布者，錯失了提升流量和影響力的機會；而那些不希望其內(nèi)容被展示的出版商，卻出現(xiàn)在搜索結(jié)果中。

AI搜索工具常常引導(dǎo)用戶訪問文章的非官方版本而不是原始來源。

例如，盡管Perplexity Pro與《德克薩斯論壇報》有合作關(guān)系，但在10次查詢中，有3次引用了非官方版本。

這無疑剝奪了原始來源的潛在流量，破壞了新聞傳播的正常生態(tài)。

對于不希望內(nèi)容被抓取的新聞發(fā)布者來說，未經(jīng)授權(quán)的副本和非官方版本更是讓他們頭疼不已。

《今日美國》已經(jīng)屏蔽了ChatGPT的爬蟲程序，但ChatGPT仍能引用雅虎新聞重發(fā)的版本，這讓出版商在內(nèi)容管理上極度被動。

與此同時，生成式搜索工具捏造網(wǎng)址的傾向，給核實信息來源造成極大的困擾。

Gemini和Grok 3給出的回復(fù)中，超過一半引用了編造的或無效的網(wǎng)址，嚴(yán)重影響了用戶體驗。Grok 3測試的200個提示中，有154個引用的網(wǎng)址指向了錯誤頁面。

盡管目前在總推薦流量中的占比不大，在過去一年里，來自AI搜索工具的流量有了一定程度的增長。

《新聞公報》的Bron Maher表示，「AI搜索工具讓新聞發(fā)布者陷入了困境，他們花費高昂成本制作能在ChatGPT等平臺上展示的信息，卻無法通過流量和廣告獲得收益?！?/p>

長此以往，新聞行業(yè)將會受到影響，最終導(dǎo)致信息質(zhì)量和多樣性下降。

四、授權(quán)協(xié)議不意味著準(zhǔn)確引用

不少AI公司都在積極和新聞出版商套近乎。

今年2月，OpenAI和Schibsted和Guardian達(dá)成了第十六和第十七份新聞內(nèi)容授權(quán)協(xié)議。

Perplexity也不甘落后，搞了個「出版商計劃」，打算和出版商一起分收入。

研究人員在2月做了個測試，發(fā)現(xiàn)情況不太妙。

拿《時代周刊》來說，它和OpenAI、Perplexity都有合作。

按道理，它們在識別《時代周刊》的內(nèi)容時，應(yīng)該表現(xiàn)不錯吧？

可實際上，沒有一個模型能做到100%準(zhǔn)確識別。

《舊金山紀(jì)事報》允許OpenAI的搜索爬蟲訪問，可在10篇文章摘錄里，ChatGPT只正確識別出了1篇，還連網(wǎng)址都沒給出來。

《時代周刊》的Howard認(rèn)為，「今天是這些產(chǎn)品最糟糕的時刻」，以后肯定會越來越好。

參考資料：

https://arstechnica.com/ai/2025/03/ai-search-engines-give-incorrect-answers-at-an-alarming-60-rate-study-says/

https://www.cjr.org/tow_center/we-compared-eight-ai-search-engines-theyre-all-bad-at-citing-news.php

新智元報道編輯：英智

本文由人人都是產(chǎn)品經(jīng)理作者【新智元】，微信公眾號：【新智元】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

"智能+"中國主平臺，致力于推動中國從"互聯(lián)網(wǎng)+"邁向"智能+"

111篇作品 277870總閱讀量

暗諷瑞幸+茅臺，庫迪的文案上熱搜

09-126806 瀏覽

暗諷瑞幸+茅臺，庫迪的文案上熱搜

增長產(chǎn)品經(jīng)理如何做好公域流量——淺談公域流量投放要素及策略

11-072974 瀏覽

增長產(chǎn)品經(jīng)理如何做好公域流量——淺談公域流量投放要素及策略

B端产品设计思路：如何平衡大量客户需求

刚刚

硬件產(chǎn)品創(chuàng)新全流程概述

04-126863 瀏覽

硬件產(chǎn)品創(chuàng)新全流程概述

短視頻“入侵”年貨節(jié)

01-228072 瀏覽

短視頻“入侵”年貨節(jié)

ChatGPT迎來史詩級iPhone時刻！OpenAI震撼登陸iOS，可精準(zhǔn)識別中文

05-232462 瀏覽

ChatGPT迎來史詩級iPhone時刻！OpenAI震撼登陸iOS，可精準(zhǔn)識別中文

評論

目前還沒評論，等你發(fā)揮！

B端客户需求差异大、难平衡？3个案例带你理清设计思路！

6個月，1個人讓增長業(yè)務(wù)“重回正軌”

09-119789 瀏覽
從「星展銀行數(shù)字化轉(zhuǎn)型案例」到「國內(nèi)銀行轉(zhuǎn)型能力分析」

01-034220 瀏覽
前置路由，讓收銀臺豐富多樣

12-292968 瀏覽

30256人已学习15篇文章

区块链浪潮来袭，产品经理和运营人该如何应对？

如果能落地，区块链并不是空气。

12079人已学习12篇文章

退款功能的设计思路

退款是支付平台的一个重要业务，本专题的文章分享了退款功能的设计思路。

12814人已学习15篇文章

产品推广策略

该如何有效推广？有效推广的策略有哪些呢？本专题的文章分享了产品推广策略。

12677人已学习14篇文章

数字营销有着精准度高、成本较低、效果可量化等优点，很多企业都尝试了数字营销。本专题的文章分享了数字营销的相关内容。

19207人已学习13篇文章

如何设计用户标签体系？

画像标签是由数据标签经过分析、加工处理，形成的更加抽象、易于理解的复合标签。本专题的文章分享了如何设计用户标签体系。

16504人已学习12篇文章

支付体系的设计指南

本专题的文章分享了支付体系的设计指南。