天堂资源最新版在线,国产www视频

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

“越長”就越強(qiáng)？為何通義千問卷不動(dòng)Kimi

AI新智能

2024-04-29

0 評(píng)論 1871 瀏覽 1 收藏

可以說在Kimi的刺激下，國內(nèi)的大模型也開始在長文本能力上下功夫了，那么，國產(chǎn)大模型的長文本能力究竟如何？不妨來看看本文的測評(píng)結(jié)果。

最近，受到Kimi大火的刺激，國內(nèi)大模型們又開始了新一輪“我有多長”的比賽了。

在Kimi 目前200萬文本長度打底的情況下，其他各家沒個(gè)四五百萬打底，都不好意思見人了。

比如360那個(gè)“智腦”，號(hào)稱能處理500萬字長文本，而百度稍微低調(diào)些，打算下個(gè)月開放200萬-400萬的長文本能力。

最狂的是通義千問，直接升級(jí)到了1000萬文本長度，成了全球文檔處理容量第一的AI。

但是，“越長”就真的“越強(qiáng)”嗎？

在長文本方面，想成為真正的“大家伙”，可不僅僅只是把所有知識(shí)都灌進(jìn)肚子里就行了。光是囫圇吞不算啥，得能穿針引線，理解和應(yīng)用其中的內(nèi)容、知識(shí)，才能幫用戶解決真正的問題。

所以，今天我們不妨先拿通義千問這個(gè)“出頭鳥”來開開刀，用幾個(gè)最為常見的長文本任務(wù)，好好拿捏一下這上千萬的文本能力，究竟有多少含金量。

一、三大考驗(yàn)

1. 新聞?wù)?/h3>
今天咱們要干的第一個(gè)長文本活兒，就是最常見的新聞?wù)獨(dú)w納。

因?yàn)槟切┟襟w搞的大新聞啊、深度調(diào)查啊，為了把事情說透徹，堆砌了一大堆事實(shí)、數(shù)據(jù)、例子，文章就賊拉長。

現(xiàn)在呢，咱們得把這些長文章濃縮一下，簡單直白地說說重點(diǎn)。

在這里，我們選擇的文章，是36氪的文章《卷進(jìn)前1%，誰能拿下新藥出海下一個(gè)百億美元交易？》

首先來看看通義千問的表現(xiàn)。

從這個(gè)總結(jié)的結(jié)果來看，通義千問基本覆蓋了文章的主要信息點(diǎn)，并簡要地對(duì)每個(gè)要點(diǎn)進(jìn)行了摘要，行文還算流暢。

但是，仔細(xì)看下來，這樣的總結(jié)長度較長，缺乏清晰的層次結(jié)構(gòu)，用戶需要投入更多時(shí)間和精力去梳理歸納要點(diǎn)。

此外，其在總結(jié)時(shí)，很多地方是直接摘錄了原文的風(fēng)格，沒有對(duì)內(nèi)容進(jìn)行高度壓縮概括，效率相對(duì)較低。

接下來再看看kimi的表現(xiàn)。

相較之下，Kimi的總結(jié)結(jié)構(gòu)層次分明，將要點(diǎn)分為多個(gè)方面進(jìn)行陳述，使得用戶可以快速掌握文章的框架和重點(diǎn)內(nèi)容。

同時(shí)，從覆蓋面來看，Kimi總結(jié)的要點(diǎn)一共有9個(gè)，涉及了出海形式、創(chuàng)新要求、BD對(duì)比IPO、長期發(fā)展等核心內(nèi)容，反映了對(duì)文章信息的更全面梳理。

而通義千問的總結(jié)雖然內(nèi)容也算完整，但遺漏了一些重點(diǎn)，比如沒有涉及創(chuàng)新和專利、國際化能力等等等。

2. 研報(bào)分析

如果說，對(duì)長篇新聞的總結(jié)，體現(xiàn)的是大模型在長文本方面的主旨概括能力，那么接下來的研報(bào)分析，考驗(yàn)的則是在長文本下，大模型推理能力的表現(xiàn)。

在這里，我們上傳了一份長達(dá)60頁的企業(yè)研報(bào)，來分別測試通義千問和Kimi的表現(xiàn)。

這份研報(bào)這份研報(bào)主要包括了一家名為元隆雅圖的企業(yè)的業(yè)務(wù)戰(zhàn)略、財(cái)務(wù)表現(xiàn)、以及市場前景。

在測試中，我們要求通義千問對(duì)該企業(yè)在AI時(shí)代可能具有的潛在優(yōu)勢進(jìn)行分析。

從結(jié)果來看，雖然其生成了一段“看似”詳細(xì)和具體的答案，但如果仔細(xì)觀察，就會(huì)發(fā)現(xiàn)這樣的回答，在很多要點(diǎn)上，都是比較重復(fù)的。

例如“IP資源智能化運(yùn)營” 與“IP資產(chǎn)數(shù)字化轉(zhuǎn)型”，以及“新媒體營銷智能化”與“一體化營銷服務(wù)升級(jí)”，這些實(shí)際上都可以合并成一個(gè)點(diǎn)。

那相較之下，Kimi的表現(xiàn)怎樣呢？

可以看到，Kimi所分析出的要點(diǎn)，明顯比通義千問范圍更廣，維度更多，并且每個(gè)點(diǎn)都直擊主題。這點(diǎn)在進(jìn)行長文本分析時(shí)，就顯得尤為重要。

對(duì)短文本來說，集中精力、深入挖掘一兩個(gè)重點(diǎn)就可以搞定。但長文本就不一樣了，首先,長文本內(nèi)容豐富、層次繁多，單一視角顯然是捕捉不了全貌的。

再者，從概率上說，切入的角度越多，區(qū)別度越大，碰撞出新思路和想法的可能性也就越大。這也很符合某種智能的“涌現(xiàn)”規(guī)律。

3. 小說閱讀

最后，咱們?cè)賮韨€(gè)有點(diǎn)挑戰(zhàn)的。

這不像之前某些簡單的測試，光讓模型復(fù)述下小說情節(jié)就完事了。還得在通讀全文的基礎(chǔ)上，按咱說的特殊文風(fēng)，把情節(jié)重新講出來。這考驗(yàn)的就是一個(gè)指令遵循能力。

這里，我們選擇的是科幻小說《沙丘》。

我們的要求是：《史記》的風(fēng)格，概述《沙丘》的主要情節(jié)。

雖然通義千問在剛開始時(shí)，勉強(qiáng)保持了相應(yīng)的文風(fēng)，但從第三段開始，整個(gè)文風(fēng)又變成了現(xiàn)代文，沒能一以貫之地保持。

可以看出，在這一回合，Kimi幾乎完勝，不僅情節(jié)敘述得更為完整、詳細(xì)，而且?guī)缀鯊氖贾两K地保持了接近《史記》的敘述風(fēng)格。

這顯示了Kimi在閱讀長文本時(shí)，強(qiáng)大的信息提取能力和指令遵循能力。

二、跟風(fēng)與內(nèi)卷，救不了國產(chǎn)大模型

可以看出，在長文本方面，Kimi無論是總結(jié)能力、分析能力，還是理解執(zhí)行指令的能力，目前都把通義千問給壓下去了。

以通義千問為代表的這類國產(chǎn)大模型，一上來就號(hào)稱數(shù)百萬，乃至上千萬的文本長度，結(jié)果在實(shí)測中搞出了“長文本室溫超導(dǎo)”的感覺，這說明了，長文本這事兒，還真不是“越長越強(qiáng)?！?/strong>

之前，對(duì)于文本窗口的長度，月之暗面的CEO楊植麟就表示：“不能只提升窗口，不能只看數(shù)字，今天是幾百萬還是多少億的窗口沒有意義。你要看它在這個(gè)窗口下能實(shí)現(xiàn)的推理能力、the faithfulness的能力（對(duì)原始信息的忠實(shí)度）、the instruction following的能力（遵循指令的能力）?！?/p>

換言之，只有在這些核心能力方面展現(xiàn)出了真本事，你的長文本能力才真算數(shù)。

倘若不好好修煉“內(nèi)功”，對(duì)“片段級(jí)遞歸”、“相對(duì)位置編碼”等一系列重要的模型機(jī)制不夠諳熟，只是打激素式地增加文本長度，最終的結(jié)果，除了跟風(fēng)式地蹭蹭熱度，徒增些內(nèi)卷的負(fù)擔(dān)外，對(duì)中國大模型的發(fā)展實(shí)無裨益。

作者：V

來源公眾號(hào)：AI新智能（ID：alpAIworks），一個(gè)致力于探索人工智能對(duì)商業(yè)世界和社會(huì)影響的平臺(tái)。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @AI新智能授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

Kimi 大模型通義千問長文本

AI新智能

一個(gè)致力于探索人工智能對(duì)商業(yè)世界和社會(huì)影響的平臺(tái)。

44篇作品 98612總閱讀量

為你推薦

我的產(chǎn)品方法論分享：產(chǎn)品需求方案中要包含哪些核心要素？

08-178661 瀏覽

京東百億補(bǔ)貼項(xiàng)目1號(hào)位確定，電商價(jià)格戰(zhàn)再次打響

02-273746 瀏覽

項(xiàng)目再次關(guān)停、新品如期上線，小紅書出海堅(jiān)持做垂類社區(qū)

04-123478 瀏覽

鯨探、薄盒、頭號(hào)藏品，數(shù)藏一級(jí)梯隊(duì)開始“放長線，釣大魚”

03-065240 瀏覽

大廠和運(yùn)營商，在云計(jì)算打起來了

06-022429 瀏覽

評(píng)論

評(píng)論請(qǐng)登錄

目前還沒評(píng)論，等你發(fā)揮！

為你推薦

To G、To B、To C三個(gè)市場端都做的產(chǎn)品經(jīng)理“跑路指南”

05-2311170 瀏覽

五一來了，民宿老板毀約了

04-252857 瀏覽

萬字長文，四句口訣搞懂支付交易

12-144415 瀏覽

推荐专题更多专题

社群
付费群 | 免费群

快訊
查看更多

熱門文章

AI編程如何挑選合適的大模型？4個(gè)階段+6個(gè)建議

05-04

小紅書玄學(xué)博主：用AI塔羅牌解讀模板，知識(shí)付費(fèi)月入過萬

05-06

到現(xiàn)在還沒用過AI寫文章，有跟我一樣的微信公眾號(hào)作者嗎？

05-04

元器件電商客戶運(yùn)營01–如何獲取與穩(wěn)住客戶

05-06

看微信商業(yè)化——支付后搖一搖

05-01

京東VS美團(tuán)：“外賣大戰(zhàn)”的終局推演

05-03

文章導(dǎo)航

一、三大考驗(yàn)

二、跟風(fēng)與內(nèi)卷，救不了國產(chǎn)大模型

關(guān)于
人人都是產(chǎn)品經(jīng)理（woshipm.com）是以產(chǎn)品經(jīng)理、運(yùn)營為核心的學(xué)習(xí)、交流、分享平臺(tái)，集媒體、培訓(xùn)、社群為一體，全方位服務(wù)產(chǎn)品人和運(yùn)營人，成立12年舉辦在線講座1000+期，線下分享會(huì)500+場，產(chǎn)品經(jīng)理大會(huì)、運(yùn)營大會(huì)50+場，覆蓋北上廣深杭成都等20個(gè)城市，在行業(yè)有較高的影響力和知名度。平臺(tái)聚集了眾多BAT美團(tuán)京東滴滴360小米網(wǎng)易等知名互聯(lián)網(wǎng)公司產(chǎn)品總監(jiān)和運(yùn)營總監(jiān)，他們?cè)谶@里與你一起成長。

合作伙伴

鏈接

隱私政策

投稿須知

意見反饋

幫助中心

公眾號(hào)

視頻號(hào)

友情鏈接

PM265

產(chǎn)品經(jīng)理導(dǎo)航

起點(diǎn)課堂

豬八戒網(wǎng)

人才熱線

伙伴云表格

網(wǎng)易易盾

個(gè)推

友盟+

糧倉

創(chuàng)業(yè)邦

每日?qǐng)?bào)告

鳥哥筆記

慕課網(wǎng)

旗下品牌: 起點(diǎn)課堂 | 運(yùn)營派 | 糧倉企微管家
?2010-2024 - 人人都是產(chǎn)品經(jīng)理 - 粵ICP備14037330號(hào)-粵公網(wǎng)安備 44030502001309號(hào)
廣播電視節(jié)目制作經(jīng)營許可證（粵）字第03109號(hào) 增值電信業(yè)務(wù)經(jīng)營許可證粵B2-20190788 版權(quán)所有 ? 深圳聚力創(chuàng)想信息科技有限公司

“越長”就越強(qiáng)？為何通義千問卷不動(dòng)Kimi

一、三大考驗(yàn)

2. 研報(bào)分析

3. 小說閱讀

二、跟風(fēng)與內(nèi)卷，救不了國產(chǎn)大模型

“越長”就越強(qiáng)？為何通義千問卷不動(dòng)Kimi

二、跟風(fēng)與內(nèi)卷，救不了國產(chǎn)大模型