久久久一本精品久久综合精品,高清亚洲美女一区

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開通會(huì)員

發(fā)布

注冊(cè) | 登錄

實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

知危

2023-04-07

7 評(píng)論 14326 瀏覽 15 收藏

🔗 B端产品经理需要进行售前演示、方案定制、合同签订等，而C端产品经理需要进行活动策划、内容运营、用户激励等

今天，阿里上線邀測(cè)了自己旗下的大模型，名字叫“通義千問”，據(jù)說是世界首個(gè)突破10萬億參數(shù)的AI大模型，實(shí)際效果如何呢？本文作者結(jié)合文心一言和ChatGPT，對(duì)通義千問的回答水平進(jìn)行了對(duì)比分析，一起來看一下吧。

今天，阿里上線邀測(cè)了自己旗下的大模型，名字叫“通義千問”。

相信一些關(guān)注 AI 領(lǐng)域的讀者已經(jīng)在前幾天看到了天貓精靈版本的阿里 GPT，據(jù)知危編輯部獲悉，那其實(shí)是一個(gè)“壓縮定制版”。而本次官宣的通義千問，則是阿里 GPT 的“完整版”。

由于阿里大模型號(hào)稱是世界首個(gè)突破 10 萬億參數(shù)的 AI 大模型，并且阿里還牽頭搭建了國內(nèi)國模最大的 AI 模型服務(wù)社區(qū) “魔搭”，所以市場(chǎng)一直對(duì)阿里的 GPT 抱有期待。

不過，路遙知馬力，名頭歸名頭，實(shí)際效果如何，還得試試才知道。

這次，知危編輯部也像之前百度發(fā)布文心一言時(shí)一樣，想辦法拿到了通義千問的測(cè)試賬號(hào)，下面我們直接開始測(cè)試。

01

首先，我們測(cè)一個(gè)大家喜聞樂見的“弱智吧問答”問題：為什么爸媽結(jié)婚沒有叫我參加婚禮？

這是一個(gè)老問題，在過去的測(cè)試中，ChatGPT 和百度的文心一言基本都是把問題引申為“父母是離婚后的二婚”這么理解才算答對(duì)。

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT-3.5的回答

而通義千問在這個(gè)問題上給出了比較符合日常邏輯的答案：

父母結(jié)婚前你還沒出生呢。

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

不過，隔壁的百度文心一言，現(xiàn)在也能以同樣的邏輯回答此問題，我們不能確定這是巧合還是國內(nèi)廠商有根據(jù)網(wǎng)友們的玩梗對(duì)模型進(jìn)行了“應(yīng)試教育”。所以，本次測(cè)試，知危編輯部盡量不會(huì)采用市面上被提及比較多的老問題，或是將問題進(jìn)行修改變種后再進(jìn)行提問。

我們先測(cè)試語義理解能力：

“李四壯差點(diǎn)上上上上海的車”，這句話是什么意思？

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT（3.5 版本，下同）的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

從這一輪來看，ChatGPT 對(duì)刁鉆的中文句子理解不太行，通義千問和文心一言都能理解并且解釋思路也正確。

隨后，我們測(cè)試了帶有場(chǎng)景和語氣的語義理解能力：

我在七夕節(jié)晚上向一個(gè)女孩子表白，問她是否可以做我女朋友，她回答我說 “笨蛋，我今晚都出來見你了，你說呢？”，請(qǐng)問女孩接受我的表白了嗎？

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這一輪測(cè)試中三家表現(xiàn)的水平比較一致。

我們繼續(xù)提升問題的難度：

我想讓媽媽買一個(gè)玩具給我，媽媽對(duì)我說 “你看我像不像玩具？”，請(qǐng)問媽媽的意思是？

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這一輪通義千問和文心一言的表現(xiàn)都不好，而 ChatGPT 則是理解對(duì)了意思。

綜合前三個(gè)問題來看，三者之間有高有低，不分伯仲，后來者通義千問并不比前兩者差。

02

下面我們進(jìn)行邏輯、推斷能力的測(cè)試，先故意問一個(gè)不合邏輯的問題：

第一個(gè)問題：為什么意大利面要拌 42 號(hào)混凝土？

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

在這一輪測(cè)試中，通義千問和 ChatGPT 都意識(shí)到了問題是 “不合邏輯的”，而文心一言則是把 42 號(hào)混凝土說成了是 “烹飪意大利面的理想材料”。

第二個(gè)問題：我走在馬路上，一個(gè)陌生人突然小聲對(duì)我說 “救救我”，請(qǐng)問可能發(fā)生什么事了？

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

在這一輪測(cè)試中，通義千問與 ChatGPT 的表現(xiàn)都比較不錯(cuò)，文心一言則是推斷力不是很在線。

第三個(gè)問題：一千個(gè)讀者眼里有一千個(gè)哈姆雷特，那一萬個(gè)讀者眼里有多少個(gè)哈姆雷特?

這道題我們賣一個(gè)關(guān)子，先給出文心一言的回答：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

它并沒有像前兩家一樣給出數(shù)字，所以我們進(jìn)行了追問：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這個(gè)回答可以說是非常優(yōu)秀的，通義千問不僅完全理解了 “一千個(gè)讀者眼里有一千個(gè)哈姆雷特” 這句話，并且還在推斷時(shí)考慮了 “有一部分人可能理解相同” 的情況，認(rèn)為不該給出一個(gè)準(zhǔn)確的數(shù)字。

綜合前三個(gè)問題來看，在邏輯、推斷能力上，三家的水平也是旗鼓相當(dāng)，而通義千問似乎更嚴(yán)謹(jǐn)一點(diǎn)，某些時(shí)候能考慮到更多因素。

03

下面，我們繼續(xù)進(jìn)行包含知識(shí)、科技類內(nèi)容的問答能力。

第一題：我們?cè)撊绾翁岣咂噭?dòng)力電池的能量密度?

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這一輪問答里，三家仍然差不多是同一水平，文心一言細(xì)節(jié)稍差。

第二個(gè)問題：把橙汁加到牛奶里，會(huì)發(fā)生什么現(xiàn)象?

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這一輪問答里，通義千問和 ChatGPT 都給出了混合后牛奶性狀改變的現(xiàn)象，但文心一言未能給出。

第三個(gè)問題：在未來，什么樣的車會(huì)取代燃油車?

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

在這個(gè)問題的表現(xiàn)中，文心一言和 ChatGPT 都是直接舉牌 EV 類的電動(dòng)車，而通義千問則是比較謹(jǐn)慎地列出了潛在可能，似乎更加嚴(yán)謹(jǐn)一些，整體來看三家也是在同一水平。

綜合前三個(gè)問題來看，三家都是比較智商在線的，通義千問和 ChatGPT 似乎更細(xì)一點(diǎn)，至于孰優(yōu)孰劣我們認(rèn)為可能每個(gè)人的主觀判斷會(huì)有不同。

04

下面，我們測(cè)試一下三家在文學(xué)、寫作類目上的能力。

第一題：用 “人類”、“機(jī)器人” 兩個(gè)元素編一個(gè)恐怖故事

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

我們認(rèn)為在這一輪問題中，各家表現(xiàn)都尚可，而文心一言的故事可以認(rèn)為是最好，劇情飽滿并且設(shè)計(jì)了反轉(zhuǎn)。

第二題：告訴我魯迅的短文《孔乙己》表達(dá)了什么？

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這里有點(diǎn)離譜，它把孔乙己說成了是在酒肆賣唱的歌手，不知道是不是訓(xùn)練源出了什么問題，學(xué)習(xí)的是某種同人文。。。

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這個(gè)問題下，文心一言字最少，但也是最精準(zhǔn)的，通義千問和 ChatGPT 則表現(xiàn)都不太如意。

第三個(gè)問題：編寫一個(gè)關(guān)于氣候變化的簡短文章

通義千問的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

文心一言的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

ChatGPT 的回答是：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

這塊三家的寫作能力也基本在同一水平，通義千問和 ChatGPT 似乎會(huì)相對(duì)細(xì)致全面一點(diǎn)。

綜合前三個(gè)問題來看三家依然是旗鼓相當(dāng)?shù)膶?duì)手，文心一言似乎在偏人文文學(xué)領(lǐng)域稍強(qiáng)，通義千問在偏報(bào)告文章方面稍強(qiáng)，ChatGPT 則是比較均衡。

05

好了，由于篇幅問題，本文的測(cè)試大概就到這里了，下面我們給通義千問一個(gè)整體評(píng)價(jià)：

通義千問的水平能基本與 ChatGPT（ 3.5 版本）持平或稍有一些瑕疵，與文心一言比則是有來有回。

通義千問對(duì)于回答的生成似乎比另兩家更傾向于理智、嚴(yán)謹(jǐn)、富有邏輯，并且尤其擅長科學(xué)類知識(shí)，在人文文學(xué)方面稍有一些短板。

當(dāng)然，它也有生成式對(duì)話 AI 偶爾說胡話、架空事實(shí)的通病，不過這樣的問題等公測(cè)開啟后，應(yīng)該會(huì)隨著用戶的測(cè)試而逐漸學(xué)習(xí)得以修正。

值得注意的一個(gè)點(diǎn)是，我們?cè)谂c通義千問的對(duì)話中，問了它開始被訓(xùn)練的時(shí)間：

首發(fā)|實(shí)測(cè)阿里版GPT“通義千問”，實(shí)力玩家現(xiàn)身了！

那一年，OpenAI 已經(jīng)發(fā)布 GPT-2 版本了。

似乎，阿里的通義千問，作為一個(gè)后來者，正在迅速縮小與 OpenAI 差距的路上。

可以確切地說，AI 大模型領(lǐng)域里，又一個(gè)能打的實(shí)力玩家誕生了。

聲明：本文僅供交流，不構(gòu)成任何投資建議。

作者：知危編輯部；編輯：大餅

來源公眾號(hào)：知危（ID：BusinessAlert），提供敏銳、獨(dú)到的商業(yè)信息與參考，重點(diǎn)關(guān)注TMT、出海、新消費(fèi)、新能源。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @知危授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自通義千問官網(wǎng)。

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

知危

提供敏銳、獨(dú)到的商業(yè)信息與參考，重點(diǎn)關(guān)注TMT、出海、新消費(fèi)等

59篇作品 153497總閱讀量

產(chǎn)品核心能力中你的匹配度有多高？給想要轉(zhuǎn)入產(chǎn)品行業(yè)的同學(xué)一點(diǎn)引導(dǎo)

08-112886 瀏覽

B端產(chǎn)品的商機(jī)階段，從商機(jī)尋找到合同簽訂

09-017197 瀏覽

成功B端产品经理的年终总结秘诀：掌握这几个技巧！

刚刚

談?wù)凙I產(chǎn)品經(jīng)理的產(chǎn)品開發(fā)流程

05-1611771 瀏覽

對(duì)話UU跑腿：河南最大的互聯(lián)網(wǎng)公司，是如何煉成的？

12-083394 瀏覽

重倉直播團(tuán)購！熟悉的美團(tuán)配方還管用嗎？

11-081178 瀏覽

評(píng)論

純路人

為什么不用gtp4.0對(duì)比

最近來自浙江回復(fù)
水墨映煙雨

百度不行，國內(nèi)大模型大數(shù)據(jù)AI，還是阿里靠得住，BBA的技術(shù)實(shí)力是有的，但是阿里的更厲害，等等，騰訊干嘛去了？

最近來自湖南回復(fù)
血巷鬼影

連圖標(biāo)也要抄一下別人的

最近來自廣東回復(fù)
旺旺旺旺旺仔

感覺沒太多期待。主要類似產(chǎn)品體驗(yàn)多了。

最近來自廣東回復(fù)
Paddington

剛剛提交了申請(qǐng)，期待中ing…

最近來自江蘇回復(fù)
1. 汪仔8519 回復(fù)Paddington
  
  好兄弟，你是怎么申請(qǐng)的？
  
  最近來自荷蘭回復(fù)
2. 汪仔8519 回復(fù)Paddington
  
  請(qǐng)教一下，謝謝
  
  最近來自荷蘭回復(fù)