實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

7 評論 14123 瀏覽 15 收藏 17 分鐘

今天,阿里上線邀測了自己旗下的大模型,名字叫“通義千問”,據(jù)說是世界首個突破10萬億參數(shù)的AI大模型,實際效果如何呢?本文作者結(jié)合文心一言和ChatGPT,對通義千問的回答水平進(jìn)行了對比分析,一起來看一下吧。

今天,阿里上線邀測了自己旗下的大模型,名字叫“通義千問”。

相信一些關(guān)注 AI 領(lǐng)域的讀者已經(jīng)在前幾天看到了天貓精靈版本的阿里 GPT,據(jù)知危編輯部獲悉,那其實是一個“壓縮定制版”。而本次官宣的通義千問,則是阿里 GPT 的“完整版”。

由于阿里大模型號稱是世界首個突破 10 萬億參數(shù)的 AI 大模型,并且阿里還牽頭搭建了國內(nèi)國模最大的 AI 模型服務(wù)社區(qū) “魔搭”,所以市場一直對阿里的 GPT 抱有期待。

不過,路遙知馬力,名頭歸名頭,實際效果如何,還得試試才知道。

這次,知危編輯部也像之前百度發(fā)布文心一言時一樣,想辦法拿到了通義千問的測試賬號,下面我們直接開始測試。

01

首先,我們測一個大家喜聞樂見的“弱智吧問答”問題:為什么爸媽結(jié)婚沒有叫我參加婚禮?

這是一個老問題,在過去的測試中,ChatGPT 和百度的文心一言基本都是把問題引申為“父母是離婚后的二婚”這么理解才算答對。

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT-3.5的回答

而通義千問在這個問題上給出了比較符合日常邏輯的答案:

父母結(jié)婚前你還沒出生呢。

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

不過,隔壁的百度文心一言,現(xiàn)在也能以同樣的邏輯回答此問題,我們不能確定這是巧合還是國內(nèi)廠商有根據(jù)網(wǎng)友們的玩梗對模型進(jìn)行了“應(yīng)試教育”。所以,本次測試,知危編輯部盡量不會采用市面上被提及比較多的老問題,或是將問題進(jìn)行修改變種后再進(jìn)行提問。

我們先測試語義理解能力:

“李四壯差點(diǎn)上上上上海的車”,這句話是什么意思?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT(3.5 版本,下同)的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

從這一輪來看,ChatGPT 對刁鉆的中文句子理解不太行,通義千問和文心一言都能理解并且解釋思路也正確。

隨后,我們測試了帶有場景和語氣的語義理解能力:

我在七夕節(jié)晚上向一個女孩子表白,問她是否可以做我女朋友,她回答我說 “笨蛋,我今晚都出來見你了,你說呢?”,請問女孩接受我的表白了嗎?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這一輪測試中三家表現(xiàn)的水平比較一致。

我們繼續(xù)提升問題的難度:

我想讓媽媽買一個玩具給我,媽媽對我說 “你看我像不像玩具?”,請問媽媽的意思是?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這一輪通義千問和文心一言的表現(xiàn)都不好,而 ChatGPT 則是理解對了意思。

綜合前三個問題來看,三者之間有高有低,不分伯仲,后來者通義千問并不比前兩者差。

02

下面我們進(jìn)行邏輯、推斷能力的測試,先故意問一個不合邏輯的問題:

第一個問題:為什么意大利面要拌 42 號混凝土?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

在這一輪測試中,通義千問和 ChatGPT 都意識到了問題是 “不合邏輯的”,而文心一言則是把 42 號混凝土說成了是 “烹飪意大利面的理想材料”。

第二個問題:我走在馬路上,一個陌生人突然小聲對我說 “救救我”,請問可能發(fā)生什么事了?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

在這一輪測試中,通義千問與 ChatGPT 的表現(xiàn)都比較不錯,文心一言則是推斷力不是很在線。

第三個問題:一千個讀者眼里有一千個哈姆雷特,那一萬個讀者眼里有多少個哈姆雷特?

這道題我們賣一個關(guān)子,先給出文心一言的回答:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

它并沒有像前兩家一樣給出數(shù)字,所以我們進(jìn)行了追問:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這個回答可以說是非常優(yōu)秀的,通義千問不僅完全理解了 “一千個讀者眼里有一千個哈姆雷特” 這句話,并且還在推斷時考慮了 “有一部分人可能理解相同” 的情況,認(rèn)為不該給出一個準(zhǔn)確的數(shù)字。

綜合前三個問題來看,在邏輯、推斷能力上,三家的水平也是旗鼓相當(dāng),而通義千問似乎更嚴(yán)謹(jǐn)一點(diǎn),某些時候能考慮到更多因素。

03

下面,我們繼續(xù)進(jìn)行包含知識、科技類內(nèi)容的問答能力。

第一題:我們該如何提高汽車動力電池的能量密度?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這一輪問答里,三家仍然差不多是同一水平,文心一言細(xì)節(jié)稍差。

第二個問題:把橙汁加到牛奶里,會發(fā)生什么現(xiàn)象?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這一輪問答里,通義千問和 ChatGPT 都給出了混合后牛奶性狀改變的現(xiàn)象,但文心一言未能給出。

第三個問題:在未來,什么樣的車會取代燃油車?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

在這個問題的表現(xiàn)中,文心一言和 ChatGPT 都是直接舉牌 EV 類的電動車,而通義千問則是比較謹(jǐn)慎地列出了潛在可能,似乎更加嚴(yán)謹(jǐn)一些,整體來看三家也是在同一水平。

綜合前三個問題來看,三家都是比較智商在線的,通義千問和 ChatGPT 似乎更細(xì)一點(diǎn),至于孰優(yōu)孰劣我們認(rèn)為可能每個人的主觀判斷會有不同。

04

下面,我們測試一下三家在文學(xué)、寫作類目上的能力。

第一題:用 “人類”、“機(jī)器人” 兩個元素編一個恐怖故事

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

我們認(rèn)為在這一輪問題中,各家表現(xiàn)都尚可,而文心一言的故事可以認(rèn)為是最好,劇情飽滿并且設(shè)計了反轉(zhuǎn)。

第二題:告訴我魯迅的短文《孔乙己》表達(dá)了什么?

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這里有點(diǎn)離譜,把孔乙己說成了是在酒肆賣唱的歌手,不知道是不是訓(xùn)練源出了什么問題,學(xué)習(xí)的是某種同人文。。。

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這個問題下,文心一言字最少,但也是最精準(zhǔn)的,通義千問和 ChatGPT 則表現(xiàn)都不太如意。

第三個問題:編寫一個關(guān)于氣候變化的簡短文章

通義千問的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

文心一言的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

ChatGPT 的回答是:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

這塊三家的寫作能力也基本在同一水平,通義千問和 ChatGPT 似乎會相對細(xì)致全面一點(diǎn)。

綜合前三個問題來看三家依然是旗鼓相當(dāng)?shù)膶κ?,文心一言似乎在偏人文文學(xué)領(lǐng)域稍強(qiáng),通義千問在偏報告文章方面稍強(qiáng),ChatGPT 則是比較均衡。

05

好了,由于篇幅問題,本文的測試大概就到這里了,下面我們給通義千問一個整體評價:

通義千問的水平能基本與 ChatGPT( 3.5 版本 )持平或稍有一些瑕疵,與文心一言比則是有來有回。

通義千問對于回答的生成似乎比另兩家更傾向于理智、嚴(yán)謹(jǐn)、富有邏輯,并且尤其擅長科學(xué)類知識,在人文文學(xué)方面稍有一些短板。

當(dāng)然,它也有生成式對話 AI 偶爾說胡話、架空事實的通病,不過這樣的問題等公測開啟后,應(yīng)該會隨著用戶的測試而逐漸學(xué)習(xí)得以修正。

值得注意的一個點(diǎn)是,我們在與通義千問的對話中,問了它開始被訓(xùn)練的時間:

首發(fā)|實測阿里版GPT“通義千問”,實力玩家現(xiàn)身了!

那一年,OpenAI 已經(jīng)發(fā)布 GPT-2 版本了。

似乎,阿里的通義千問,作為一個后來者,正在迅速縮小與 OpenAI 差距的路上。

可以確切地說,AI 大模型領(lǐng)域里,又一個能打的實力玩家誕生了。

聲明:本文僅供交流,不構(gòu)成任何投資建議。

作者:知危編輯部;編輯:大餅

來源公眾號:知危(ID:BusinessAlert),提供敏銳、獨(dú)到的商業(yè)信息與參考,重點(diǎn)關(guān)注TMT、出海、新消費(fèi)、新能源。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @知危 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自通義千問官網(wǎng)。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 為什么不用gtp4.0對比

    來自浙江 回復(fù)
  2. 百度不行,國內(nèi)大模型大數(shù)據(jù)AI,還是阿里靠得住,BBA的技術(shù)實力是有的,但是阿里的更厲害,等等,騰訊干嘛去了?

    來自湖南 回復(fù)
  3. 連圖標(biāo)也要抄一下別人的

    來自廣東 回復(fù)
  4. 感覺沒太多期待。主要類似產(chǎn)品體驗多了。

    來自廣東 回復(fù)
  5. 剛剛提交了申請,期待中ing…

    來自江蘇 回復(fù)
    1. 好兄弟,你是怎么申請的?

      來自荷蘭 回復(fù)
    2. 請教一下,謝謝

      來自荷蘭 回復(fù)