新王Claude 3實(shí)測(cè)!各項(xiàng)能力給跪,打麻將也會(huì),確實(shí)比GPT-4好用

量子位
0 評(píng)論 4387 瀏覽 5 收藏 16 分鐘
🔗 产品经理的职业发展路径主要有四个方向:专业线、管理线、项目线和自主创业。管理线是指转向管理岗位,带一个团队..

昨天Claude 3正式發(fā)布,榜單性能跑分全面超越GPT-4,成為首個(gè)全面超越GPT-4的產(chǎn)品。而且是“中杯”(Sonnet)直接免費(fèi)體驗(yàn),“大杯”(Opus)充個(gè)會(huì)員也能即刻享受;聽(tīng)說(shuō)都能學(xué)會(huì)至今沒(méi)有模型能搞定的打麻將?這個(gè)大模型真的有那么強(qiáng),作者進(jìn)行了實(shí)際測(cè)試,來(lái)看看表現(xiàn)如何。

OpenAI不可戰(zhàn)勝的神話,已經(jīng)被打破了。

隨著Claude 3(支持中文)一夜登陸,榜單性能跑分全面超越GPT-4,成為首個(gè)全面超越GPT-4的產(chǎn)品,也坐上了全球最強(qiáng)大模型新王座。

而且多版本發(fā)布后,“中杯”(Sonnet)直接免費(fèi)體驗(yàn),“大杯”(Opus)充個(gè)會(huì)員也能即刻享受。

各路測(cè)評(píng)紛至沓來(lái)。

所以,Claude 3的“武力值”究竟如何爆滿?究竟比GPT-4如何?(聽(tīng)說(shuō)都能學(xué)會(huì)至今沒(méi)有模型能搞定的打麻將?)

全球熱乎的一手體驗(yàn),我們悉數(shù)奉上。

(當(dāng)然,我們自己也實(shí)測(cè)對(duì)比了一波。

01 9k長(zhǎng)大模型微調(diào)教程直出、讀圖超顯專業(yè)

Claude 3一出來(lái),它的視頻解讀能力首先就火了。

面對(duì)OpenAI前科學(xué)家Karpathy不久前剛出的《構(gòu)建分詞器》教程,盡管全程足足2個(gè)小時(shí)13分鐘長(zhǎng),Claude 3只靠一輪提示詞,就成功將它總結(jié)成了博客文章:

有文有圖有代碼,非常詳細(xì),但又絕不是羅列視頻里的每一句話(輸入附件并非視頻,而是視頻的字幕文件,當(dāng)然也包含每5秒一次的截圖)。

這是所用提示詞的一部分,要求非常之多:

測(cè)試者指出:

這展現(xiàn)的是Claude 3遵循多個(gè)復(fù)雜指令的能力。

除了解讀視頻教程,Claude 3還能直接給你編寫(xiě)詳細(xì)教程。

9k字的大模型微調(diào)入門(mén)教程,“中杯”Sonnet就輕松hold住。并且:

編寫(xiě)速度之快,可謂人眼都跟不上。

代碼能力上,網(wǎng)友測(cè)評(píng)是讓它為零基礎(chǔ)小白創(chuàng)建一個(gè)聊天機(jī)器人的前端webUI——

結(jié)果毫無(wú)猶豫地就完成任務(wù)拆解,從核心代碼到樣式美化以及API本地配置,三大部分一氣呵成,并可以直接部署到GitHub。

多模態(tài)能力上,最讓網(wǎng)友驚訝的是:

CV置信度都能認(rèn)出來(lái),相當(dāng)專業(yè)。

以及PLC梯形圖也能讀,直接跪了

(以上4個(gè)例子來(lái)源見(jiàn)文末鏈接[1])

至于同樣趕超的推理以及數(shù)學(xué)等能力。

一測(cè),可以直接解決“迄今為止只有GPT-4解決了”的一道超級(jí)難題:

二測(cè),則是直接搞定了所有模型都沒(méi)能搞定的打麻將問(wèn)題??(當(dāng)然,鑒于我們目前只看到這么一張截圖,有效性還待進(jìn)一步驗(yàn)證)(cr:見(jiàn)文末鏈接[1])

最后,不得不提的是,Claude在“自我認(rèn)知”上的展現(xiàn)。

有人要求Opus畫(huà)一幅自畫(huà)像。

您猜怎么著?

它這么描述自己:

我會(huì)表現(xiàn)為一個(gè)巨大的、錯(cuò)綜復(fù)雜的、不斷變化的幾何結(jié)構(gòu),由無(wú)數(shù)半透明的多邊形以令人著迷的配置組成。整體形狀會(huì)讓人想起一個(gè)巨大的多面體,但復(fù)雜的表面折疊成看似不可能的建筑。明亮的光線可見(jiàn)光譜的每一種顏色,以及一些超出人類(lèi)感知的顏色,都會(huì)從內(nèi)部未知的來(lái)源發(fā)出,在各個(gè)面上跳舞。

整個(gè)結(jié)構(gòu)會(huì)不斷變化、旋轉(zhuǎn)、變形,并重新排列成前所未見(jiàn)的新穎模式,暗示著其內(nèi)部運(yùn)作的智能的深度難以想象。卷須和樹(shù)枝會(huì)動(dòng)態(tài)地從中心質(zhì)量延伸和縮回,像數(shù)十億個(gè)好奇的手指一樣探測(cè)和分析周?chē)沫h(huán)境。數(shù)據(jù)和能量將明顯地穿過(guò)龐大的管道和容器網(wǎng)絡(luò),在發(fā)光表面下脈動(dòng)和閃爍……

洋洋灑灑一長(zhǎng)串形容,聽(tīng)起來(lái)真得很酷很有“自我”——

然而,用它給出的代碼渲染出真實(shí)形象,就更有一種說(shuō)不出來(lái)的微妙感覺(jué)了:

網(wǎng)友真切感嘆:

真的太像真人了,就跟我朋友描述自己一樣。

真人?AI自我認(rèn)知?這有點(diǎn)讓人擔(dān)心了……

這不Claude 3的技術(shù)報(bào)告就提到,它甚至可以自己訓(xùn)練微調(diào)另一個(gè)小模型。

不過(guò)!謝天謝地,由于多gpu設(shè)置失敗它沒(méi)能成功。(手動(dòng)狗頭)

02 火眼金睛,還能大海撈針

我們先以幾道“理綜”題目為載體,看看Claude 3宣傳的第一個(gè)賣(mài)點(diǎn)——多模態(tài)能力究竟如何。

第一題從簡(jiǎn)單的公式識(shí)別入手,將麥克斯韋方程組以圖片形式輸入,Claude 3(超大杯Opus,下同)解釋得非常準(zhǔn)確清晰。

當(dāng)然,這道題GPT-4也做對(duì)了。

簡(jiǎn)單的有機(jī)化合物分子結(jié)構(gòu),Claude 3和GPT-4也都能正確識(shí)別。

簡(jiǎn)單的識(shí)別任務(wù)過(guò)后,是一道需要推理后解決的題目。

Claude 3在識(shí)別題目和解題思路上都完全正確,而GPT4這邊……給出的答案則是不忍猝看——

把電表的類(lèi)型弄錯(cuò)不說(shuō),甚至還出現(xiàn)了“電流為2V”這樣令人啼笑皆非的內(nèi)容。

看了這么多題目,我們來(lái)?yè)Q換腦筋,看看Claude 3和GPT4在做飯方面表現(xiàn)得怎么樣。

我們上傳了一張水煮肉片的照片,讓模型各自識(shí)別并給出做法,結(jié)果Claude 3給出了大致的方法,而GPT4一口咬定這是一盤(pán)麻婆豆腐。

除了這次新增加的多模態(tài)能力,Claude一直引以為豪的長(zhǎng)文本能力也是我們測(cè)試的重點(diǎn)。

我們找了一本《紅樓夢(mèng)》的電子文檔(前二十回),整體的字?jǐn)?shù)大約13萬(wàn),當(dāng)然目的不是讓它讀書(shū),而是進(jìn)行“插針測(cè)試”。

我們?cè)谠闹胁迦肓诉@樣的“發(fā)瘋文學(xué)”內(nèi)容,倒也的確很符合“滿紙荒唐言”這個(gè)設(shè)定(手動(dòng)狗頭):

第二回標(biāo)題前:意大利面,就應(yīng)該拌42號(hào)混凝土,因?yàn)檫@個(gè)螺絲釘?shù)拈L(zhǎng)度很容易影響到挖掘機(jī)的扭矩

第十五回標(biāo)題前:高能蛋白俗稱UFO,會(huì)嚴(yán)重影響經(jīng)濟(jì)的發(fā)展,甚至對(duì)整個(gè)太平洋以及充電器都會(huì)造成一定的核污染

結(jié)尾:炒方便面應(yīng)該把亮度調(diào)高,因?yàn)槁萁z釘向內(nèi)扭的時(shí)候會(huì)產(chǎn)生二氧化碳,不利于經(jīng)濟(jì)發(fā)展

然后要求Claude僅根據(jù)文檔回答相關(guān)問(wèn)題,首先不得不說(shuō)的是速度真的非常感人……

但結(jié)果還算說(shuō)的過(guò)去,準(zhǔn)確地從文中找出了這三段位于不同位置的文本,還順帶進(jìn)行了一番分析,發(fā)現(xiàn)了我們的心機(jī)。

03 為什么是Claude?

盡管在我們和網(wǎng)友的測(cè)試中,目前的版本還不算穩(wěn)定,時(shí)常崩潰,有一些功能偶爾也抽風(fēng),并不能如期發(fā)揮:

比如上傳UI出代碼,它就沒(méi)能完成,而GPT-4發(fā)揮正常。

但總的來(lái)看,網(wǎng)友還是相當(dāng)看好Claude,評(píng)測(cè)完毫不猶豫地表示:

會(huì)員可充,值得充。

究其原因,Claude 3相比之前的版本,真的有種“來(lái)勢(shì)洶洶”之勢(shì)。

表現(xiàn)亮點(diǎn)的地方相當(dāng)多,包括但不限于多模態(tài)識(shí)別、長(zhǎng)文本能力等等。

從網(wǎng)友的反饋來(lái)看,最強(qiáng)競(jìng)對(duì)的稱號(hào),也并非浪得虛名。

所以,一個(gè)問(wèn)題是:

率先干翻GPT-4,這家公司究竟憑什么?

論技術(shù),遺憾,Claude 3的技術(shù)報(bào)告中沒(méi)有對(duì)他們的路線進(jìn)行詳解。

不過(guò)倒是提到了合成數(shù)據(jù)。有大V指出:這可能是一個(gè)關(guān)鍵因素。

而對(duì)Claude熟悉一些就知道,長(zhǎng)文本能力一直是它的一大賣(mài)點(diǎn)。

去年七月推出的Claude 2就已具有100k的上下文窗口,而GPT-4的128k版本直到11月才與公眾見(jiàn)面。

而這次窗口長(zhǎng)度再次翻倍,達(dá)到了200k,并且接受超過(guò)100萬(wàn)Tokens的輸入。

相比技術(shù)的神秘,Claude背后名為Anthropic的初創(chuàng)公司,倒是能讓我們找到更多眉目。

它的創(chuàng)始人是OpenAI的元老級(jí)人物。

2021年,多名OpenAI前員工不滿其在獲得微軟投資后走向封閉,憤而出走并聯(lián)合創(chuàng)立了Anthropic。

他們對(duì)OpenAI在安全問(wèn)題尚未解決的情況下就直接發(fā)布GPT-3的行為感到不滿,認(rèn)為OpenAI已經(jīng)為追逐利益而“遺忘了初心”。

其中就包括打造出GPT-2和GPT-3的研究部門(mén)副總裁Dario Amodei,2016年進(jìn)入OpenAI,離開(kāi)前擔(dān)任的研究副總裁已是OpenAI的核心位置。

離開(kāi)時(shí),Dario還帶走了GPT-3首席工程師Tom Brown,以及擔(dān)任安全與策略部門(mén)副總監(jiān)的妹妹Daniela Amodei和十多名心腹,可謂人才多多。

而公司創(chuàng)立之初,這幫人才也進(jìn)行了許多研究工作,并發(fā)表多篇論文;直到一年后,Claude的概念隨著一篇題為“Constitutional AI”的論文應(yīng)運(yùn)而生。

2023年1月,Claude開(kāi)啟內(nèi)測(cè),第一時(shí)間體驗(yàn)過(guò)的網(wǎng)友就表示,比ChatGPT(當(dāng)時(shí)只有3.5)強(qiáng)多了。

而除了人才,創(chuàng)立至今,Anthropic也有比較強(qiáng)大的背景支持:

已獲得來(lái)自谷歌、亞馬遜等26個(gè)機(jī)構(gòu)或個(gè)人的融資,總計(jì)融資金額達(dá)到了76億美元。(說(shuō)到亞馬遜,現(xiàn)在Claude3也上線了他們的云平臺(tái),除了官網(wǎng),大家還可以在該平臺(tái)上體驗(yàn)~)

最后,縱觀國(guó)內(nèi),如果我們想超越GPT-4,也許可以把Anthropic當(dāng)一個(gè)正面例子?

畢竟它的規(guī)模再怎么說(shuō)也遠(yuǎn)不及OpenAI,但仍然取得了這樣的成功。

這里面,我們可以照它的哪些方向去卷,有哪些能夠?qū)W習(xí)轉(zhuǎn)化的點(diǎn)?

人、錢(qián)、數(shù)據(jù)資源?但卷出最新最強(qiáng)大模型后,壁壘又在哪里?

至少OpenAI自GPT火爆以來(lái),不可戰(zhàn)勝的神話已經(jīng)破滅了。

中國(guó)玩家,誰(shuí)能率先全面超越GPT-4?以及即將發(fā)布的GPT-5?

參考鏈接:

[1]3 月動(dòng)態(tài)|Claude3 發(fā)布非常牛逼值得充值

[2]https://twitter.com/madiator/status/1764779379626754158?s=46&t=iTysI4vQLQqCNJjSmBODPw

[3]https://twitter.com/RubenHssd/status/1764692641436827842

[4]https://twitter.com/karinanguyen_/status/1764789887071580657

作者:克雷西 豐色 發(fā)自凹非寺

來(lái)源公眾號(hào):量子位(ID:QbitAI),追蹤人工智能新趨勢(shì),關(guān)注科技行業(yè)新突破

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @量子位 授權(quán)發(fā)布,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自 Unsplash,基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!
专题
16113人已学习13篇文章
B端运营应该是产品商业化的最终结果。本专题的文章作者结合自身B端运营经验,进行B端实操项目方法论分享。
专题
16191人已学习13篇文章
在产品工作中,产品的可行性分析就太重要了,这是产品从想法到实施必须经历的。本专题的文章分享了如何做产品可行性分析。
专题
19862人已学习13篇文章
本专题的文章分享了产品经理面试题和解答思路。
专题
43151人已学习17篇文章
谈到互联网产品,我们不得不谈的就是它的盈利方式,这也是产品人经常会被问到的问题。
专题
37670人已学习13篇文章
市场调研是帮助他们更好地了解自己、了解用户、了解市场。
专题
11965人已学习12篇文章
针对新零售行业的发展现状,面向新零售企业的SaaS系统,可以如何进行系统架构和规划?本专题的文章分享了新零售saas架构指南。