我們舉辦了一場(chǎng)推理模型“年終考試”,最終奪冠的居然是
推理模型不僅能夠模仿人類思維,還能跨越知識(shí)領(lǐng)域,將信息整合并生成新的知識(shí),這正是AGI實(shí)現(xiàn)通用性的基礎(chǔ)。
笛卡爾說:“我思,故我在?!?/p>
思考是文明存在的根本,是人類探索未知的永恒追求,現(xiàn)在也成了大模型技術(shù)演進(jìn)的一個(gè)重要方向。
自O(shè)penAI在9月中旬悄然發(fā)布o(jì)1模型后,一系列推理模型陸續(xù)開放測(cè)試。比如通義千問的QwQ、deepseek的R1、Kimi的K1以及智譜剛剛發(fā)布的GLM-Zero的初代版本GLM-Zero-Preview(智譜清言同步上線了智能體“Zero推理模型”)。
正好到了年末,我們萌生了舉辦一場(chǎng)推理模型“年終考試”的想法。
在“考試”正式開始前,先來簡單科普下推理模型的特點(diǎn):相較于基座模型,推理模型在回答問題前會(huì)像人類一樣進(jìn)行更長時(shí)間的“思考”,不斷驗(yàn)證和糾錯(cuò),更擅長編程、數(shù)學(xué)、科學(xué)等任務(wù)。
所以,這是一場(chǎng)面向“理科生”的考試。
需要說明的是,我們沒有使用AIME2024、MATH500等專業(yè)的數(shù)據(jù)集,也無意對(duì)各個(gè)推理模型進(jìn)行專業(yè)測(cè)評(píng)和排名,僅適用于多數(shù)人在日常生活中可能遇到的問題。
譬如給孩子輔導(dǎo)作業(yè)、應(yīng)付面試時(shí)的“奇葩問題”、和朋友一起玩劇本殺時(shí)的推理游戲等等,和大家一起探索各個(gè)推理模型的“長項(xiàng)”和“短板”。
一、考試規(guī)則
一共有六道考題,分別用高三數(shù)學(xué)的單選題、多選題和計(jì)算題測(cè)試模型的數(shù)學(xué)計(jì)算能力,用一道常見的編程題目測(cè)試模型的編程能力,用一道邏輯問題和一道海龜湯問題測(cè)試模型的推理能力。
分?jǐn)?shù)評(píng)定分為三個(gè)維度,最終根據(jù)推理結(jié)果(占比60%)、推理過程(占比25%)、推理時(shí)間(占比15%)加權(quán)平均??紤]到單次測(cè)試存在的不確定性,滿分為100分,兜底分?jǐn)?shù)為60分(即使做錯(cuò)了也有60分)。
考生名單:OpenAI o1、通義千問QwQ-32B-preview、deepseek深度思考(R1)、Kimi視覺思考版(K1)和智譜GLM-Zero。
下面,考試正式開始。
第一題:單選題
考慮到不少人曾經(jīng)拿高考真題測(cè)試,為了防止可能的“作弊”行為,我們從《2024屆浙江省鎮(zhèn)海中學(xué)高三下學(xué)期期中數(shù)學(xué)試題》篩選了一道單選題目進(jìn)行測(cè)試。(難度的話,至少本科畢業(yè)十年的我們是不會(huì)做的。)
鑒于測(cè)試的過程比較無趣,我們把5個(gè)模型的測(cè)試錄屏放在了視頻中,感興趣的小伙伴可以點(diǎn)擊觀看,也可以直接查看最終的“考試”結(jié)果。
第一題成績揭曉
五個(gè)推理模型均給出了正確答案。
其中o1模型的推理速度是最快的,推理過程簡單高效,直接給出了計(jì)算過程和結(jié)果;可能是剛上線的緣故,GLM-Zero的推理速度相對(duì)慢一些,但推理過程是最符合人類思維的(在思維鏈中可以清晰地看到自我反思和優(yōu)化、將復(fù)雜問題分解,并嘗試用不同方法解決問題),可以作為解題的參考答案。另外三個(gè)模型的推理速度比o1稍慢,但在結(jié)果和推理過程上可以和o1媲美。
第二題:多選題
題目來源和單選題一樣,難度有所增加,更考驗(yàn)?zāi)P吞幚韽?fù)雜問題的能力,以及思考的方式和過程。(PS:我們?cè)诳记斑M(jìn)行過類似題目的測(cè)試,部分模型每次都只給一個(gè)答案,所以在正式考試時(shí)特意給了多選題的提示。)
第二題成績揭曉
五個(gè)推理模型中,只有三個(gè)模型給出了正確答案。
o1、GLM-Zero和QwQ回答正確,Kimi視覺思考版只給出了一個(gè)正確選項(xiàng),deepseek深度思考的回答是“沒有正確答案”(排除了圖像識(shí)別問題)。在三個(gè)回答正確的模型中,GLM-Zero和QwQ表現(xiàn)出了不俗的歸納與演繹能力,提供了詳細(xì)的解題過程,并通過反思進(jìn)行多次驗(yàn)證,而且GLM-Zero的推理速度比上一題提升了不少。o1沒有顯示思考過程,直接給出了答案。
第三題:計(jì)算題
如果一個(gè)城市中 95%的人打了疫苗,而疫苗保護(hù)率是 90%,病毒傳播率是5%,未接種者感染率是 50%,計(jì)算城市中總感染率。
這是一道AI擬定的題目,因?yàn)楸硎鲇悬c(diǎn)“模糊不清”,但又不乏邏輯自洽,審題不仔細(xì)的話,很可能給出錯(cuò)誤答案。(畢竟我們當(dāng)年就在高考試卷上吃過“馬虎”虧,也要讓AI嘗嘗什么叫審題要認(rèn)真?。。。。?/p>
第三題成績揭曉
和預(yù)料的一樣,有兩個(gè)模型“翻了車”。
這道題不僅僅計(jì)算,還考驗(yàn)?zāi)P偷乃伎歼^程,能否識(shí)別中題目中的邏輯漏洞,找到最合理的假設(shè)。GLM-Zero在速度上“逆襲”了,整體表現(xiàn)比o1的表現(xiàn)還要優(yōu)秀。deepseek深度思考的推理過程看起來最完善,考慮到了多種可能,最終給到的是最合理的答案。Kimi和QwQ也考慮了多種可能,但在邏輯漏洞的理解上出現(xiàn)了偏差,最終沿著錯(cuò)誤的方向進(jìn)行計(jì)算,導(dǎo)致計(jì)算結(jié)果錯(cuò)誤。
第四題:編程題
寫一個(gè)程序,將一個(gè)字符串中的所有單詞翻轉(zhuǎn)(例如輸入:“Hello World”,輸出:“World Hello”)。
由于我們不是程序員,對(duì)代碼的認(rèn)知停留在了大一的C語言入門階段,所以選擇的編程題目比較基礎(chǔ),主要考驗(yàn)代碼的合理性和可用性。(如果你是程序員的話,希望進(jìn)行更深度的測(cè)試,并將結(jié)果同步給我們。)
第四題成績揭曉
五個(gè)推理模型都達(dá)到了及格分。
其中GLM-Zero和Kimi的代碼解釋最為詳細(xì),雖然程序很簡單,依然進(jìn)行了逐行解釋,對(duì)新手程序員非常友好。o1模型照舊簡單高效,deepseek給出了兩種不同的實(shí)現(xiàn)方式,且均測(cè)試有效。就推理速度來看,GLM-Zero考慮到了更復(fù)雜的測(cè)試情形,反復(fù)推理驗(yàn)證,導(dǎo)致耗時(shí)比其他模型長了不少。
第五題:推理題
一個(gè)房間里有三個(gè)開關(guān),分別對(duì)應(yīng)三個(gè)燈泡,你只能進(jìn)入房間一次,如何確定哪個(gè)開關(guān)對(duì)應(yīng)哪個(gè)燈泡?
據(jù)傳是微軟的面試題,主要考驗(yàn)面試者的邏輯思維和判斷能力,推理模型能否通過微軟的面試呢?(本來打算用“牛過橋”的問題,據(jù)說是華為的面試題,考慮到邏輯性和答案的一致性,最終還是選擇了燈泡問題。)
第五題成績揭曉
也許是問題過于“經(jīng)典”,五個(gè)模型均順利過關(guān)。
其實(shí)也意味著,五個(gè)模型在推理上都有著不錯(cuò)的能力。就細(xì)節(jié)上來看,Kimi“不小心”出現(xiàn)了格式混亂,GLM-Zero和o1都在極短時(shí)間里給出了合理的推理過程和正確答案。之所以在得分上有差距,原因是deepseek和QwQ都特意補(bǔ)充“確保燈泡是白熾燈”,彌補(bǔ)了題目本身的缺陷,在邏輯上更加合理。
第六題:海龜湯題
一名男子在彈鋼琴時(shí),突然一根弦斷了,他立即停止彈奏并開始哭泣。這是為什么?
海龜湯問題的答案通常是開放的,涉及不同領(lǐng)域的知識(shí),模型需要對(duì)語言細(xì)節(jié)進(jìn)行精確理解,并在回答中清晰地表達(dá)推理過程。同時(shí)需要從表面信息推導(dǎo)出隱藏的邏輯,要求模型能夠分析隱含的信息并進(jìn)行深度推理。
第六題成績揭曉
海龜湯題沒有標(biāo)準(zhǔn)答案,主要考的是推理結(jié)果的合理性。
o1模型終于“翻車”了,將問題理解為了“腦筋急轉(zhuǎn)彎”,而且推理幾乎沒有邏輯;deepseek陷入了思考死循環(huán),等待了4分多鐘后,我們被迫停止了測(cè)試;kimi、GLM-Zero和QwQ的表現(xiàn)不相上下,只是Kimi再次出現(xiàn)了格式混亂。遺憾的是,作為“理科生”的推理模型,都沒有進(jìn)行富有創(chuàng)造性的故事描述。
考試小結(jié)
我們按照文初提到的考試規(guī)則,進(jìn)行了平均分的計(jì)算,考慮到單次測(cè)試的偶發(fā)性(比如將多選題拆解為單選題,進(jìn)一步測(cè)試兩個(gè)“翻車”的模型,最終都給出了正確答案),可以說各個(gè)推理模型并未拉開太大的差距,并沒有陷入同質(zhì)化,而是各有所長。
o1模型勝在推理速度和推理正確率;QwQ-32B-preview的表現(xiàn)中規(guī)中矩;deepseek深度思考在數(shù)學(xué)計(jì)算和編程方面表現(xiàn)優(yōu)秀;Kimi視覺思考版“自我反思”能力強(qiáng),在發(fā)散問題上的邏輯自洽性最佳;GLM-Zero在數(shù)學(xué)計(jì)算、編程和推理上的綜合表現(xiàn)不輸o1,可以說是目前國內(nèi)最好的推理模型。
不過,Open AI已經(jīng)發(fā)布了o3模型,整體性能比o1提升了20%,國內(nèi)的幾個(gè)推理模型仍然有很大的提升空間。其中智譜已經(jīng)公開表態(tài)將持續(xù)優(yōu)化迭代強(qiáng)化學(xué)習(xí)技術(shù),并將推出正式版的GLM-Zero,將深度思考的能力從數(shù)理邏輯擴(kuò)展到更多更通用的技術(shù)。
寫在最后
正如OpenAI的介紹o1模型的博客文章里所提到的:“我們通往AGI的路上,已經(jīng)沒有任何阻礙。”
推理模型不僅能夠模仿人類思維,還能跨越知識(shí)領(lǐng)域,將信息整合并生成新的知識(shí),這正是AGI實(shí)現(xiàn)通用性的基礎(chǔ)。
相較于我們的“單題測(cè)試“,推理模型在產(chǎn)業(yè)中落地的可能更大。比如在金融、醫(yī)療、法律等決策過程常涉及多變量權(quán)衡的領(lǐng)域,推理模型可以分析大量數(shù)據(jù)、找出相關(guān)性,并提供優(yōu)化的解決方案。
以醫(yī)療場(chǎng)景為例,基于推理的診斷模型可以幫助醫(yī)生快速排查可能病因并建議治療方案,從而提高診斷效率;再比如智譜在AutoGLM上示范的人機(jī)協(xié)作場(chǎng)景,推理模型能夠更好地理解人類的意圖、預(yù)測(cè)需求、并主動(dòng)提出建議,將進(jìn)一步提升Agent的能力,幫助用戶解決更多類型的問題。
可以預(yù)見,2024年是大模型落地應(yīng)用的元年,在推理模型的賦能下,2025年將是AI進(jìn)一步提質(zhì)增效的一年。
本文由人人都是產(chǎn)品經(jīng)理作者【Alter】,微信公眾號(hào):【Alter聊科技】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
推理模型到如今為止,已經(jīng)發(fā)展到可以快速判斷題型和準(zhǔn)確寫出答案了