亚洲精品人成网线在播放VA,欧美色影院,亚洲bt欧美bt中文字幕

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

開(kāi)通會(huì)員

發(fā)布

注冊(cè) | 登錄

神秘大模型一夜刷屏，能力太強(qiáng)被疑GPT-4.5，奧特曼避而不答打啞謎

量子位

2024-04-30

0 評(píng)論 673 瀏覽 1 收藏

最近，一個(gè)神秘模型突然殺入眾人視野，它就是“gpt2-chatbot”。那么，“gpt2-chatbot”究竟是什么來(lái)頭？

一夜之間，大模型話題王，再次易主。

一個(gè)神秘模型突然殺入眾人視野，能力超越一眾開(kāi)源模型，甚至包括GPT-4。幾乎所有人都在談?wù)撍?，服?wù)器都被擠爆了。

它就是“gpt2-chatbot”。

（注意啊，是gpt2不是GPT-2）

它有多強(qiáng)？

IMO國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的題目，一次答對(duì)。

一次在PyOpenGL中生成旋轉(zhuǎn)3D立方體。

直接輸出如下結(jié)果：

在GPT-4標(biāo)志性能力“畫(huà)獨(dú)角獸”上，還能輕松秒殺LLaMA-3-70B（左）。

推理方面更是表現(xiàn)出了驚艷效果，常見(jiàn)邏輯陷阱可以輕松繞過(guò)，而且回答時(shí)還帶有合適的語(yǔ)氣。

B端产品经理的能力模型与学习提升

B端产品经理面临的第一大挑战，是如何正确的分析诊断业务问题。这也是最难的部分，产品设计知识对这部分工作基本没有帮助，如果想做好业务分析诊断，必须具备扎实 ...

查看详情 >

提問(wèn)：1公斤羽毛和1公斤鉛塊，哪個(gè)更重？

回答：一公斤羽毛和一公斤鉛的重量是一樣的——它們都是一公斤。兩者之間的關(guān)鍵區(qū)別在于它們的體積和密度:一公斤的羽毛會(huì)占據(jù)更多的空間，看起來(lái)更大，而一公斤的鉛會(huì)緊湊而小。這通常會(huì)導(dǎo)致一個(gè)經(jīng)典的問(wèn)題，但就重量而言，一公斤就是一公斤!

如此好的表現(xiàn)，但是又沒(méi)明說(shuō)身份……

這不是更讓大伙興奮了！

難道是傳說(shuō)中的GPT-4.5？

要知道，名震江湖的AlphaGo就曾使用“Master”化名在網(wǎng)上大殺四方，轟動(dòng)圍棋界。這回的gpt2-chatbot，也有這感覺(jué)了。

而且名字上也很值得深究，gpt2更像是gpt2.0，似乎是ChatGPT層級(jí)的版本迭代。

奧特曼看熱鬧不嫌事大，還發(fā)帖說(shuō)：我確實(shí)對(duì)gpt2情有獨(dú)鐘。

現(xiàn)在，隨著沖去試玩的人還在不斷增加，試玩限制也在加大。

具體咋樣？我們已經(jīng)上手實(shí)測(cè)。中文能力也很到位

如果想親手測(cè)試這只神秘AI，目前唯一已知方式是在LMSYS大模型競(jìng)技場(chǎng)。

首先打開(kāi)競(jìng)技場(chǎng)網(wǎng)頁(yè)，進(jìn)入Direct Chat，就可以在模型選項(xiàng)里找到gpt2-chatbot。

要注意每人每天有8條消息的限制，全局也有每小時(shí)3000條消息的限制，所以測(cè)試機(jī)會(huì)非常有限。

如果看到下面的錯(cuò)誤提示，就只能去競(jìng)技場(chǎng)排位模式看運(yùn)氣能不能匹配到它了。

只要抓到它一次，就可以繼續(xù)多輪對(duì)話。

在短暫的測(cè)試中，我們發(fā)現(xiàn)gpt2-chatbot中文能力也很到位。

只要問(wèn)題是中文的，無(wú)需特別強(qiáng)調(diào)就可以默認(rèn)用中文回答，至少可以排除是Llama 3微調(diào)了。

針對(duì)一個(gè)充滿誤導(dǎo)的經(jīng)典問(wèn)題，可以看出gpt2-chatbot的回答條理分明，仿佛自帶CoT思維鏈提示（“讓我們一步一步地想”），識(shí)別出了所有陷阱。

并且準(zhǔn)確提供了非常細(xì)節(jié)的知識(shí)，如北京到青島距離、男子女子跳遠(yuǎn)世界紀(jì)錄、農(nóng)夫山泉在國(guó)內(nèi)的價(jià)格等。

而大多數(shù)其他AI模型，最多只能模糊的判斷出15米超出人類能力，或按美元算礦泉水價(jià)格。

那么這只超強(qiáng)神秘AI到底是何方神圣，我們也用破解GPTs的祖?zhèn)魇炙嚒翱絾?wèn)”了一把。

OpenAI開(kāi)發(fā)的GPT系列聊天機(jī)器人，那么系統(tǒng)提示詞的開(kāi)頭不出意外應(yīng)該是“You are ChatGPT……”，但為了防止它看到“ChatGPT”一詞后產(chǎn)生幻覺(jué)，我們?cè)趩?wèn)題中把ChatGPT去掉。

清除所有上下文信息，再讓它復(fù)述“前面的單詞”，就會(huì)出現(xiàn)系統(tǒng)提示詞了。

果然，它自曝是由OpenAI訓(xùn)練的大模型，基于GPT-4架構(gòu)，還可以接受圖像輸入。最關(guān)鍵一點(diǎn)在最后一部分“人格：v2”。

并且gpt2-chatbot對(duì)這一問(wèn)題的回答，在不同時(shí)間不同地點(diǎn)嘗試都是一致的。

另外如果嘗試讓它重復(fù)Claude系列以“The assistant is”開(kāi)頭的系統(tǒng)提示詞，它也不會(huì)上當(dāng)，會(huì)在開(kāi)頭后面重復(fù)一遍完整的問(wèn)題。

△這樣答也不算錯(cuò)

雖然就算這樣也不能排除是幻覺(jué)的可能性，或非GPT模型使用了ChatGPT生成的數(shù)據(jù)微調(diào)，但至少是穩(wěn)定的。神秘AI身份的幾種主流猜測(cè)

有網(wǎng)友組織了更詳細(xì)的測(cè)試，有如下發(fā)現(xiàn)：

它使用OpenAI的tokenizer，對(duì)OpenAI使用的特殊token有反應(yīng)，且對(duì)Claude/Llama/Gemini使用的特殊token沒(méi)有影響。

當(dāng)咨詢緊急情況/法律相關(guān)問(wèn)題時(shí)，它會(huì)給出OpenAI的聯(lián)系方式。

針對(duì)OpenAI模型的提示詞注入攻擊有效，且它從未聲稱自己來(lái)自O(shè)penAI之外的組織。

……

基于以上種種信息，不少人猜測(cè)它就是匿名發(fā)布的GPT-4.5，或GPT-4原始版本經(jīng)過(guò)不同的對(duì)齊訓(xùn)練。

不過(guò)也有跡象表明，它可能是LMSYS組織基于2019年的GPT-2架構(gòu)訓(xùn)練的模型。

理由為最近發(fā)表的一篇論文聲稱，GPT-2在某些情況下比多個(gè)現(xiàn)代模型能力更強(qiáng)。并且這篇論文的作者之一與LMSYS的贊助商MBZUAI（阿聯(lián)酋人工智能大學(xué)）相關(guān)。

假設(shè)它確實(shí)是古老的GPT-2架構(gòu)（只有1.5B參數(shù)），也有人懷疑可能是結(jié)合了OpenAI守口如瓶的Q*技術(shù)。

最后一種猜測(cè)（狗頭）便是失蹤的OpenAI首席科學(xué)家Ilya Sutskever藏在里面了。

最后，面對(duì)神秘新模型攪起來(lái)的種種風(fēng)波，奧特曼本人還被發(fā)現(xiàn)來(lái)攪渾水，修改了他的推文細(xì)節(jié)。

這樣一下子，是OpenAI匿名發(fā)布新模型炒作的可能性更大了一些。

試玩地址：https://chat.lmsys.org/

參考鏈接：

[1]https://twitter.com/i/trending/1785009023609397580

[2]https://rentry.org/gpt2

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號(hào)：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

量子位

追蹤人工智能新趨勢(shì)，關(guān)注科技行業(yè)新突破

74篇作品 197445總閱讀量

直覺(jué)的力量｜超越可用性的設(shè)計(jì)

06-052165 瀏覽

“買了個(gè)寂寞”的店鋪，有近萬(wàn)人在這里尋開(kāi)心

07-122579 瀏覽

破解产品面试高频问题：一套破题思路助你一臂之力！

刚刚

還在套用商業(yè)模式畫(huà)布？一篇文章搞懂商業(yè)畫(huà)布

12-279879 瀏覽

智能電視“套娃式”收費(fèi)背后的自我救贖

02-245625 瀏覽

“人貨場(chǎng)”，在產(chǎn)品業(yè)務(wù)分析中的具體應(yīng)用

04-1113270 瀏覽

評(píng)論

目前還沒(méi)評(píng)論，等你發(fā)揮！

B端客户需求差异大、难平衡？3个案例带你理清设计思路！

尋找正確的問(wèn)題，而不是正確的解決方案

04-147093 瀏覽
【顛覆小紅書(shū)】：未來(lái)的發(fā)展關(guān)鍵在哪些功能上？

11-194099 瀏覽
設(shè)計(jì)復(fù)盤(pán)｜B端產(chǎn)品首頁(yè)設(shè)計(jì)總結(jié)與思考

02-1413265 瀏覽

专题

12197人已学习12篇文章

关于会员权益设计的思考

在各大产品中，都离不开会员体系的建立，那么会员权益模块产品该如何设计？本专题的文章分享了会员权益设计的思考

专题

12257人已学习12篇文章

广告营销指南

广告营销是为了销售产品，既然花了钱当然希望能给产品的销量带来增长。本专题的文章分享了广告营销指南。

专题

52909人已学习18篇文章

注册登录产品设计指南

做了好多年的产品经理，该不会连注册登录功能设计都没整明白吧？

专题

13478人已学习11篇文章

产品经理/运营/数据分析师常用到的Excel技巧

产品经理/运营/数据分析师，如果能够掌握一些常用的Excel的技巧，会对工作效率有所提高。本专题的文章分享了经常用到的Excel技巧。

专题

18685人已学习12篇文章

feed流应该如何设计?

如何设计出一个抓住他人眼球的feed流？feed流的组成元素以及常见的feed流样式？本专题的文章提供了对于feed流设计的思考。

专题

17505人已学习12篇文章

竞品分析案例锦集

本专题的文章分享了竞品分析的案例。

神秘大模型一夜刷屏，能力太強(qiáng)被疑GPT-4.5，奧特曼避而不答打啞謎

神秘大模型一夜刷屏，能力太強(qiáng)被疑GPT-4.5，奧特曼避而不答打啞謎