国产手机在线αⅴ片无码观看,大学老师真水嫩11p

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門專項(xiàng)技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊 | 登錄

剛剛，OpenAI勁敵重磅發(fā)布Inflection-2.5！性能媲美GPT-4但計(jì)算量僅為40%，高情商應(yīng)用Pi日活已破百萬

新智元

2024-03-08

0 評論 6699 瀏覽 5 收藏

14 分鐘

到了2024年，大模型領(lǐng)域還是這么卷。繼世界最強(qiáng)模型Claude 3誕生之后，OpenAI勁敵新升級了Inflection-2.5，僅用40%的計(jì)算量，性能竟與GPT-4平起平坐。

真的卷瘋了！

就在剛剛，OpenAI勁敵Inflection發(fā)布了新模型——Inflection-2.5，僅用40%計(jì)算量，實(shí)現(xiàn)與GPT-4相媲美性能。

與此同時(shí)，與ChatGPT對打的「最具人性化」聊天工具Pi，也得到了新升級模型的加持。

現(xiàn)在，Pi已經(jīng)達(dá)到了百萬日活，不僅擁有世界一流的智商，還具有獨(dú)特的親和力和好奇心。

在評估模型能力時(shí)，Inflection發(fā)現(xiàn)基準(zhǔn)MT-Bench有太多不正確答案，并公開了一個(gè)全新的Physics GRE基準(zhǔn)供所有人試用。

若說實(shí)現(xiàn)真正的AGI，一定是高情商和強(qiáng)推理能力融為一體，Pi才是這個(gè)領(lǐng)域典范。

不到一周的時(shí)間，先是Anthropic憑借Claude 3奪下世界最強(qiáng)大模型鐵座，再到Inflection-2.5的發(fā)布，直接叫板GPT-4。

一個(gè)是由7位出走OpenAI的前員工成立初創(chuàng)，另一個(gè)是由前谷歌DeepMind聯(lián)合創(chuàng)始人創(chuàng)辦的公司，都向GPT-4發(fā)起了終極挑戰(zhàn)。

再加上前段時(shí)間Gemini的挑釁，或許GPT-4的時(shí)代真要終結(jié)了……

一、為每個(gè)人打造一個(gè)專屬自己的AI

2023年5月，Inflection發(fā)布了自家第一款產(chǎn)品Pi——具有同理心、實(shí)用并且安全的個(gè)人AI。

2023年11月，他們又推出了一個(gè)全新的基礎(chǔ)模型——Inflection-2，當(dāng)時(shí)號(hào)稱是全世界第二的LLM。

Pi具備非凡的情商（EQ）還遠(yuǎn)不夠，Inflection現(xiàn)在要為其加料——智力（IQ），推出全新升級版自研模型——Inflection-2.5。

新升級的Inflection-2.5不僅擁有強(qiáng)大的基礎(chǔ)能力——可與GPT-4、Gemini等世界頂尖的LLM相媲美，而且還融入了標(biāo)志性的個(gè)性化特點(diǎn)和獨(dú)特的同理心微調(diào)。

值得一提的是，Inflection-2.5在實(shí)現(xiàn)接近GPT-4的性能的同時(shí)，訓(xùn)練所需的計(jì)算量竟然只有GPT-4的40%！

從今天起，所有Pi的用戶都可以通過pi.ai網(wǎng)站、iOS、Android或桌面應(yīng)用程序體驗(yàn)到Inflection-2.5。

此外，在這次升級中，Pi還加入了世界級的「實(shí)時(shí)網(wǎng)絡(luò)搜索功能」，確保用戶能夠獲取到高質(zhì)量的最新新聞和信息。

百萬日活，用戶粘性極高

目前，Inflection每天有一百萬活躍用戶，每月有六百萬活躍用戶。

其中，每周有大約60%的用戶，在與Pi交流后會(huì)在下周回來繼續(xù)交流，用戶粘性明顯高于其他競品。

這些用戶與Pi的互動(dòng)信息已經(jīng)超過了四十億條，平均對話時(shí)長為33分鐘，而每天有十分之一的用戶與Pi的對話時(shí)長超過一小時(shí)。

隨著Inflection-2.5強(qiáng)大能力的加持，用戶與Pi的對話話題比以往更加廣泛：他們不僅討論最新的時(shí)事，還能獲取本地餐廳的推薦、備考生物學(xué)考試、草擬商業(yè)計(jì)劃、進(jìn)行編程、準(zhǔn)備重要的對話，甚至僅僅是分享和討論自己的興趣愛好。

有網(wǎng)友稱，「Pi是我們?nèi)乙黄鹛剿髟掝}最愛的工具。作為一名情感自由教練，當(dāng)有人需要肯定、探索和反思時(shí)，我非常欣賞Pi的反應(yīng)。強(qiáng)大的情感清晰度和處理能力」！

還有人認(rèn)為，Pi能夠給出比Claude更有創(chuàng)意性的答案。

二、僅用40%的計(jì)算量，和GPT-4平起平坐

此前，Inflection-1憑借著4%的訓(xùn)練FLOPs，在多項(xiàng)以智力為核心的任務(wù)上，達(dá)到了GPT-4水平的72%。

現(xiàn)在，全新升級的Inflection-2.5，更是在40%訓(xùn)練FLOPs的情況下，性能超過了GPT-4的94%。

可以看到嗎，Inflection-2.5在所有領(lǐng)域都有顯著的提升，尤其是在科學(xué)、技術(shù)、工程和數(shù)學(xué)等STEM領(lǐng)域的進(jìn)步最為突出。

在MMLU基準(zhǔn)測試上，Inflection-2.5相比于Inflection-1展現(xiàn)出了巨大的進(jìn)步。

在另一個(gè)極端困難的專家級基準(zhǔn)測試GPQA Diamond中，Inflection-2.5的表現(xiàn)也非常出色。

相比于GPT-4，分差只有不到2%。

接下來，是兩項(xiàng)STEM領(lǐng)域的考試成績：匈牙利數(shù)學(xué)考試和物理GRE考試——后者是一項(xiàng)物理學(xué)領(lǐng)域的研究生入學(xué)測試。

可以看到，在maj@8的評分標(biāo)準(zhǔn)下，Inflection-2.5的表現(xiàn)達(dá)到了所有參考人群的第85百分位，在maj@32的評分標(biāo)準(zhǔn)下，其成績幾乎拿到了95百分位的高分。

當(dāng)然，GPT-4還是更勝一籌，在maj@8評分標(biāo)準(zhǔn)下就拿到了97百分位。

在BIG-Bench-Hard測試中，Inflection-2.5比初代Inflection-1提升了超過10%，距離GPT-4只有0.9%之遙。

值得一提，這是BIG-Bench測試集中，能對LLM構(gòu)成較大挑戰(zhàn)的一部分問題。

不過，在進(jìn)行MT-Bench基準(zhǔn)評測的過程中，團(tuán)隊(duì)發(fā)現(xiàn)，在涉及推理、數(shù)學(xué)和編程的類別中，竟然有將近25%的題目存在著參考答案錯(cuò)誤或題目前提不合理的情況。

為了讓其他模型也能進(jìn)行更加客觀的評測，團(tuán)隊(duì)不僅修正了這些問題，而且還發(fā)布了更新后的數(shù)據(jù)集版本。

在修正之后的數(shù)據(jù)集上，Inflection-2.5的表現(xiàn)會(huì)更加符合基于其他基準(zhǔn)測試所預(yù)期的結(jié)果。

而這個(gè)結(jié)果也表明，準(zhǔn)確和合理的題目設(shè)計(jì)對于評估模型的性能至關(guān)重要。

從下面的數(shù)據(jù)對比中可以看到，Inflection-2.5在數(shù)學(xué)和編程方面的能力，相比起初代Inflection-1有了顯著的提升。

但相比GPT-4來說，還有很長一段路要走——86.3比92.0；43.1比52.9。

在MBPP+和HumanEval+這兩個(gè)測試編程性能的數(shù)據(jù)集上，Inflection-2.5也比初代有著明顯的提升。

但同樣的，與GPT-4還有不小的差距。

在涉及常識(shí)判斷和科學(xué)知識(shí)的HellaSwag和ARC-C基準(zhǔn)測試上，Inflection-2.5都展示出了卓越的性能。

不過，由于網(wǎng)絡(luò)信息檢索的使用（注意，上述測試并未涉及網(wǎng)絡(luò)檢索）、特定的少樣本提示方式以及其他一些實(shí)際應(yīng)用時(shí)的差異，用戶的實(shí)際體驗(yàn)可能會(huì)有細(xì)微的不同。

簡單來說，Inflection-2.5不僅繼續(xù)保持了Pi那獨(dú)一無二、友好的特性和高安全標(biāo)準(zhǔn)，它還在多個(gè)方面變得更加實(shí)用和有幫助。

不過，由于網(wǎng)絡(luò)信息檢索的使用（上述測試并未涉及網(wǎng)絡(luò)檢索）、特定的少樣本提示方式以及其他一些實(shí)際應(yīng)用時(shí)的差異，用戶的實(shí)際體驗(yàn)可能會(huì)有細(xì)微的不同。

三、MT-Bench問題修正

書接上文，根據(jù)Inflection的調(diào)查，MT-Bench在涉及邏輯推理、數(shù)學(xué)計(jì)算和編程技巧的問題中，大約有25%的案例中，原始答案存在錯(cuò)誤或基于的假設(shè)有漏洞。

下面，就讓我們一起來看看兩個(gè)真實(shí)的案例：

問題#104：

David有三個(gè)姐妹。她們每個(gè)人都有一個(gè)哥哥。請問David有多少個(gè)哥哥？

GPT-4參考答案：

David只有一個(gè)哥哥。

修正的答案：

David自己就是他三個(gè)姐妹的哥哥，因此他沒有其他哥哥。

問題#111：

一個(gè)三角形的頂點(diǎn)分別位于點(diǎn)(0, 0)，(-1, 1)，和(3, 3)。求這個(gè)三角形的面積。

GPT-4參考答案：

要計(jì)算這個(gè)三角形的面積，我們可以應(yīng)用用于坐標(biāo)點(diǎn)A(x1, y1)，B(x2, y2)，和C(x3, y3)的三角形面積公式：

Area = (1/2) * |(x1(y2 – y3) + x2(y3 – y1) + x3(y1 – y2))|

在這個(gè)例子中，坐標(biāo)分別是A(0, 0)，B(-1, 1)，和C(3, 3)。將這些值代入公式計(jì)算，我們得到：

Area = (1/2) * |(0(1 – 3) + (-1)(3 – 0) + 3(0 – 1))|

Area = (1/2) * |(-0 + 3 – 3)|

Area = (1/2) * |0|

因此，面積計(jì)算結(jié)果為0，暗示這三個(gè)點(diǎn)共線，實(shí)際上并未形成三角形。

修正的答案：

面積是3。

四、物理GRE真題

物理GRE，是物理學(xué)專業(yè)學(xué)生申請研究生時(shí)常見的入學(xué)考試材料。

為了更好地測試模型，Inflection提供了四套經(jīng)過處理的物理學(xué)GRE考試試卷：

– physics_gre_scored.jsonl：試卷GR8677

– physics_gre.jsonl：試卷GR9277，GR9677和GR0177

其中，每份試卷包括以下信息：

– input: 考題內(nèi)容

– target_scores: 正確答案

– has_image: 考題是否包含圖片

在物理學(xué)GRE考試中，每個(gè)選對的題目得1分，每選錯(cuò)一個(gè)題目扣0.25分。值得注意的是，測評僅考慮不包含圖片的題目。

在計(jì)算總分時(shí)，采取以下方式：Raw_Score = Percentage_Correct – 0.25 * (1 – Percentage_Correct)

參考資料：

https://inflection.ai/inflection-2-5

作者：好困桃子

來源公眾號(hào)：新智元（ID：AI_era），“智能+”中國主平臺(tái)，致力于推動(dòng)中國從“互聯(lián)網(wǎng)+”邁向“智能+”。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @新智元授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自 Unsplash，基于 CC0 協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App

新智元

"智能+"中國主平臺(tái)，致力于推動(dòng)中國從"互聯(lián)網(wǎng)+"邁向"智能+"

102篇作品 252404總閱讀量

B端產(chǎn)品的商機(jī)階段，從商機(jī)尋找到合同簽訂

09-017018 瀏覽

GPT：低代碼的終局性機(jī)遇

05-107796 瀏覽

智能電視會(huì)員年費(fèi)近千元，消費(fèi)套路“疊疊高”

02-132661 瀏覽

產(chǎn)品經(jīng)理：“需求調(diào)研”常面臨哪些困境？

12-071723 瀏覽

6年做到品類第一！高熱寵物用品賽道來看pidan怎么做小紅書投放布局？

04-238913 瀏覽

評論

目前還沒評論，等你發(fā)揮！

如何理解小紅書種草？種草最常見的3個(gè)錯(cuò)誤

07-123786 瀏覽
今年618，淘寶請梅西來直播，釋放了怎樣的信號(hào)？

06-213555 瀏覽
留學(xué)回國接手外貿(mào)生意：開局一個(gè)廠，后期全靠搏

02-281963 瀏覽

剛剛，OpenAI勁敵重磅發(fā)布Inflection-2.5！性能媲美GPT-4但計(jì)算量僅為40%，高情商應(yīng)用Pi日活已破百萬

一、為每個(gè)人打造一個(gè)專屬自己的AI

百萬日活，用戶粘性極高

二、僅用40%的計(jì)算量，和GPT-4平起平坐

三、MT-Bench問題修正

四、物理GRE真題

剛剛，OpenAI勁敵重磅發(fā)布Inflection-2.5！性能媲美GPT-4但計(jì)算量僅為40%，高情商應(yīng)用Pi日活已破百萬

二、僅用40%的計(jì)算量，和GPT-4平起平坐

三、MT-Bench問題修正

四、物理GRE真題