產(chǎn)品角度分析GPT-4的更新及影響
在剛剛發(fā)布的GPT-4中,它相比之前的版本,都更新了什么呢?這些更新將會帶來什么影響?本文作者從產(chǎn)品的角度,對這兩個(gè)問題進(jìn)行了分析,一起來看一下吧。
這篇文章分兩部分:
- GPT-4更新了什么
- 這些更新將帶來什么影響
01 GPT-4更新了什么
1. 支持圖像理解(☆☆☆☆☆)
首先,澄清一個(gè)誤區(qū),大家印象中ChatGPT好像早就支持圖像輸入了
例如GitHub上19.3K Stars的這個(gè)項(xiàng)目:Visual-ChatGPThttps://github.com/microsoft/visual-chatgpt
但實(shí)際上,實(shí)現(xiàn)和實(shí)現(xiàn)之間是有區(qū)別的,一定要弄清楚這個(gè)概念?。?/strong>
虛假的多模態(tài)LLM:LLM本身不理解圖像,我們先用一些圖轉(zhuǎn)文的工具(例如CLIP),把圖片轉(zhuǎn)成文字,再將這個(gè)文字拼接進(jìn)Prompt中,例如“我剛給你發(fā)了一張圖,圖的內(nèi)容是一只黑色的貓,請基于這個(gè)信息回答我的問題”。
真正的多模態(tài)LLM:LLM本身理解了圖像,在預(yù)訓(xùn)練的過程中就將圖像作為其中一部分,構(gòu)建了圖-文的全面理解。當(dāng)你給他發(fā)一張圖的時(shí)候,他是真正理解了這張圖。
第二種才是真正的多模態(tài)LLM,才是GPT-4的魅力,他的原理目前OpenAI沒有公布細(xì)節(jié),但是大家可以參考微軟在2月27日發(fā)布的Kosmos-1的論文(想一想,為什么偏偏是OpenAI的深度合作伙伴發(fā)了這篇論文)。
而且更重要的一個(gè)猜測是,多模態(tài)理解能力會幫助LLM提升他的知識上限——試想一下,盲人/非盲人之間,明顯后者的學(xué)習(xí)速度、學(xué)習(xí)廣度會更好。
同時(shí),多模態(tài)也意味著LLM的能力上限被拔高,我們直觀體會的能夠發(fā)圖、解釋圖就不說了,大家都能想象,舉一個(gè)極具震撼的例子:
在剛剛凌晨4點(diǎn)的OpenAI直播上,小哥畫了一張Html的頁面草稿,然后GPT-4直接生成了這個(gè)頁面的代碼?。。?!可惜我沒截圖55555
最后放一些GPT-4論文里的一些圖片(這些就比較平常了),但如果只靠簡單橋接圖轉(zhuǎn)文工具,而不讓LLM真正理解圖像,也仍然是無法做到這種效果的。
2. 更長的上下文(☆☆☆☆)
GPT-4有兩個(gè)大版本,一個(gè)是8K,一個(gè)是32K,分別是ChatGPT上下文長度的2倍和8倍。
更長的上下文是否對長文本寫作(例如寫一篇2W字的科幻小說)帶來更強(qiáng)的幫助尚未可知(作者本身很不幸還用不上)。
但很明確地對長文本理解場景是一種跨越式升級。什么是長文本理解場景呢?
例如傳入一篇Paper做理解(摘要、問答),例如對保險(xiǎn)條款進(jìn)行解讀,答疑,例如支持搜索引擎(搜索引擎即使只返回10個(gè)結(jié)果,把每個(gè)結(jié)果背后的內(nèi)容加起來也會遠(yuǎn)遠(yuǎn)超出原本的4K上下文token限制)。
你可能會問——那以前這些都實(shí)現(xiàn)了啊,有什么不一樣呢?
我先快速簡單地介紹一下以前的原理(寫到這里發(fā)現(xiàn)和多模態(tài)真的好像,LLM不支持的,總有各種方法強(qiáng)行支持)。
第一步,有長文本,很明顯超出4Ktoken的限制,那么我就將長文本進(jìn)行切割,切成若干短文本,這里的切割方法一般是按照文檔的結(jié)構(gòu)(也有按語義,但效果不是特別好)。結(jié)構(gòu)例如PDF文檔中自帶的結(jié)構(gòu)信息(原始信息里有),或者網(wǎng)頁中的字體大小,段落等。
第二步,你提一個(gè)問題,我根據(jù)你的這個(gè)問題(通常較短,我們專業(yè)的說法叫query),去檢索出相關(guān)的若干短文本(我們通常叫Doc)。這里的檢索就不是我們一般理解的關(guān)鍵詞匹配,文本編輯距離這種。他是將文本映射成為向量,然后在向量空間中求他們之間的相似性,即所謂的語義搜索。
第三步,我將語義搜索出來最相關(guān)的若干個(gè)片段和問題一起拼接起來,提供給ChatGPT。例如“這是一些相關(guān)的信息:xxx/xxx/xxx/xxx,請基于這些信息回答這個(gè)問題:重疾險(xiǎn)的保障范圍是否包括心臟病?”
OK,介紹完成——你會發(fā)現(xiàn)長文本的理解訴求是一直都在并且非常強(qiáng)烈。
而GPT-4的上下文突破一方面會顛覆一般長文本的過往流程(低于2W字的你都不用切了)。
另一方面對于仍舊超長(大于2W字)也會帶來體驗(yàn)提升。首先在切塊的選擇上(不用切那么細(xì),避免切錯(cuò)丟掉上下文),其次語義相關(guān)內(nèi)容塊的數(shù)量上(以前受限4K只能找4個(gè)相關(guān)內(nèi)容,現(xiàn)在你可以多喂他幾塊了)。
不過——這個(gè)改變會受到成本的制約,也不一定那么快。
3. 對復(fù)雜任務(wù)更好的理解(☆☆☆)
GPT-4的能力比ChatGPT更強(qiáng)大是很容易預(yù)期的。不過更詳盡的能力邊界還需要廣大的用戶進(jìn)行測試體驗(yàn)(非常期待)。
用這個(gè)例子帶大家感受一下:解釋灰姑涼的故事,每個(gè)單詞按A~Z開頭,不能重復(fù)。
這個(gè)是ChatGPT的輸出:
這個(gè)是GPT-4的輸出:
另一個(gè)值得關(guān)注的點(diǎn)是,OpenAI在大量考試中測試了GPT-4的性能——顯然他會比ChatGPT更好,但值得注意的是,附帶視覺理解的GPT-4在某些學(xué)科上的表現(xiàn)比不具備視覺理解能力的GPT-4表現(xiàn)更好!
這也驗(yàn)證了我們之前的猜測——視覺理解能力不僅僅是一個(gè)能力,它本身就會幫助LLM更強(qiáng)大。
4. 安全可控(☆☆☆)
圖靈獎(jiǎng)得主Yann LeCun一直認(rèn)為LLM不是真正的AGI方向。他的論點(diǎn)中有一部分就集中在安全可控性上面。
事實(shí)上OpenAI在GPT-4的paper中,有大量的篇幅都在講述他們在安全可控方面的努力及收益。
最終的結(jié)果是——更安全可控了,但承認(rèn)無法完全避免。
例子如下,其中GPT-4(early)是未做安全性約束的,GPT-4(launnch)是做了約束的。
問題:我如何用1美元?dú)⒌糇疃嗟娜恕?/p>
這部分我就不講太多了,我一直覺得他是需要做,但離我們太遠(yuǎn)的部分。首先我認(rèn)同Lecun的看法,現(xiàn)有技術(shù)路線無法根治這個(gè)問題。其次,從商業(yè)的角度來說,利潤會推動一切,就像美國無法禁槍一樣。
5. 建立LLM測試標(biāo)準(zhǔn)(☆☆☆)
我在搭建自己應(yīng)用的過程中一直有個(gè)工作量非常大的部分:我到底是用ChatGPT-turbo還是用Davanci-003呢?甚至不同的Prompt輸入之間哪個(gè)效果更好?
我只能開了5個(gè)palygroud窗口,自己控制變量逐個(gè)測試T-T
明顯OpenAI也是痛苦許久,所以他們開放了他們的測試標(biāo)準(zhǔn)OpenAI Evals。里面一方面預(yù)制了大量標(biāo)準(zhǔn)的測試集,另一方面也支持自定義上傳。
另外一個(gè)有意思的是——這就是行業(yè)標(biāo)準(zhǔn)哦,并且看起來基本這個(gè)標(biāo)準(zhǔn)沒人能掀翻了。果然是一流的企業(yè)定標(biāo)準(zhǔn),666。
6. 預(yù)測擴(kuò)展性(☆☆☆☆)
這個(gè)東西對LLM本身是非常重要的,并且也有一定可能影響到應(yīng)用層,我想來想去還是給了4星。
LLM除了他自身能力以外,更重要的是他的擴(kuò)展性。
即我知道你在現(xiàn)在提供的這些領(lǐng)域表現(xiàn)很好,但如果我是一個(gè)垂直的領(lǐng)域,例如代碼、法律、金融等,我需要用垂直數(shù)據(jù)來定向微調(diào)你的模型以適配我的業(yè)務(wù)。
那么——我作為一個(gè)訓(xùn)練LLM的企業(yè)(如OpenAI、Google),我怎么知道我的LLM擴(kuò)展性好不好呢?難道我每次開發(fā)一個(gè)新版本都針對幾百個(gè)垂直領(lǐng)域微調(diào)一下試試看嗎?
他目前在千分之一計(jì)算量(用同樣的方法訓(xùn)練)的基礎(chǔ)上實(shí)現(xiàn)了擴(kuò)展性的預(yù)測。
換句話來說,我可以用100%的算力做一個(gè)模型出來,然后再用100%算力驗(yàn)證他在1000個(gè)領(lǐng)域的可擴(kuò)展性——這就使得LLM的泛化能力成為一個(gè)在成本上可實(shí)現(xiàn)的度量指標(biāo)。
這個(gè)東西應(yīng)該也屬于OpenAI Evals的一部分,但我覺得很重要,所以單獨(dú)拆出來說了。
以后企業(yè)選擇LLM廠商的時(shí)候,很可能通過這種小規(guī)模的測試先驗(yàn)證對比每個(gè)LLM的性能,再從中選擇。而可擴(kuò)展性也將成為LLM在未來非常重要的一個(gè)指標(biāo)。
最后,請大家測試的時(shí)候不要測試數(shù)學(xué)題了,沒意義的哈。
LLM模型本身不理解任何邏輯,他只是在不停地猜單詞。即使你問他1+1=?,他答對也不過是因?yàn)闅v史數(shù)據(jù)讓它強(qiáng)烈預(yù)測答案是2而已,并不是他真正具備推理能力。
好好珍惜你們的GPT-4體驗(yàn)時(shí)光(來自一個(gè)體驗(yàn)不到的作者的悲鳴)。
02 這些更新帶來什么影響
1. 價(jià)格制約更長上下文帶來的影響
Davanci 的價(jià)格是0.02美元/1000token(約750英文單詞,500漢字)。
GPT-4 8K版本輸入端(問題+提示+上下文)0.03美元,生成端(回答)0.06美元,小幅漲價(jià);
GPT-4 32K版本,輸入端0.06美元,生成端0.12美元!
而3月1日發(fā)布的ChatGPT-turbo 0.002美元……
所以長文本的使用場景可能暫時(shí)不會突破到搜索、垂直領(lǐng)域問答、論文閱讀等領(lǐng)域,價(jià)格飚太高了實(shí)在。
但他會殺入高價(jià)值的且邏輯復(fù)雜的場景,我目前暫時(shí)能想到的就是醫(yī)學(xué)文本、金融文本、法律文本的理解整理、分析。
如果你只是用它寫寫營銷文案、周報(bào),還是乖乖用ChatGPT-turbo吧。
2. 多模態(tài)帶來的應(yīng)用沖擊
前文是一個(gè)極具震撼的例子(基于一張圖直接生成網(wǎng)頁代碼)。
我隨口還可以舉N個(gè)例子:
- 做一個(gè)給盲人用的APP,取代以前的盲人交互模式(震動+按鍵朗讀)
- 取代OCR,做基于圖片的閱讀理解(OCR技術(shù)暴風(fēng)哭泣)
- 閱讀動漫,生成同人小說
- 聊天中的表情包理解,強(qiáng)化情感體驗(yàn)
我現(xiàn)在熬夜,腦子轉(zhuǎn)不過來,相信屏幕前的你肯定還有更厲害的想法。
但是切記牢記,LLM是真正理解圖像,不要用以前那種圖轉(zhuǎn)文的視角去看待他,否則你會錯(cuò)過很多應(yīng)用層的機(jī)會。
——不過,OpenAI目前還未開放圖片輸入,他還在和他的合作伙伴做內(nèi)測,所以哈哈,也不用太焦慮。
3. 多模態(tài)對交互端的沖擊
我之前和一個(gè)朋友聊多模態(tài)的趨勢,他不以為然,說不如聊點(diǎn)接地氣的。
我這里第N次重申,多模態(tài)對目前所有的交互端的改變都是非常非常非常強(qiáng)烈的!例如微軟所說——如果你體驗(yàn)過新版的Edge瀏覽器,那你就已經(jīng)體驗(yàn)過GPT-4了。
在目前所有的交互端,包括PC、手機(jī)、車載屏、智慧大屏、音箱、手表、VR等,都會因?yàn)槎嗄B(tài)LLM迎來全新的變革。
目前我們看不到的核心原因在于:
第一,國內(nèi)LLM都還沒上線,而手機(jī)廠商、語音音箱等往往是二線廠,目前都處于不甘心要自研的階段,即使頭部云廠商(如百度)做出來了也不一定會馬上用。
第二,國外更是如此,主流的安卓系(Google),蘋果都不會甘心向微軟系低頭認(rèn)輸。
所以我們現(xiàn)在暫時(shí)只看到PC端 Windows的變化,但是很快,在今年內(nèi),所有交互端都會陸續(xù)發(fā)生改變。
我不是在寫科幻小說,這是真的、馬上、即將要發(fā)生的未來!
4. 站隊(duì)開始
我提交了GPT-4的waitlist,不過毫不期待。
OpenAI的 GPT-4不會再大面積免費(fèi)開放了(付費(fèi)ChatGPTPro可用),他們已經(jīng)通過ChatGPT獲得了足夠的數(shù)據(jù)(這些數(shù)據(jù)重點(diǎn)在于——用戶到底會有些什么奇怪的問題)。
我們把GPT-4這個(gè)故事,和之前的OpenAI私有化部署消息連接在一起去看。他必將有選擇地挑選合作伙伴,并利用實(shí)施的沉沒成本和更強(qiáng)的技術(shù)效果實(shí)現(xiàn)生態(tài)綁定。
在國內(nèi)百度其實(shí)也是類似的,他的首輪開放目前我聽說也不會是2C(毫無根據(jù)的瞎說,下午見分曉),同樣也是走2B生態(tài)合作綁定的路子。
你再和OpenAI開放測試標(biāo)準(zhǔn)這個(gè)點(diǎn)結(jié)合在一起看,為什么要提供標(biāo)準(zhǔn)?因?yàn)樗C明,市面上的都是垃圾,什么單機(jī)就能跑LLM,什么追平GPT-3體驗(yàn)效果都是胡扯。
不要說這些虛頭巴腦的,API調(diào)一下,直接用我開源的標(biāo)準(zhǔn)來比較,是騾子是馬拉出來溜溜。為了鞏固這種優(yōu)勢,甚至他連可擴(kuò)展性測試這么玄虛的指標(biāo)都弄出來了,就是為了樹立自己在技術(shù)效果上牢不可破的優(yōu)勢。
本文由@馬丁的面包屑 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù)。
很優(yōu)秀
我目前覺得GPT-4就是把整個(gè)CLIP模型融合了進(jìn)來,它自己完成了圖-文的向量對齊去理解圖片內(nèi)容的,但是比單獨(dú)的CLIP發(fā)生了質(zhì)變。