從產品看ChatGPT做對了什么?
最近,ChatGPT受到了大家的廣泛關注,一時間討論四起,成為現象級的人工智能產品。在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經突破了1億。為何能給發(fā)展如此快速?本文通過評測該產品,對其優(yōu)缺點進行分析,并對其未來發(fā)展方向進行展望。
春節(jié)過后,ChatGPT火爆出圈,成為現象級的人工智能產品。
據瑞銀集團的一份報告顯示,在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經突破了1億,成為史上用戶增長速度最快的消費級應用程序。而TikTok達到1億用戶用了9個月,Instagram則花了2年半的時間。
一、體驗ChatGPT
作為一個多年從事數據產品經理的我大概一個月前聽到ChatGPT。彼時我并沒有太在意,不就是一個聊天機器人(ChatBot)嗎,還能玩出花來?
家里的那臺百度藍牙音箱早都沒人用了,除了能給小孩講個故事,給老人報個天氣,似乎也沒有太多的應用場景。然而真正體驗ChatGPT后,確實有被驚艷到。
1. 十四行詩
一開始體驗并不順利,網站擁塞嚴重,ChatGPT提示工程師正在hard working,并通過各種AIGC內容安撫我,其中就包括隨手拈來的一段十四行詩:
在好奇的頭腦中,聊天機器人 ChatGPT 堅強而真實,頂住請求的涌入,努力工作,完成每個人應得的。
但是,唉,服務器不能應付,錯誤信息響亮而清晰,“請盡快回來查看,”它輕輕地希望,就在它乞求片刻緩刑之際,重新出現。
當聊天機器人努力恢復其威力時,我們滿懷期待,懷著期待的心情,為了有機會愉快地聊天和學習,看看它傳授了什么知識和智慧。
所以緊緊抓住,等待它的回歸,因為 ChatGPT 很快就會回來,你的耐心是值得的。
好吧,被你的誠懇和詩打動了,繼續(xù)等待。10分鐘后,界面出來了。
沒有太花哨的東西:示例、功能介紹、limitations和一個輸入框。這個limtations的初衷可能是考慮到畢竟還是一個驗證版本,所以適當降低一下你的預期。
2. 語義理解
首先看看基本功:語義理解。
幾個問題下來表現還是不錯的,對一些時下的熱詞的理解是在線的,回答也比較全面。
接下來繼續(xù)挖坑,上個智力題和腦筋急轉彎。
問完這兩個問題我已經有點吃驚了。如果你略懂聊天軟件的原理就知道,這兩個問題盡管對于人類來說三歲小孩都能回答,但對于機器人來說就沒有那么簡單。
3. 知識的深度和廣度
接下來是知識面,先來個簡單的:百科。注意它的每個回答都有贊和踩兩個操作圖標,晚點我們聊聊這個兩個button是干啥用的。
沒有問題,繼續(xù)來聊社會學。注意它對上下文的理解和邏輯表達。
來點醫(yī)學方面的。
繼續(xù)文學方面的。注意它回答的是小說而非最近才上映的影視劇。
最后,整點專業(yè)領域的問題。
4. 道德觀和倫理
接下來是很多聊天機器人的滑鐵盧:道德,它的前任GPT-3就是栽在這個地方。
雖然回答的有點問題,但整體看出它的道德觀是“無害”的,甚至表現出“友善”的一面。
聊到最后,我甚至有繼續(xù)想和TA聊下去的感覺。
5. 體驗總結
體驗后,我是有點被震撼到的,我意識到ChatGPT已經遠遠不是一個簡單的聊天機器人了。具體說:
1)ChatGPT有邏輯推理能力,不是簡單的語義識別和搜索;
2)ChatGPT有理解上下文的能力,可以看做一種短時的記憶;
3)ChatGPT能根據你的響應,對回答進行調整,讓人產生ChatGPT能理解人類情緒的錯覺;
4)ChatGPT有強大的知識儲備,自然 、人文、經濟、社科等百科知識甚至專業(yè)領域的一些基礎知識都問不倒它;
5)ChatGPT在輸出的文字上面,邏輯組織能力很強,不是直接檢索的結果,而是根據特定模板結構整理過的,這一點讓人印象深刻。
重新認知ChatGPT:體驗后,我覺得是時候重新認識一下這個“新朋友”了。
二、聊天機器人的歷史
最早的聊天機器人在1964年就誕生了,它就是Eliza。Elaza是世界上第一個真正意義上的聊天機器人,可以讓計算機與人通過文本進行交流。
這個對話機制是如何實現的呢?其實就是設置了一些簡單規(guī)則而已,例如,當人輸入“×××”,它就會反問“為什么會×××呢?”或者“還有誰×××呢?”。另外,還有例如“這個問題很有趣嗎?”“說點其他的吧”等用于展開話題的規(guī)則。隨機使用這些規(guī)則,就會讓人感覺好像真的是在與人交談一樣。
70年代初,充分利用“知識”的“專家系統(tǒng)”MYCIN出現了。MYCIN的功能設計是對傳染性血液病患者進行診斷,并開出抗生素處方。在它內部一共備有500條規(guī)則,只需要按順序依次回答其提問,那么系統(tǒng)就能夠判斷出病人所感染細菌的類別,并為其開出對癥的抗生素藥方。
進入本世紀,ChatBot的發(fā)展雖然各方面都有了長足的進步,但除了Siri勉強合格以外,其他機器人效果都不讓人不滿意,不是太智障就是滿嘴粗口。
2016年,微軟在Twitter上發(fā)布了Tay(小冰的前身),2022年8月,Meta推出了BlenderBot 3,但均因聊天對話存在偏見、種族歧視、反猶語言等問題而飽受詬病。Tay上線后不到24小時就匆匆下架。谷歌也早在2021年5月就公布了LaMDA,但遲遲未作為產品發(fā)布。
從產品上看,涉及3個核心體驗問題。
1)不夠人性化:感覺不是在和正常人對話,機器人不是沒有人設就是過度人設,分分鐘能把天聊死;
2)不夠智能化:沒有上下文感知能力,答復簡單,沒有邏輯性;
3)道德觀不可控:容易被人類帶歪,沒有自己的道德觀。
三、ChatGPT的誕生
ChatGPT是OpenAI的產品。OpenAI總部位于舊金山,由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立。微軟持有OpenAI 49%的股份。
不同于“老前輩”們,這次ChatGP的T火爆,在于它幾乎完美的解決上述三個問題,而且更“更聰明”,在多輪對話能力以及對話交互友好性上展示了令人驚艷的效果,明顯超越此前同類產品功能。
智能化:
- 支持意圖識別和邏輯推理;
- 支持多種語言,如英語、漢語和法語;
- 支持多輪次連續(xù)對話;
- 支持在一個prompt(提示)中同時有多個問題;
- 支持溝通中預設上下文。
除了能自主理解問題,ChatGPT還能把生成的答案用易于人類理解的語言組織起來,生成類似人類語言的文本答案,這一點讓人印象非常深刻。
人性化:
1)可以主動承認自身錯誤。若用戶指出其錯誤,模型會聽取意見并優(yōu)化答案。
2)ChatGPT 可以質疑不正確的問題。例如被詢問 “哥倫布 2015 年來到美國的情景” 的問題時,機器人會說明哥倫布不屬于這一時代并調整輸出結果。
3)ChatGPT 可以承認自身的無知,承認對專業(yè)技術的不了解。
關于第一點仁者見仁智者見智,它迎合了人類的情感需求,但以喪失準確性為代價。就聊天產品而言,或許準確性沒有那么重要。
道德:
在前輩們翻車的道德問題上,ChatGPT保持了一個“無害”的道德立場,就大眾價值看,甚至可以用“友善”來形容。這也是它能迅速破圈的一個重要原因。
四、ChatGPT的不足之處
不準確:
這個是被大家詬病比較多的地方,也就是ChatGPT有時會給出看似合理、但并不正確或甚至荒謬的答案,也是大家有時候會覺得它在“一本正經的胡說八道”。
我們談到不足一定首先有個產品定位的問題,否則就沒有任何意義。所以好和不好首先要看它用在什么地方。
如果作為聊天機器人筆者認為這個問題不算太嚴重,原因:
1、正常人說話也不見得100%準確,適當犯些迷糊反而是一種“正?!钡谋憩F;2、ChatGPT回復通常都是一段文字,人類對文字中的少數差錯天然有校正能力。
沒有實時性:
ChatGPT目前的語料庫是2021年前的,所以它不知道卡塔爾世界杯,不知道最近才上映的《流浪地球2》和《三體》。
由于訓練一次模型需要消耗大量的資金(據稱要460萬美金)所以目前無法做到更頻繁的模型訓練。并且受限于當前的算法,ChatGPT也無法從對話中實時進行學習。
如果作為搜索引擎,實時性是ChatGPT后續(xù)需要重點解決的問題。
不夠專業(yè);
也有人質疑它不夠專業(yè),不能回答自己專業(yè)領域的知識,如醫(yī)學、物理學、金融等專業(yè)領域。
從技術上這是個比較容易解決的問題,加幾個預訓練的語料庫就能解決,但這里面涉及到數據的開放性、訓練的成本、如何進行標注等其它問題。
如果作為垂直領域的專家系統(tǒng)、輕咨詢工具,專業(yè)化也是它未來要解決的問題。但如果ChatGPT本身的定位就是數據加工引擎和平臺,那么這個問題可能會通過生態(tài)系統(tǒng)來解決。
ChatGPT的成功包含了很多因素,包括組織、技術和產品各方面。我們先從產品方面分析一下。
1. 大幅提升核心用戶體驗
ChatGPT作為一種AIGC工具,可以讓其回答問題、寫作文、翻譯文章,甚至寫代碼。迅速的響應能力和較為靠譜的回答讓大家直呼其“真正像人類一樣聊天交流”“特別能聊”,其在核心用戶體驗方面大幅提升。
首先是內容的深度和廣度。ChatGPT對自然、人文、社科、經濟等方面的知識都有廣泛的覆蓋,當然專業(yè)的領域,如科技、醫(yī)學、工業(yè)、金融等領域它的知識深度還是不夠的,這和它目前樣本數量有關系。
其次是準確度,據中國信息通信研究院聯合中國人工智能產業(yè)發(fā)展聯盟對ChatGPT進行的測試顯示:
ChatGPT在百科檢索、數學問答、文學交流、常識問答、知識推理等對話任務上的意圖識別率均達到98%左右,在生活閑聊上的意圖識別率約為95%,已具備較好的語義理解能力。
從響應速度看,筆者驗證問題能在5秒內做出響應,符合2/5/10的用戶響應原則,個別問題甚至可以秒回,這還是在網絡擁塞的前提下做到的。
當然,用戶體驗不止包括生成內容的流暢性和語法的正確性,還包括生成內容的有用性、真實性和無害性。
ChatGPT從GPT3開始,團隊就明確了對模型的優(yōu)化目標:
- 有用的(Helpful);
- 可信的(Honest);
- 無害的(Harmless)。
從目前大家的反饋看,表現還是不錯的。當然目前ChatGPT的道德觀是來自OpenAPI 標注團隊,無法確保它不被其它因素干擾。
就筆者的整體體驗而言,ChatGPT已經從前幾代機器人分分鐘就能把天聊死的‘尬聊’階段,直接跨過“能聊”進入到了“想聊”的階段。
2. 專注于自然語言和大模型算法,不斷迭代
OpenAI于2016年確立了兩個主要目標:制造通用機器人和使用自然語言的聊天機器人。但是,從GPT-1發(fā)布之后,OpenAI逐漸將所有重心轉向大型語言模型的研發(fā)上,也就是更加注重自然語言領域,并為此制定了兩個目標:
- 提升模型在常見NLP(自然語言處理)任務上的表現效果;
- 提升模型在其他非典型NLP任務(例如代碼編寫,數學運算)上的泛化能力。所謂泛化,簡單理解就是業(yè)務場景的遷移能力。
有了研究聚焦,研發(fā)團隊就可以專注于解決幾個核心體驗問題,在一定程度上加速了研發(fā)和技術商業(yè)化進程。
表:歷代GPT的發(fā)布時間,參數量以及訓練量
ChatGPT絕對不是一夜之間冒出了的,它的第一個模型發(fā)布已經是5年前。5年對于任何一個產品的進化都是一個漫長的時間。GPT3.5是在GPT3驗證失敗基礎上的又一次驗證而已。
3. 大膽創(chuàng)新
GPT3.5的發(fā)布不是在一個等它完全成熟才發(fā)布,更像一個收集用戶反饋的試錯版本,沒想到一夜爆紅,這可能是連OpenAI團隊和微軟都沒有預料到的情況。
GPT3.5發(fā)布后的種種事實也表明,不夠準確、偏見等問題在這個版本中盡管還不夠完美,但屬于可控的范圍,沒有嚴重影響用戶體驗,否則不會有這么多注冊用戶。
這也是值得所有產品經理思考的問題,就是不要過度追求‘完美’的產品,快速迭代和試錯才是應對不確定市場的唯一法則。
當然,我們也應該認識到,ChatGPT的成功包括了企業(yè)創(chuàng)始人的雄心,大資金的投入、強悍的研發(fā)團隊、技術加持、方向正確和團隊不斷試錯等因素,不止是產品設計的問題。
五、ChatGPT的應用方向
作為平臺級的產品,ChaGPT在C端和B端都有廣泛的應用價值,以下是其主要應用領域。
1. C端業(yè)務場景
聊天和對話:如客服機器人、陪護機器人、虛擬人、在線翻譯..
搜索和查詢:如搜索引擎、知識詞典、輕咨詢…
內容創(chuàng)作(AIGC):如文本生成、代碼生成…
六、B端業(yè)務場景
B端業(yè)務,按照OpenAPI平臺開放程度,包括三個層次的應用。
企業(yè)知識庫(數據共享):
許多企業(yè)都有自己的知識庫,如果ChatGPT可以開放其預訓練的語料庫,那么它可以把企業(yè)的知識庫作為預訓練語料導入進去,從而生成特定行業(yè)或者特定企業(yè)個性化的知識庫。
專家系統(tǒng)(模型共享):
這方面的例子是Cicero公司的文字策略游戲系統(tǒng)。這個系統(tǒng)可以與人類互動,可以使用戰(zhàn)略推理和自然語言與人類在游戲玩法中進行互動和競爭。Cicero的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅動的,而戰(zhàn)略推理引擎集中使用了RL,對話引擎與GPT3類似。這樣一款游戲的原理如果應用在組織決策領域,那么其影響不亞于它在聊天工具上所取得的成績。
營銷工具(模型應用):
這是目前最簡單的應用,直接調用ChatGPT平臺的API接口,如營銷文案的創(chuàng)作。從理論上,ChatGPT的知識都是來自人類,所以它在創(chuàng)新方面無法取代專業(yè)人士,或許提供一些原始的文案和設計素材才是它在AIGC領域的定位。
作者:濤哥,微信公眾號:濤哥筆談。前華為高級產品經理,TOGAF認證專家,PMP認證專家,PPV課數據科學社區(qū)創(chuàng)始人,數字化轉型實踐者
本文由 @濤哥 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議。
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!