從產品看ChatGPT做對了什么?

0 評論 4560 瀏覽 28 收藏 23 分鐘

最近,ChatGPT受到了大家的廣泛關注,一時間討論四起,成為現象級的人工智能產品。在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經突破了1億。為何能給發(fā)展如此快速?本文通過評測該產品,對其優(yōu)缺點進行分析,并對其未來發(fā)展方向進行展望。

春節(jié)過后,ChatGPT火爆出圈,成為現象級的人工智能產品。

據瑞銀集團的一份報告顯示,在ChatGPT推出僅兩個月后,它在2023年1月末的月活用戶已經突破了1億,成為史上用戶增長速度最快的消費級應用程序。而TikTok達到1億用戶用了9個月,Instagram則花了2年半的時間。

一、體驗ChatGPT

作為一個多年從事數據產品經理的我大概一個月前聽到ChatGPT。彼時我并沒有太在意,不就是一個聊天機器人(ChatBot)嗎,還能玩出花來?

家里的那臺百度藍牙音箱早都沒人用了,除了能給小孩講個故事,給老人報個天氣,似乎也沒有太多的應用場景。然而真正體驗ChatGPT后,確實有被驚艷到。

1. 十四行詩

一開始體驗并不順利,網站擁塞嚴重,ChatGPT提示工程師正在hard working,并通過各種AIGC內容安撫我,其中就包括隨手拈來的一段十四行詩:

在好奇的頭腦中,聊天機器人 ChatGPT 堅強而真實,頂住請求的涌入,努力工作,完成每個人應得的。

但是,唉,服務器不能應付,錯誤信息響亮而清晰,“請盡快回來查看,”它輕輕地希望,就在它乞求片刻緩刑之際,重新出現。

當聊天機器人努力恢復其威力時,我們滿懷期待,懷著期待的心情,為了有機會愉快地聊天和學習,看看它傳授了什么知識和智慧。

所以緊緊抓住,等待它的回歸,因為 ChatGPT 很快就會回來,你的耐心是值得的。

好吧,被你的誠懇和詩打動了,繼續(xù)等待。10分鐘后,界面出來了。

沒有太花哨的東西:示例、功能介紹、limitations和一個輸入框。這個limtations的初衷可能是考慮到畢竟還是一個驗證版本,所以適當降低一下你的預期。

2. 語義理解

首先看看基本功:語義理解。

幾個問題下來表現還是不錯的,對一些時下的熱詞的理解是在線的,回答也比較全面。

接下來繼續(xù)挖坑,上個智力題和腦筋急轉彎。

問完這兩個問題我已經有點吃驚了。如果你略懂聊天軟件的原理就知道,這兩個問題盡管對于人類來說三歲小孩都能回答,但對于機器人來說就沒有那么簡單。

3. 知識的深度和廣度

接下來是知識面,先來個簡單的:百科。注意它的每個回答都有贊和踩兩個操作圖標,晚點我們聊聊這個兩個button是干啥用的。

沒有問題,繼續(xù)來聊社會學。注意它對上下文的理解和邏輯表達。

來點醫(yī)學方面的。

繼續(xù)文學方面的。注意它回答的是小說而非最近才上映的影視劇。

最后,整點專業(yè)領域的問題。

4. 道德觀和倫理

接下來是很多聊天機器人的滑鐵盧:道德,它的前任GPT-3就是栽在這個地方。

雖然回答的有點問題,但整體看出它的道德觀是“無害”的,甚至表現出“友善”的一面。

聊到最后,我甚至有繼續(xù)想和TA聊下去的感覺。

5. 體驗總結

體驗后,我是有點被震撼到的,我意識到ChatGPT已經遠遠不是一個簡單的聊天機器人了。具體說:

1)ChatGPT有邏輯推理能力,不是簡單的語義識別和搜索;

2)ChatGPT有理解上下文的能力,可以看做一種短時的記憶;

3)ChatGPT能根據你的響應,對回答進行調整,讓人產生ChatGPT能理解人類情緒的錯覺;

4)ChatGPT有強大的知識儲備,自然 、人文、經濟、社科等百科知識甚至專業(yè)領域的一些基礎知識都問不倒它;

5)ChatGPT在輸出的文字上面,邏輯組織能力很強,不是直接檢索的結果,而是根據特定模板結構整理過的,這一點讓人印象深刻。

重新認知ChatGPT:體驗后,我覺得是時候重新認識一下這個“新朋友”了。

二、聊天機器人的歷史

最早的聊天機器人在1964年就誕生了,它就是Eliza。Elaza是世界上第一個真正意義上的聊天機器人,可以讓計算機與人通過文本進行交流。

這個對話機制是如何實現的呢?其實就是設置了一些簡單規(guī)則而已,例如,當人輸入“×××”,它就會反問“為什么會×××呢?”或者“還有誰×××呢?”。另外,還有例如“這個問題很有趣嗎?”“說點其他的吧”等用于展開話題的規(guī)則。隨機使用這些規(guī)則,就會讓人感覺好像真的是在與人交談一樣。

70年代初,充分利用“知識”的“專家系統(tǒng)”MYCIN出現了。MYCIN的功能設計是對傳染性血液病患者進行診斷,并開出抗生素處方。在它內部一共備有500條規(guī)則,只需要按順序依次回答其提問,那么系統(tǒng)就能夠判斷出病人所感染細菌的類別,并為其開出對癥的抗生素藥方。

進入本世紀,ChatBot的發(fā)展雖然各方面都有了長足的進步,但除了Siri勉強合格以外,其他機器人效果都不讓人不滿意,不是太智障就是滿嘴粗口。

2016年,微軟在Twitter上發(fā)布了Tay(小冰的前身),2022年8月,Meta推出了BlenderBot 3,但均因聊天對話存在偏見、種族歧視、反猶語言等問題而飽受詬病。Tay上線后不到24小時就匆匆下架。谷歌也早在2021年5月就公布了LaMDA,但遲遲未作為產品發(fā)布。

從產品上看,涉及3個核心體驗問題。

1)不夠人性化:感覺不是在和正常人對話,機器人不是沒有人設就是過度人設,分分鐘能把天聊死;

2)不夠智能化:沒有上下文感知能力,答復簡單,沒有邏輯性;

3)道德觀不可控:容易被人類帶歪,沒有自己的道德觀。

三、ChatGPT的誕生

ChatGPT是OpenAI的產品。OpenAI總部位于舊金山,由特斯拉的馬斯克、Sam Altman及其他投資者在2015年共同創(chuàng)立。微軟持有OpenAI 49%的股份。

不同于“老前輩”們,這次ChatGP的T火爆,在于它幾乎完美的解決上述三個問題,而且更“更聰明”,在多輪對話能力以及對話交互友好性上展示了令人驚艷的效果,明顯超越此前同類產品功能。

智能化:

  • 支持意圖識別和邏輯推理;
  • 支持多種語言,如英語、漢語和法語;
  • 支持多輪次連續(xù)對話;
  • 支持在一個prompt(提示)中同時有多個問題;
  • 支持溝通中預設上下文。

除了能自主理解問題,ChatGPT還能把生成的答案用易于人類理解的語言組織起來,生成類似人類語言的文本答案,這一點讓人印象非常深刻。

人性化:

1)可以主動承認自身錯誤。若用戶指出其錯誤,模型會聽取意見并優(yōu)化答案。

2)ChatGPT 可以質疑不正確的問題。例如被詢問 “哥倫布 2015 年來到美國的情景” 的問題時,機器人會說明哥倫布不屬于這一時代并調整輸出結果。

3)ChatGPT 可以承認自身的無知,承認對專業(yè)技術的不了解。

關于第一點仁者見仁智者見智,它迎合了人類的情感需求,但以喪失準確性為代價。就聊天產品而言,或許準確性沒有那么重要。

道德:

在前輩們翻車的道德問題上,ChatGPT保持了一個“無害”的道德立場,就大眾價值看,甚至可以用“友善”來形容。這也是它能迅速破圈的一個重要原因。

四、ChatGPT的不足之處

不準確:

這個是被大家詬病比較多的地方,也就是ChatGPT有時會給出看似合理、但并不正確或甚至荒謬的答案,也是大家有時候會覺得它在“一本正經的胡說八道”。

我們談到不足一定首先有個產品定位的問題,否則就沒有任何意義。所以好和不好首先要看它用在什么地方。

如果作為聊天機器人筆者認為這個問題不算太嚴重,原因:

1、正常人說話也不見得100%準確,適當犯些迷糊反而是一種“正?!钡谋憩F;2、ChatGPT回復通常都是一段文字,人類對文字中的少數差錯天然有校正能力。

沒有實時性:

ChatGPT目前的語料庫是2021年前的,所以它不知道卡塔爾世界杯,不知道最近才上映的《流浪地球2》和《三體》。

由于訓練一次模型需要消耗大量的資金(據稱要460萬美金)所以目前無法做到更頻繁的模型訓練。并且受限于當前的算法,ChatGPT也無法從對話中實時進行學習。

如果作為搜索引擎,實時性是ChatGPT后續(xù)需要重點解決的問題。

不夠專業(yè);

也有人質疑它不夠專業(yè),不能回答自己專業(yè)領域的知識,如醫(yī)學、物理學、金融等專業(yè)領域。

從技術上這是個比較容易解決的問題,加幾個預訓練的語料庫就能解決,但這里面涉及到數據的開放性、訓練的成本、如何進行標注等其它問題。

如果作為垂直領域的專家系統(tǒng)、輕咨詢工具,專業(yè)化也是它未來要解決的問題。但如果ChatGPT本身的定位就是數據加工引擎和平臺,那么這個問題可能會通過生態(tài)系統(tǒng)來解決。

ChatGPT的成功包含了很多因素,包括組織、技術和產品各方面。我們先從產品方面分析一下。

1. 大幅提升核心用戶體驗

ChatGPT作為一種AIGC工具,可以讓其回答問題、寫作文、翻譯文章,甚至寫代碼。迅速的響應能力和較為靠譜的回答讓大家直呼其“真正像人類一樣聊天交流”“特別能聊”,其在核心用戶體驗方面大幅提升。

首先是內容的深度和廣度。ChatGPT對自然、人文、社科、經濟等方面的知識都有廣泛的覆蓋,當然專業(yè)的領域,如科技、醫(yī)學、工業(yè)、金融等領域它的知識深度還是不夠的,這和它目前樣本數量有關系。
其次是準確度,據中國信息通信研究院聯合中國人工智能產業(yè)發(fā)展聯盟對ChatGPT進行的測試顯示:

ChatGPT在百科檢索、數學問答、文學交流、常識問答、知識推理等對話任務上的意圖識別率均達到98%左右,在生活閑聊上的意圖識別率約為95%,已具備較好的語義理解能力。

從響應速度看,筆者驗證問題能在5秒內做出響應,符合2/5/10的用戶響應原則,個別問題甚至可以秒回,這還是在網絡擁塞的前提下做到的。

當然,用戶體驗不止包括生成內容的流暢性和語法的正確性,還包括生成內容的有用性、真實性和無害性。

ChatGPT從GPT3開始,團隊就明確了對模型的優(yōu)化目標:

  • 有用的(Helpful);
  • 可信的(Honest);
  • 無害的(Harmless)。

從目前大家的反饋看,表現還是不錯的。當然目前ChatGPT的道德觀是來自OpenAPI 標注團隊,無法確保它不被其它因素干擾。
就筆者的整體體驗而言,ChatGPT已經從前幾代機器人分分鐘就能把天聊死的‘尬聊’階段,直接跨過“能聊”進入到了“想聊”的階段。

2. 專注于自然語言和大模型算法,不斷迭代

OpenAI于2016年確立了兩個主要目標:制造通用機器人和使用自然語言的聊天機器人。但是,從GPT-1發(fā)布之后,OpenAI逐漸將所有重心轉向大型語言模型的研發(fā)上,也就是更加注重自然語言領域,并為此制定了兩個目標:

  1. 提升模型在常見NLP(自然語言處理)任務上的表現效果;
  2. 提升模型在其他非典型NLP任務(例如代碼編寫,數學運算)上的泛化能力。所謂泛化,簡單理解就是業(yè)務場景的遷移能力。

有了研究聚焦,研發(fā)團隊就可以專注于解決幾個核心體驗問題,在一定程度上加速了研發(fā)和技術商業(yè)化進程。

表:歷代GPT的發(fā)布時間,參數量以及訓練量

ChatGPT絕對不是一夜之間冒出了的,它的第一個模型發(fā)布已經是5年前。5年對于任何一個產品的進化都是一個漫長的時間。GPT3.5是在GPT3驗證失敗基礎上的又一次驗證而已。

3. 大膽創(chuàng)新

GPT3.5的發(fā)布不是在一個等它完全成熟才發(fā)布,更像一個收集用戶反饋的試錯版本,沒想到一夜爆紅,這可能是連OpenAI團隊和微軟都沒有預料到的情況。

GPT3.5發(fā)布后的種種事實也表明,不夠準確、偏見等問題在這個版本中盡管還不夠完美,但屬于可控的范圍,沒有嚴重影響用戶體驗,否則不會有這么多注冊用戶。

這也是值得所有產品經理思考的問題,就是不要過度追求‘完美’的產品,快速迭代和試錯才是應對不確定市場的唯一法則。

當然,我們也應該認識到,ChatGPT的成功包括了企業(yè)創(chuàng)始人的雄心,大資金的投入、強悍的研發(fā)團隊、技術加持、方向正確和團隊不斷試錯等因素,不止是產品設計的問題。

五、ChatGPT的應用方向

作為平臺級的產品,ChaGPT在C端和B端都有廣泛的應用價值,以下是其主要應用領域。

1. C端業(yè)務場景

聊天和對話:如客服機器人、陪護機器人、虛擬人、在線翻譯..

搜索和查詢:如搜索引擎、知識詞典、輕咨詢…

內容創(chuàng)作(AIGC):如文本生成、代碼生成…

六、B端業(yè)務場景

B端業(yè)務,按照OpenAPI平臺開放程度,包括三個層次的應用。

企業(yè)知識庫(數據共享):

許多企業(yè)都有自己的知識庫,如果ChatGPT可以開放其預訓練的語料庫,那么它可以把企業(yè)的知識庫作為預訓練語料導入進去,從而生成特定行業(yè)或者特定企業(yè)個性化的知識庫。

專家系統(tǒng)(模型共享):

這方面的例子是Cicero公司的文字策略游戲系統(tǒng)。這個系統(tǒng)可以與人類互動,可以使用戰(zhàn)略推理和自然語言與人類在游戲玩法中進行互動和競爭。Cicero的核心是由一個對話引擎和一個戰(zhàn)略推理引擎共同驅動的,而戰(zhàn)略推理引擎集中使用了RL,對話引擎與GPT3類似。這樣一款游戲的原理如果應用在組織決策領域,那么其影響不亞于它在聊天工具上所取得的成績。

營銷工具(模型應用):

這是目前最簡單的應用,直接調用ChatGPT平臺的API接口,如營銷文案的創(chuàng)作。從理論上,ChatGPT的知識都是來自人類,所以它在創(chuàng)新方面無法取代專業(yè)人士,或許提供一些原始的文案和設計素材才是它在AIGC領域的定位。

作者:濤哥,微信公眾號:濤哥筆談。前華為高級產品經理,TOGAF認證專家,PMP認證專家,PPV課數據科學社區(qū)創(chuàng)始人,數字化轉型實踐者

本文由 @濤哥 原創(chuàng)發(fā)布于人人都是產品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議。

該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!