對(duì)話(huà),不是AI交互的終極答案?
許多人認(rèn)為,自然語(yǔ)言處理和對(duì)話(huà)界面將徹底改變我們與計(jì)算機(jī)的互動(dòng)方式,甚至成為未來(lái)人機(jī)交互的終極形態(tài)。然而,本文將深入探討對(duì)話(huà)式交互是否真的能夠成為AI交互的終極答案。
人機(jī)交互方式,被認(rèn)為是AI時(shí)代最重要的變化之一。
在這個(gè)交互革命的故事里,以對(duì)話(huà)為代表的自然語(yǔ)言被認(rèn)為將取代傳統(tǒng)GUI(圖形界面)的交互方式。原因看上去很簡(jiǎn)單,因?yàn)閷?duì)話(huà)更接近于人類(lèi)現(xiàn)實(shí)世界的溝通方式。
但并不是所有人都這么認(rèn)為的。不久前,國(guó)外一位名叫Julian Lehr的作者,就寫(xiě)了一篇《反對(duì)對(duì)話(huà)式界面(LUI)的理由》文章。
在這篇文章里,作者從數(shù)據(jù)傳輸?shù)囊暯?,詳?xì)闡述了分析人機(jī)交互方式的邏輯,最終得出結(jié)論:語(yǔ)音這種新的交互形態(tài)更多是現(xiàn)有交互形式的補(bǔ)充,并不能完全取代GUI交互。
01 自然語(yǔ)言的第N次革命
每隔幾年,就會(huì)出現(xiàn)一個(gè)耀眼的人工智能新進(jìn)展,科技界人士就會(huì)大呼“就是它了!下一個(gè)計(jì)算范式來(lái)了!以后我們只會(huì)用自然語(yǔ)言了!”。
但之后一切實(shí)際上都沒(méi)發(fā)生改變,我們?nèi)匀幌褚郧耙粯邮褂糜?jì)算機(jī),直到幾年后這場(chǎng)爭(zhēng)論再次浮出水面。
我們已經(jīng)經(jīng)歷過(guò)幾次這樣的周期:虛擬助手(Siri)、智能揚(yáng)聲器(Alexa、Google Home)、聊天機(jī)器人(“對(duì)話(huà)商務(wù)”)、AirPods即平臺(tái),以及最近的大型語(yǔ)言模型。
不知道為什么大家都會(huì)對(duì)對(duì)話(huà)很癡迷?;蛟S是人們看到“自然語(yǔ)言”這個(gè)詞,就會(huì)想:“好吧,如果它是自然的,那它一定是合乎邏輯的最終狀態(tài)?!?/p>
但我告訴你,事實(shí)并非如此。
02 自然語(yǔ)言,一種數(shù)據(jù)傳輸機(jī)制
當(dāng)人們說(shuō)“自然語(yǔ)言”時(shí),他們指的是書(shū)面或口頭交流。自然語(yǔ)言是人類(lèi)之間交換思想和知識(shí)的一種方式。換句話(huà)說(shuō),它是一種數(shù)據(jù)傳輸機(jī)制。
在數(shù)據(jù)傳輸機(jī)制里,有兩個(gè)關(guān)鍵因素:速度和損耗。
速度決定了數(shù)據(jù)從發(fā)送方傳輸?shù)浇邮辗降乃俣?,而損耗則是指數(shù)據(jù)傳輸?shù)臏?zhǔn)確性。理想情況下,數(shù)據(jù)傳輸能以最高速度(即時(shí))和完美保真度(無(wú)損)進(jìn)行,但這兩個(gè)屬性通常需要權(quán)衡。
那么,自然語(yǔ)言在速度上表現(xiàn)如何呢?
需要指出的是,這些數(shù)據(jù)點(diǎn)只是非常簡(jiǎn)化的平均值。這張表格中重要的部分并非單個(gè)數(shù)字的準(zhǔn)確性,而是整體模式:我們接收數(shù)據(jù)(閱讀、聆聽(tīng) )的速度明顯快于發(fā)送數(shù)據(jù)(寫(xiě)作、說(shuō)話(huà))。這就是為什么我們可以以2倍速收聽(tīng)播客,但不能以2倍速錄制。
為了更好地理解書(shū)寫(xiě)和說(shuō)話(huà)的速度,我們以每分鐘1000-3000個(gè)單詞的速度形成思維。自然語(yǔ)言雖然很自然,但它卻是一個(gè)瓶頸。
然而,想想你與他人的日?;?dòng),你會(huì)發(fā)現(xiàn)大多數(shù)交流都感覺(jué)非??旖莞咝?。這是因?yàn)樽匀徽Z(yǔ)言只是我們眾多可用的數(shù)據(jù)傳輸機(jī)制之一。
比如,與其說(shuō)“我覺(jué)得你剛才說(shuō)的主意很棒”,我不如直接豎起大拇指,或者點(diǎn)點(diǎn)頭,或者干脆笑一笑。
手勢(shì)和面部表情實(shí)際上是一種數(shù)據(jù)壓縮技術(shù)。它們以更緊湊但損耗更大的形式對(duì)信息進(jìn)行編碼,以便更快、更方便地傳輸。
自然語(yǔ)言非常適合需要高保真度的數(shù)據(jù)傳輸(或作為異步通信的數(shù)據(jù)存儲(chǔ)機(jī)制),但只要有可能,我們就會(huì)切換到其他更快捷、更省力的溝通方式。因?yàn)樗俣群捅憬萦肋h(yuǎn)信息交互中,最重要的事情。
我最喜歡的真正輕松溝通的例子,是我對(duì)祖父母的記憶。在早餐桌上,我的祖母從來(lái)不用開(kāi)口要黃油——我的祖父似乎總是會(huì)下意識(shí)地把黃油遞給她,因?yàn)榻Y(jié)婚五十多年后,他能感覺(jué)到祖母要黃油了,他們就像心靈感應(yīng)一樣。
這就是我想要與我的計(jì)算機(jī)建立的關(guān)系類(lèi)型。
03 為什么對(duì)話(huà)不是最佳答案?
與人與人之間的交流類(lèi)似,人與計(jì)算機(jī)之間也存在不同的數(shù)據(jù)傳輸機(jī)制來(lái)交換信息。在計(jì)算機(jī)發(fā)展的早期,用戶(hù)通過(guò)命令行與計(jì)算機(jī)交互。這些基于文本的命令實(shí)際上是一種自然語(yǔ)言界面,但需要精確的語(yǔ)法和對(duì)系統(tǒng)的深入理解。
GUI(圖形用戶(hù)界面)的引入主要解決了一個(gè)發(fā)現(xiàn)問(wèn)題:無(wú)需記住確切的文本命令,現(xiàn)在可以通過(guò)菜單和按鈕等可視化元素導(dǎo)航和執(zhí)行任務(wù)。這不僅讓操作變得更容易,也更加便捷:點(diǎn)擊按鈕比輸入長(zhǎng)文本命令更快。
今天,我們生活在一個(gè)將圖形界面與基于鍵盤(pán)的命令相結(jié)合的生產(chǎn)力平衡中。
我們?nèi)匀皇褂檬髽?biāo)來(lái)導(dǎo)航并告訴計(jì)算機(jī)下一步做什么,但日常操作通常以快速鍵盤(pán)按下的形式來(lái)傳達(dá):? b將文本格式化為粗體,? t打開(kāi)新選項(xiàng)卡,? c / v快速將內(nèi)容從一個(gè)地方復(fù)制到另一個(gè)地方,等等。
然而,這些快捷方式并非自然語(yǔ)言。它們是另一種形式的數(shù)據(jù)壓縮。就像豎起大拇指或點(diǎn)頭一樣,它們幫助我們更快地溝通。
現(xiàn)代生產(chǎn)力工具將這些數(shù)據(jù)壓縮快捷方式提升到了一個(gè)新的高度。在Linear、Raycast或Superhuman等工具中,每個(gè)命令都只需按一下鍵即可完成。
一旦建立了肌肉記憶,數(shù)據(jù)輸入就會(huì)變得毫不費(fèi)力。這幾乎就像在早餐桌上有人遞上黃油,而無(wú)需開(kāi)口索要一樣。
觸控界面被認(rèn)為是人機(jī)交互進(jìn)化史上的第三個(gè)關(guān)鍵里程碑,但它一直以來(lái)都更多地是對(duì)桌面計(jì)算的增強(qiáng),而非替代。智能手機(jī)非常適合“遠(yuǎn)離鍵盤(pán)”的工作流程,但重要的生產(chǎn)力工作仍然在桌面上進(jìn)行。
這是因?yàn)槲谋静⒎且苿?dòng)設(shè)備原生的輸入機(jī)制。
實(shí)體鍵盤(pán)感覺(jué)就像身心自然延伸,但在手機(jī)上打字總是有點(diǎn)不方便——這體現(xiàn)在數(shù)據(jù)傳輸速度上:移動(dòng)設(shè)備上的平均打字速度僅為每分鐘36個(gè)字,明顯低于桌面設(shè)備上每分鐘約60個(gè)字的速度。
我們已經(jīng)能夠用移動(dòng)設(shè)備專(zhuān)用的數(shù)據(jù)壓縮算法(例如表情符號(hào)或Snapchat自拍)取代自然語(yǔ)言,但我們從未找到過(guò)與鍵盤(pán)快捷鍵相當(dāng)?shù)囊苿?dòng)端應(yīng)用。
想想看,為什么iPhone推出近20年后,我們?nèi)匀粵](méi)有一款真正以移動(dòng)為先的生產(chǎn)力應(yīng)用?
你可以會(huì)說(shuō),語(yǔ)音為什么不會(huì)取代文本?
從數(shù)據(jù)上看,語(yǔ)音信息的使用量正在增加。
雖然說(shuō)話(huà)(每分鐘150字)確實(shí)比打字(每分鐘60字)傳輸數(shù)據(jù)更快,但這并不意味著它就是一種更好的與計(jì)算機(jī)交互的方式。
過(guò)去我們總認(rèn)為,Alexa或Siri這樣的語(yǔ)音界面之所以失敗,是因?yàn)锳I不夠智能。但這只是故事的一半。
交互的核心問(wèn)題從來(lái)不是輸出功能的質(zhì)量,而是輸入功能的不便:
像“嘿,谷歌,今天舊金山的天氣怎么樣?”這樣的自然語(yǔ)言提示,比直接點(diǎn)擊主屏幕上的天氣應(yīng)用要花10倍的時(shí)間。
大模型(LLM)并不能解決這個(gè)問(wèn)題。它們的輸出質(zhì)量正在以驚人的速度提升,但輸入方式卻與我們現(xiàn)有的相比大相徑庭。我明明可以直接按個(gè)按鈕或鍵盤(pán)快捷鍵,為什么還要用自然語(yǔ)言描述我想要的操作呢?直接遞給我黃油就行了。
04 對(duì)話(huà)式UI,更像是現(xiàn)有交互的增強(qiáng)
這并不是說(shuō)大模型不好。事實(shí)上,這篇文章就是在大模型幫助下完成的。
但與典型的人機(jī)指令不同,與大模型的交互更像是一次真誠(chéng)、深入的對(duì)話(huà)和思想交流。在這種特殊的工作流程里,交互的速度并不是最重要的因素。
值得注意的是,ChatGPT開(kāi)辟了一個(gè)新的應(yīng)用場(chǎng)景,而沒(méi)有取代現(xiàn)在其他的軟件。
這就是我的核心論點(diǎn):對(duì)話(huà)界面的不便性和較差的數(shù)據(jù)傳輸速度,使得它們不太可能取代現(xiàn)有的交互模式,他只是對(duì)現(xiàn)有計(jì)算交互的一個(gè)補(bǔ)充。
讓我印象比較深刻的對(duì)話(huà)式交互的應(yīng)用案例是,在一次黑客馬拉松比賽中,個(gè)團(tuán)隊(duì)將亞馬遜Alexa改造成了《星際爭(zhēng)霸II》的游戲內(nèi)語(yǔ)音助手。語(yǔ)音沒(méi)有取代鼠標(biāo)和鍵盤(pán),而是作為一種額外的輸入機(jī)制,增加了數(shù)據(jù)傳輸?shù)膸挕?/p>
你會(huì)發(fā)現(xiàn),同樣的模式適用于任何類(lèi)型的知識(shí)型工作,當(dāng)你忙于其他事情時(shí),語(yǔ)音命令就成了一種便捷的交互方式。
我們不會(huì)用聊天界面取代Figma、Notion或Excel,也不需要在這些工具和大模型之間頻繁切換。
相反,AI應(yīng)該充當(dāng)一個(gè)始終在線(xiàn)的命令元層,可以調(diào)用所有工具。用戶(hù)應(yīng)該能夠通過(guò)簡(jiǎn)單的語(yǔ)音提示從任何地方觸發(fā)操作,而無(wú)需中斷當(dāng)前正在使用鼠標(biāo)和鍵盤(pán)的操作。
要實(shí)現(xiàn)這一點(diǎn),AI需要在操作系統(tǒng)層面發(fā)揮作用。它不僅是單一工具的界面,而是跨工具的界面。
正如Kevin Kwok寫(xiě)道:“生產(chǎn)力和協(xié)作不應(yīng)是兩個(gè)獨(dú)立的工作流程。”雖然他指的是人與人之間的協(xié)作,但在人與人工智能協(xié)作的世界里,這句話(huà)更加貼切,因?yàn)樯a(chǎn)力和協(xié)作之間的界限正變得越來(lái)越模糊。
我們要做的的第二件事是。如何壓縮語(yǔ)音輸入以加快傳輸速度。
比如,在語(yǔ)音交互里,什么話(huà)相當(dāng)于豎起大拇指或鍵盤(pán)快捷鍵?或許我能用簡(jiǎn)單的聲音和口哨更快地提示克勞德嗎?ChatGPT是否應(yīng)該有權(quán)訪(fǎng)問(wèn)我的攝像頭,以便它能夠根據(jù)我的面部表情實(shí)時(shí)更改答案?
畢竟,作為輔助界面,速度和便利性才是最重要的。
05 總結(jié)
我并不是反對(duì)對(duì)話(huà)界面,而是反對(duì)將其作用過(guò)度夸大。
我們花了太多時(shí)間思考人工智能如何替代(界面、工作流程和工作),卻很少思考它如何補(bǔ)充。
從過(guò)去看,技術(shù)的進(jìn)步很少遵循簡(jiǎn)單的替代路徑。它往往開(kāi)啟了全新的、前所未有的事物,而不僅僅是取代之前的一切。
這一點(diǎn)也在A(yíng)I上也同樣適用。未來(lái),聊天界面并不是要取代現(xiàn)有的計(jì)算范式,而是要增強(qiáng)它們,使人機(jī)交互變得輕松自如。
原文鏈接:https://julian.digital/2025/03/27/the-case-against-conversational-interfaces/
本文由人人都是產(chǎn)品經(jīng)理作者【烏鴉智能說(shuō)】,微信公眾號(hào):【烏鴉智能說(shuō)】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來(lái)自Unsplash,基于 CC0 協(xié)議。
- 目前還沒(méi)評(píng)論,等你發(fā)揮!