十問(wèn)Chat:關(guān)于LUI,你知道多少?

0 評(píng)論 2254 瀏覽 3 收藏 19 分鐘

隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)言用戶界面(LUI)逐漸成為人機(jī)交互的新寵。然而,這種看似自然直觀的交互方式是否真的適合所有場(chǎng)景?本文通過(guò)深入探討ChatGPT等LUI形態(tài)的局限性,提出了一系列引人深思的問(wèn)題,并提供了當(dāng)前的一些解決方案。

從ChatGPT開(kāi)始到現(xiàn)在,似乎我們默認(rèn)了所謂的LUI(Language User Interface),不過(guò)黃叔從來(lái)沒(méi)有覺(jué)得這是應(yīng)該的,也隨著對(duì)于AI產(chǎn)品研究的逐漸深入,在5月份情感陪伴這篇文章,就清晰的指出:

大部分人被ChatGPT和C.ai騙了!

那今天,我們進(jìn)一步闡述Chat這種LUI形態(tài)是如何的“反人類”,更多是提出問(wèn)題,也給出當(dāng)前的一些解決方案,希望能為從業(yè)者們提供一些靈感,歡迎大家互通有無(wú)。

有位朋友總結(jié)的挺好的:“Chat更像是早期尋找PMF的交互形態(tài), 給人曠野而非軌道?!毕M蠹夷芨玫恼业阶约旱能壍溃海?/p>

Q1:Chat對(duì)話的自然性和信息效率之間存在矛盾?

我們都知道目前的AI產(chǎn)品大部分很容易遇到天花板問(wèn)題,比如Kimi的增長(zhǎng)已經(jīng)非常明顯卡住了:

這背后當(dāng)然存在多個(gè)層面的因素影響了,但AI應(yīng)用至少在國(guó)內(nèi),我們能很明顯看到還處在一個(gè)早期階段,有一點(diǎn)很明顯的是:

Chat對(duì)話是很自然的,很符合日常交流的,但是和信息的效率(包含輸入和獲?。┲g,似乎存在很大的矛盾。

這是一個(gè)很大的話題,作為本篇文章的起始,后面黃叔會(huì)嘗試從多個(gè)角度拋磚引玉:文字是線性的!Prompt的存在就是逆天開(kāi)放性vs目標(biāo)導(dǎo)向文字輸入vs多模態(tài)輸入不適合用Chat的形態(tài)文字輸出vs多模態(tài)輸出用戶認(rèn)知和預(yù)期管理問(wèn)題個(gè)性化和定制化能力不足大家都被ChatGPT和Cai騙了

Q2:文字是線性的。。。

平克說(shuō)過(guò)非常有名的一段話:

寫作之難,在于將網(wǎng)狀的思想,通過(guò)樹(shù)狀的句法,用線性的文字展開(kāi)

我們大腦中有無(wú)數(shù)碎片化的想法,你要找到一條最佳的文字線串起來(lái),這件事情對(duì)于人類來(lái)說(shuō),是普遍非常難的,所以在搜索這個(gè)人類最大的輸入框里,大量的Query都是短詞。

如果無(wú)法用文字清晰的表達(dá)自己究竟想要的是什么,意味著Chat形態(tài)不是老百姓最好的和AI交互的形態(tài)。

這里還會(huì)有進(jìn)一步的影響:認(rèn)知負(fù)荷和互動(dòng)深度。

一個(gè)是用戶在上下文中,自己就需要記住之前的對(duì)話內(nèi)容,這增加了認(rèn)知負(fù)擔(dān),另一個(gè)是線性文字限制了互動(dòng)的深度和廣度,難以實(shí)現(xiàn)復(fù)雜的交互和多層次的信息傳遞。

Q3:Chat需要Prompt功能才能獲得好結(jié)果?

Prompt是什么?Prompt是Chat交互形態(tài)下自然長(zhǎng)出來(lái)的一個(gè)玩意。

Andrej Karpathy在2023年5月,微軟build大會(huì)上,分享過(guò)《State of GPT》,其中具體說(shuō)了Prompt是人類語(yǔ)言和機(jī)器語(yǔ)言之間的橋梁,我們需要用Prompt來(lái)彌補(bǔ)人類思維與機(jī)器處理方式之間的差異。

這也是因?yàn)榇竽P捅旧砭突诤A康臄?shù)據(jù)做的訓(xùn)練,你需要更加細(xì)致的描述,才能讓它知道你具體需要什么。

對(duì)應(yīng)的,用戶如果希望獲得更高質(zhì)量的AI生成的內(nèi)容,也需要輸入更高質(zhì)量的Prompt,現(xiàn)在你理解為何會(huì)有提示詞工程師這么一個(gè)職業(yè)存在的原因了吧:

Q4:在 Chat 對(duì)話中融入 GUI元素是否可行?

既然輸入那么難,那么能不能在Chat對(duì)話中融入GUI元素?

舉一個(gè)具體例子大家可以更清晰的理解,比如你去看病,醫(yī)生肯定會(huì)問(wèn)一些關(guān)鍵信息,但會(huì)問(wèn)你哪些關(guān)鍵信息其實(shí)是背后大量的診療經(jīng)驗(yàn),以及基于望聞問(wèn)切,甚至是病歷做出的,這個(gè)過(guò)程,用一個(gè)對(duì)你過(guò)去信息知道不多的大模型來(lái)多輪對(duì)話,顯然效率很低,在夸克瀏覽器里,我們就看到一個(gè)不錯(cuò)的案例:

這個(gè)就是GUI(GUI是”Graphical User Interface”的縮寫,中文通常翻譯為”圖形用戶界面”)比起LUI的好處:

GUI是點(diǎn)擊操作,可以觸發(fā)預(yù)置好的信息,關(guān)鍵在【預(yù)置】,用選擇代替輸入,效率上比Chat高很多倍。 (from @杜昭)

有和夸克的同學(xué)交流過(guò),AI健康問(wèn)答這個(gè)場(chǎng)景,也是他們著重發(fā)力的,拿了大量的數(shù)據(jù)以及找了專業(yè)的醫(yī)生團(tuán)隊(duì)做了驗(yàn)證后,抽象出來(lái)的補(bǔ)充信息模塊。

另外,即刻上的@申悅 也給了個(gè)案例,智譜的智能體里,輸入也增加了表單,可以更方便的用戶知道應(yīng)該輸入什么信息:

可以看到,GUI對(duì)于Chat的開(kāi)放性是有很好的約束作用的,面對(duì)空白的輸入框,用戶很容易發(fā)懵:“我到底應(yīng)該輸入啥才能獲得好答案?”,GUI限定條件后,用戶能更明確一些。

Q5:除了文字輸入,還有哪些更便捷、高效的輸入方式能夠應(yīng)用于 Chat 對(duì)話,以降低用戶的表達(dá)門檻?

有很多方式,不是所有的方式都依賴于文字輸入。

我們?cè)谇楦信惆橐晃牡目偨Y(jié)中,提到了情感陪伴實(shí)際上是內(nèi)容消費(fèi)的邏輯,那對(duì)應(yīng)的,抖音是一種上下滑和雙擊屏幕就能完成的輕互動(dòng)內(nèi)容消費(fèi)產(chǎn)品,那AI生成的內(nèi)容產(chǎn)品里,如何借用呢?

美團(tuán)WOW的互動(dòng)故事就提供了一種可能性,AI先生成一個(gè)章節(jié),然后給出選項(xiàng)用戶點(diǎn)擊選擇(也可以手動(dòng)輸入),AI繼續(xù)生成,循環(huán)如此:

除了上面這種,最典型的就是語(yǔ)音輸入,甚至是實(shí)時(shí)語(yǔ)音互動(dòng),最為典型的就是GPT-4o,非常炸裂的發(fā)布會(huì)我們都看到了,300ms以內(nèi)的低時(shí)延,擊穿了“實(shí)時(shí)性”這個(gè)人類能感知到的節(jié)點(diǎn)。

大量的AI助手,也強(qiáng)依賴于語(yǔ)音交互,典型的比如Siri、小愛(ài)同學(xué),車機(jī)上的“理想同學(xué)”“Nomi”等等。

當(dāng)然難度也是語(yǔ)音識(shí)別的準(zhǔn)確性,以及環(huán)境噪音、用戶有口音,以及用戶輸入意愿度的問(wèn)題,特別是語(yǔ)音交互里,長(zhǎng)文本的對(duì)話就不現(xiàn)實(shí)了,比如MiniMax的海螺AI,當(dāng)打開(kāi)實(shí)時(shí)語(yǔ)音對(duì)話時(shí),AI的人設(shè)就會(huì)變成傾向于短回答來(lái)保證交互效率。

除此之外,圖片、視頻輸入更為典型,圖片輸入比如前陣子的網(wǎng)紅應(yīng)用胃之書(shū):

它的輸入并不需要輸入文字,點(diǎn)擊拍照,然后大模型就會(huì)自動(dòng)解析,幾乎全自動(dòng)的完成了錄入。

再比如360AI搜索,增加了拍照上傳功能:

更經(jīng)典的解決方案是雷鵬眼鏡,在鏡框上面增加攝像頭,真正做到了所見(jiàn)即所得,用“Hi,meta”作為喚醒詞即可調(diào)用AI完成交互:

所以,AI眼鏡是蠻有未來(lái)機(jī)會(huì)的一種新硬件載體。

Q6:有不適合用Chat的形態(tài)么?

很典型的,Notion AI推出之后,大家也更能理解對(duì)于寫作,inline非常重要,即:在文本中間整合加入AI能力,才能更有效的幫助用戶完成創(chuàng)作:

同樣是文字處理,但是直接在內(nèi)容里嵌入AI能力,并且點(diǎn)選即可完成,這種效率似乎提高了不是一星半點(diǎn)。

當(dāng)然,Notion AI同樣加入了Copilot,用對(duì)話來(lái)幫助用戶更好的使用更多AI能力。

這種呢,就是比較復(fù)雜的文字處理,不便于在Chat線性的交互形態(tài)里完成,所以需要inline的邏輯來(lái)做,對(duì)應(yīng)的,我們可以引申一下:

  • 復(fù)雜的數(shù)據(jù)分析和可視化(Excel等)
  • 長(zhǎng)篇文檔編輯和排版(Notion AI)
  • 實(shí)時(shí)協(xié)作和團(tuán)隊(duì)溝通高度專業(yè)化的技術(shù)開(kāi)發(fā)(Github Copilot)
  • 設(shè)計(jì)和創(chuàng)意工作(視頻工作流單純的Chat不好做)
  • 教育和培訓(xùn)(高度互動(dòng)的教學(xué))

Q7:AI除了輸出文字,不能輸出其他形態(tài)的內(nèi)容么?

ChatGPT誕生至今,大量的ChatBot都以文字輸入輸出為核心,這也導(dǎo)致我們?cè)谏弦黄妒畣?wèn)AI搜索》中提出一個(gè)問(wèn)題:

AI搜索是一種退化?結(jié)論:搜索從10個(gè)鏈接到1個(gè)答案是進(jìn)化,但從視頻到文字是退化

我們可以看一下抖音的AI搜索,如上~

抖音的日活達(dá)到7個(gè)億以后,我相信已經(jīng)有非常多所謂下沉市場(chǎng)的用戶在使用了,他們已經(jīng)非常的習(xí)慣于刷短視頻來(lái)獲取信息了,那上面的文字版本的抖音AI搜索是不是一種所謂的倒退呢?或許用戶在看到抖音里出現(xiàn)大片段文字的時(shí)候,會(huì)直接關(guān)掉。

交叉對(duì)比,我有和小紅書(shū)的運(yùn)營(yíng)交流過(guò),小紅書(shū)其實(shí)鼓勵(lì)我多去發(fā)圖文筆記,因?yàn)橐欢€的用戶對(duì)于圖文筆記的吸收效率是最快的,想想圖文筆記的結(jié)構(gòu)化和信息提取速度,一目十行,可以非常快的就理解到你表達(dá)的意思。但是視頻內(nèi)容其實(shí)就更加的線性,只能隨著視頻內(nèi)容的按時(shí)間展開(kāi):

兩者結(jié)合,會(huì)發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象:

  • 一二線城市受過(guò)高等教育的用戶更容易接受圖文結(jié)構(gòu)化的信息;
  • 三四線城市/農(nóng)村的用戶,只能接受視頻信息。

這也意味著,AI產(chǎn)品想要突破當(dāng)前的圈層,勢(shì)必要延展出去,有更多模態(tài)的內(nèi)容呈現(xiàn),才能讓用戶更加容易吸收。

我們會(huì)發(fā)現(xiàn)很多產(chǎn)品開(kāi)始逐漸增加對(duì)多模態(tài)的支持,比如Genspark重新組織了Sparkpage在內(nèi)容形式的組織上,比如一些AI游戲,把AI融入到游戲中的嘗試,都非常的有趣。比如百川也做了碟鏡Dreamland:

還有AiPPT類內(nèi)容的組織,也很好的實(shí)現(xiàn)了Query to PPT方式的形態(tài),比如做得很好的Gamma:

這塊隨著技術(shù)的成熟也會(huì)逐漸開(kāi)始發(fā)展起來(lái),值得期待。

除了上面輸入輸出方面的的問(wèn)題之外,還有下面的問(wèn)題:

Q8:用戶認(rèn)知和預(yù)期管理問(wèn)題?

ChatBot形式的交互界面,很容易讓用戶高估 AI 的理解和解決問(wèn)題的能力。

那我自己舉例子,作為一名蔚來(lái)車主,在看到蔚來(lái)宣傳Nomi接入大模型,升級(jí)為NomiGPT后,就嘗試做一些交流,但會(huì)發(fā)現(xiàn)很多問(wèn)題給的答案都很差,就會(huì)默認(rèn)覺(jué)得NomiGPT不行,下意識(shí)的會(huì)拒絕使用。

其實(shí)作為車機(jī)里的GPT,應(yīng)該非常清晰的給出一些關(guān)鍵指引,比如用車相關(guān),車控相關(guān),這樣更容易讓用戶找到Good Case,而不是面面俱到,很容易就遇到Bad Case,宣傳角色扮演、樹(shù)洞情感陪伴,這種非常不好。

假如說(shuō)1000萬(wàn)次的總聊天互動(dòng)次數(shù),那角色扮演和情感陪伴只占到總數(shù)的千分之二三,并且這兩點(diǎn)其實(shí)最先進(jìn)的大模型都滿足的不好,何況一個(gè)接入了國(guó)產(chǎn)大模型的Nomi。

這背后就涉及到,要明確產(chǎn)品定位和功能邊界: 讓用戶清楚地知道 AI 產(chǎn)品能做什么,不能做什么。同時(shí)加強(qiáng)用戶的引導(dǎo),再不斷提高用戶常見(jiàn)Query的效果。

Q9:個(gè)性化和定制化能力不足?

既然是Chat,用戶會(huì)把AI當(dāng)成某個(gè)角色在腦海中進(jìn)行演繹,但目前許多 Chatbot 產(chǎn)品就像流水線生產(chǎn)的“標(biāo)準(zhǔn)化”機(jī)器人,缺乏“個(gè)性”和“溫度”,無(wú)法滿足用戶對(duì)獨(dú)特體驗(yàn)的需求。

比如,很多 Chatbot 的語(yǔ)言風(fēng)格過(guò)于機(jī)械、生硬,缺乏情感和個(gè)性,無(wú)法與用戶建立情感連接。用戶難以感知到 Chatbot 的“人設(shè)”,更像是在與一個(gè)冰冷的機(jī)器對(duì)話。

比如,理想情況下,Chatbot 應(yīng)該像一個(gè)貼心的朋友一樣,記住用戶的喜好和習(xí)慣,提供更加個(gè)性化的服務(wù)。但現(xiàn)實(shí)是,很多 Chatbot 缺乏記憶能力,無(wú)法根據(jù)用戶的歷史行為和偏好進(jìn)行個(gè)性化推薦或服務(wù)。

能部分做到這一點(diǎn)的,拿到了OpenAI投資的Dot,在即刻已經(jīng)發(fā)現(xiàn)一些朋友對(duì)這款產(chǎn)品極度的喜愛(ài):

當(dāng)然,受限于前面說(shuō)的幾個(gè)問(wèn)題,也會(huì)影響它被大眾接受的廣泛度。

再比如,很多 Chatbot 產(chǎn)品的功能和服務(wù)都是固定的,用戶無(wú)法根據(jù)自己的需求進(jìn)行定制化設(shè)置。例如,用戶無(wú)法選擇 Chatbot 的語(yǔ)言風(fēng)格、對(duì)話主題、信息推送頻率等。

還有,很多 Chatbot 產(chǎn)品的設(shè)計(jì)目標(biāo)是服務(wù)于大眾用戶,缺乏對(duì)特定場(chǎng)景和用戶群體的針對(duì)性設(shè)計(jì)。例如,面向老年人的 Chatbot 產(chǎn)品應(yīng)該是什么樣的?或者說(shuō)并不需要一個(gè)ChatBot,而是一個(gè)人形機(jī)器人?

總而言之,個(gè)性化和定制化是 Chatbot 產(chǎn)品未來(lái)發(fā)展的重要方向。

Q10:大家都被ChatGPT和Character.ai騙了?

這個(gè)問(wèn)題的核心在于,ChatGPT和Character.ai等聊天型AI產(chǎn)品是否在某種程度上誤導(dǎo)了用戶對(duì)AI的期望和認(rèn)知。

首先,Chat這種形態(tài)的引入,還是把AI模擬成了人類,從圖靈測(cè)試開(kāi)始,似乎大家對(duì)于AI就有了這種感性的認(rèn)知,似乎Chat是必然的智能表現(xiàn)的形態(tài):

特別是ChatGPT和Character.ai流暢的對(duì)話能力,給用戶帶來(lái)了高度智能的錯(cuò)覺(jué)。

所謂的LUI范式出現(xiàn)了。對(duì)應(yīng)的問(wèn)題一直沒(méi)有答案:

LUI是不是符合用戶需求的最佳范式?

沒(méi)有答案,大家都一直在探索,個(gè)人認(rèn)為,LLM的智能,只用Chat來(lái)表達(dá)是非常狹隘的,隨著GPT4o和Gemini 1.5的多模態(tài)能力出現(xiàn),我們也發(fā)現(xiàn)了GPT5遲遲無(wú)法發(fā)布的前提下,大模型仍然在進(jìn)化,也出現(xiàn)了更多的應(yīng)用落地可能性。

把思考抽出來(lái),重新理解Chat的局限,也有助于我們更好的設(shè)計(jì)產(chǎn)品。

本文由人人都是產(chǎn)品經(jīng)理作者【Super黃】,微信公眾號(hào):【AI產(chǎn)品黃叔】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒(méi)評(píng)論,等你發(fā)揮!