深度剖析豆包AI耳機Ola friend
在各家都還在做APP尋找大模型的使用場景時,字節(jié)已經開發(fā)了與AI大模型結合的硬件產品——Ola friend。雖然不是第一個,但字節(jié)的這款硬件產品,有何獨特之處?這篇文章,我們看看作者的分析。
上次分享了《深度剖析字節(jié)豆包AI》這篇文章后,比較有趣的是事情是,收到了很多大廠圈的朋友的反饋,其中也包括字節(jié)內部的同學,一方面文章在幫助他們面試字節(jié)AI相關崗位的時候發(fā)揮了很大作用,其次是對于AI產品和商業(yè)不太熟悉的同學,讀完也會有些收獲,這些熱情反饋給了三白更多的創(chuàng)作熱情,今天分享的是字節(jié)最近剛推出的另外一個AI產品:豆包AI耳機Ola Friend。
全文累計1.7萬字,閱讀預計需要20分鐘,內容包括七個探討主題,覆蓋產品、行業(yè)、用戶需求、競品、商業(yè)等多個領域,為提升大家的閱讀效率,全篇內容我整理了一個腦圖如下:
為什么要寫這篇文章?
大模型在應用端的落地,是整個行業(yè)都在關注的問題。
過去一年AI在軟件端的落地說實話并沒有呈現(xiàn)明星應用大爆發(fā)的情況,一方面國內只有少數(shù)幾個產品在大廠流量和大量投放的情況下達到月活千萬級別;另一方面有大量的AI應用面臨成本比較高且商業(yè)化變現(xiàn)困難的難題;逐漸的大家也開始把目光轉移到AI硬件,大家普遍的認知都認為,相比購買一個云端的AI軟件應用,用戶更愿意為一個看得見摸得著的AI硬件產品付費;10月字節(jié)的豆包耳機Ola Friend發(fā)布之后,國內投資圈開始掀起對于AI硬件領域的關注熱潮。
從產品發(fā)布后的第一天開始,三白便一直保持著對豆包AI耳機的關注,并且還有幸參加了字節(jié)官方組織的“智能硬件x大模型”行業(yè)解決方案交流活動,我個人十分認可未來AI在硬件領域的應用,隨著目前大模型、芯片、音視頻等技術的發(fā)展,能提供良好的產品體驗的AI硬件已經是一個觸手可及的事情,為了讓自己能夠更加深入的了解這個行業(yè),我花了將近1周的時間整理輸出了這篇研究分析。
之所以開始關注AI硬件領域,與自身相關的,一方面是在從事了8年的互聯(lián)網(wǎng)軟件應用領域的工作后,深深的覺得,純軟件應用領域的發(fā)展已經有瓶頸了,這個行業(yè)已經進入成熟期,潛在的機會也越來越少;相比之下,我更加認同“軟硬一體”的產品領域的發(fā)展,所以好好研究一下說不定以后能夠在這個領域找到下一個更好的創(chuàng)業(yè)、投資、或者求職的機會;我一直都認可一個說法,如果你認可一個行業(yè),就應該搞清楚它,并通過創(chuàng)業(yè)、投資,以及入職一家公司的方式去追逐這個行業(yè),它能給自己帶來紅利。
另一方面,現(xiàn)在和我一樣想要了解清楚AI硬件行業(yè)的人也越來越多了,所以我也想借著自己的文筆和研究,花點時間輸出一點東西,幫助一下大家。
文章適合哪些朋友?
- 有意愿從事AI硬件行業(yè),或者想要入職像華為、OPPO、小米、Vivo等手機廠商,或者其他國內知名消費硬件廠商、大廠Ai硬件團隊的朋友;
- 有意愿投資AI硬件行業(yè),或者想要在該領域做創(chuàng)業(yè)項目的朋友;
- 正在研究AI硬件行業(yè)或者具體產品的研究人員;
我將分享哪些內容?
概括起來,我將分享如下7個主題:
- 產品概述:分享產品的基本信息、交互、使用場景、用戶反饋、供應鏈等;
- 產品定位思考:思考如何看待字節(jié)布局AI,以及豆包AI耳機的產品定位;
- 所在行業(yè)分析:分享AI硬件行業(yè)賽道布局、智能耳機行業(yè)賽道布局和行業(yè)動態(tài)信息等;
- 用戶需求思考:分享消費者對智能耳機和AI耳機的訴求,以及豆包AI耳機的滿足情況,技術挑戰(zhàn)等;
- 產品競爭分析:分享競品動態(tài),以及對字節(jié)在AI耳機的競爭力思考;
- 商業(yè)模式思考:思考AI耳機的商業(yè)模式、利潤空間問題;
- 產品局限和未來發(fā)展思考;
聲明:其中大部分內容輸出來自于個人思考、圈內朋友的交流和討論,以及個人通過廣泛收集大量的高質量的參考資料,通過AI效率工具快速整理輸出。
一、產品概述
1.1 產品基本信息
字節(jié)豆包于 10 月 10 日發(fā)布首款 AI 智能體耳機 Ola Friend,Ola Friend接入豆包大模型,與豆包 APP 深度結合,用戶戴上耳機后,無需打開手機,便能通過語音喚起豆包進行對話。目前,Ola Friend 已經在各大電商平臺開啟售賣,售價 1199 元。
Ola Friend是一款OWS開放式耳機,單耳僅重6.6克,設計上簡潔而美觀,擁有多種配色和充電倉選擇。同時還搭載了 5 核音頻芯片,支持專業(yè)聲音解析和智能降噪算法,保證耳機本身的優(yōu)秀音質。
1.2 產品交互形態(tài)
- 豆包AI耳機首先需要連接手機端豆包APP,連接后才可使用,耳機和手機APP的連接方式是通過藍牙建立連接,所以產品的使用需要確保耳機和手機在藍牙連接范圍之內;
- 在藍牙連接距離內,使用時,可以脫離手機,通過觸摸或語音指令即可喚醒豆包APP,然后使用豆包APP的功能;
- 本質上,所有的AI功能其實是在APP端完成的,耳機只是作為一個接收APP輸出音頻內容信息的載體,耳機本身并沒有部署端側模型,耳機本身內置的芯片也主要是解決耳機自身音頻識別、音頻轉碼、降噪等功能,并不設計大模型的算力消耗;
大致繪畫一下使用過程中數(shù)據(jù)交互的邏輯如下:
- 用戶通過聲音發(fā)出語音質量,耳機通過識別傳感器獲取音頻信息,然后將信息通過藍牙傳遞給豆包APP;
- 豆包APP將語音轉文字后輸入給大模型,大模型生成問答結果輸出給豆包APP;
- 豆包APP將文本內容合成為語音之后,見語音內容發(fā)送給耳機,耳機通過麥克風播放器播放聲音;
1.3 產品核心功能和使用場景有哪些?
目前豆包AI耳機實際上就是繼承了豆包APP語音相關的應用功能,所以所有能夠通過語音在豆包APP上使用的功能,理論上通過AI耳機也能支持。
盡管如此,ola friend官方主要主打作為賣點的應用場景主要包括如下5個:
- 通用的知識問答和語音聊天:整體能力和手機端的豆包智能體差不多,但是AI耳機生成結果和APP端生成結果稍微有些差異,有可能用了另一個更小的模型用于支持AI耳機內容的生成;
- 口語陪練:支持口語陪練能力;
- 情感陪聊:支持情感陪伴語音聊天;
- 旅行導游:支持旅行導游講解、旅游攻略推薦、餐飲店鋪推薦等;
- 聽音樂:支持調用調用汽水音樂的數(shù)字音樂資源,但是版權資源有限制,部分付費版權內容需要付費后才能播放,官方有贈送一個月的音樂會員;
從目前主打的使用場景上看,其應用領域覆蓋了搜索問答、教育學習、生活服務、休閑娛樂、情感陪伴著幾個場景雖然目前都主打了一個單一的場景,但是相信未來官方會支持越來越多的使用場景的功能。
1.4 豆包AI耳機未來可能還會有哪些使用場景?
雖然目前豆包AI耳機只是主打了幾個使用場景,但是個人認為,未來AI耳機可以結合的應用場景,將會是充滿想象空間的,它可以覆蓋我們的生活、學習教育、商務辦公等多個方面的應用。
AI耳機在生活應用場景
- 本地生活服務推薦:比如附近餐飲商家推薦;
- 個人助理:比如日程安排、出行導游;
- 休閑娛樂:包括聽音樂、聽資訊新聞等;
- 出行:比如出行導航、打車等;
- 運動健康:比如運動健身、健康咨詢、生理診斷等;
- 智能家居:AI耳機與其他智能設備無縫連接,實現(xiàn)語音控制和互動,可以通過耳機直接控制家中的燈光、溫度和家電等設備;
學習教育場景
- 百科問答:覆蓋K12,職場等多個問答場景;
- 口語學習:包括口語陪練,口語學習助手等;
辦公場景
- 電話和會議記錄;
- 錄音筆;
- 翻譯:語音同傳;
最近個人也有留意到,豆包APP已經開始做語音錄制等功能,這個能力和豆包AI耳機的應用可能存在密切的關聯(lián),或許AI耳機后續(xù)也能支持會議耳機的產品能力,以上這些場景我們可以保持期待一下。
1.5 豆包AI耳機的用戶體驗反饋如何?
正向反饋:在接觸過大部分使用過豆包AI耳機的朋友,普遍他們會表達的正向反饋主要聚焦如下3點:
1)豆包的語音功能具備不錯的情感交互的體驗,陪伴感比較強;
“如果你使用過 Ola friend 這款產品,就會體驗到一種「aha moment」,就是那種強烈的陪伴感,就像身邊有人在跟你低語交流。這種陪伴感正是吸引用戶的重要特質之一”
2)佩戴輕便無感;“佩戴還很無感,從下午 3 點一直戴到晚上 9 點也沒有負擔,好幾次走在路上沒有播放聲音的時候,還要手動摸一下才能確定戴著耳機”
3)超長的續(xù)航能力;“另外值得一提的還有續(xù)航表現(xiàn),6 個小時中度使用,兩只耳機耗電都不到 50%。同時到手體驗兩天多,耳機盒還有 14%的電量”
負向反饋:而從小紅書等平臺中可以看到,大部分豆包AI耳機的使用者,普遍反饋容易遭受環(huán)境音影響,降噪和音質效果不太好,響應慢,以及和豆包APP的連接故障等問題;
- 拾音效果:拾音效果還不錯,語音轉文字的效果是可以滿足需求的;但是容易受環(huán)境干擾,不能精準識別使用用戶主體,可能會讓豆包誤把他人的聲音當作使用者的聲音。
- 實時性和流暢度:反應還比較慢,響應速度有點長;
- 音質要求:暫時沒有非常強的音質體驗;
- 降噪能力:降噪效果一般,不過這也正常,主打的是一個開放式耳機,還要支持良好的拾音效果,本來就難以和降噪的功能平衡;
- 語音互動體驗:互動體驗生成的結果可能和豆包APP還有些差距;
整體而言,個人認為,目前Ola Friend交付的AI耳機還是能帶來一些驚喜,但是肯定還存在很多體驗層面的問題,此前有些朋友反饋下單之后需要2周以上的時間才能發(fā)貨,可能也因為目前還有不少問題,官方還需要加快做產品迭代和問題修復。
1.6 供應鏈情況
圈子內的朋友可能會對豆包的供應鏈情況也比較感興趣,以下針對豆包AI耳機不同的元器件的供應商和產品型號做了一下整理,信息參考來自公眾號“我愛音頻網(wǎng)”的文章,筆者非常專業(yè),真的購買了一個耳機并詳細的拆解了其中的每一個元器件,其專業(yè)程度讓人佩服!
1.7 字節(jié)內部組織架構情況
據(jù)了解,Ola friend是字節(jié)此前收購的耳機硬件企業(yè)oladance聯(lián)合字節(jié)flow AI團隊共同打造;Oladance是一個整機廠商,負責耳機的整體設計,開模和生產,有自己的生產工廠,其中芯片等硬件設施通過供應鏈支持。
二、產品定位思考
2.1.字節(jié)為何要布局AI硬件?
事實上,字節(jié)搞硬件的決心一直都沒有停止過,從之前收購PICO,Oladance,錘子手機,至今一直都沒有放棄過對硬件領域的嘗試,如今重新開啟AI硬件的探索,其目的為何,個人思考如下:
- 做硬件的核心目的還是為了掌握用戶的使用入口:作為一個從掌握核心流量入口中獲利的一家公司,字節(jié)很清楚掌握用戶的使用時間和場景的價值,所以,硬件是從另一個維度牢牢的鎖定用戶的使用入口的重要方式;
- AI硬件也是大模型的核心應用領域之一:大模型的應用并不僅僅局限于軟件應用,另一個重要的領域的硬件領域,或許在字節(jié)制定大模型應用頂層設計的時候,就已經綜合考慮的覆蓋軟件和硬件兩側,而豆包AI耳機是開啟AI硬件的第一步;
- AI軟件應用商業(yè)化受阻,AI硬件或許更容易獲得商業(yè)化成功:從目前國內的情形看,軟件端的商業(yè)化真的很困難,而更多用戶對AI硬件表現(xiàn)出濃厚的興趣,付費意愿更強;
2.2.豆包AI耳機的產品定位是什么?
寫這篇文章的時候,我一直在想,怎么去形容Ola friend的產品定位,它到底想做一個什么產品?因為從豆包目前的功能上看,它可以干很多事情,有很多的應用場景,讓人一時想不到其產品定位,但是回看其產品名稱Ola Friend,便也逐步明白其產品的理念和定位:
產品價值理念:你的隨身陪伴的朋友,主打陪伴和情緒價值官方沒有把它稱為你的個人助理assitant之類的,所以或許官方也沒有打算定位為一個提升效率的工具,“朋友”更多的像是定位為一個陪伴你的工具,所以或許定位為一個陪伴產品,主打為用戶提供情緒價值,是這款產品的核心定位;
產品的生態(tài)定位:AI生態(tài)的延伸
- 從“應用-數(shù)據(jù)-服務”向“硬件-數(shù)據(jù)-服務”轉型:過往字節(jié)AI主要還是聚焦在軟件端應用,通過軟件集成數(shù)據(jù)和服務,提供AI應用服務,AI耳機的出現(xiàn),標志著字節(jié)AI向“硬件-數(shù)據(jù)-服務”轉型拓展的開始;
- 從APP喚醒AI,到隨時隨地喚起AI:字節(jié)或許想要把豆包做成另外一個超級APP,打造豆包系列的應用矩陣;AI耳機可能是豆包應用的使用延伸之一,未來可能還會有更多的豆包系列的產品,我們現(xiàn)已經看到,豆包系列的產品還有豆包愛學(教育)、豆包Marscode(編碼),根據(jù)相關消息,內部可能還在做豆包訂餐、豆包體育等相關的應用;
目標用戶和市場需求:從目前產品主打的賣點和能力上,個人認為產品主要面向如下用戶群體
- 一二線城市的城市年輕人和職場群體:他們尋求的是便捷、高效且智能的設備體驗,同時,作為焦慮集中人群,他們也是更加需要情感陪伴和情緒價值的群體;
- AI科技圈的發(fā)燒友用戶:對他們而言,更多的是滿足其好奇和“酷”的需求,為AI的重度愛好者;
- 三四線城市的娛樂偏好人群:下沉市場用戶,更多追求的是產品的娛樂價值和情感陪伴價值,滿足他們打發(fā)空閑時間的“消遣”;
產品核心功能和差異化價值:從產品目前的特點看,硬件層面其產品核心主打的差異化價值是開放式、無感便攜、續(xù)航能力;從軟件層面則主打實時語音交互式使用、陪伴感音質;相比傳統(tǒng)智能耳機而言,弱化對降噪能力、高保真音質等的追求,不做全面能力強大的耳機,耳機聚焦單點能力;
價格定位:目前的定價是1199元,該定價在耳機的整體價格段里面屬于中高端價位,也就是說,其價格定位聚焦在中高端型的耳機;雖然目前該定價很多用戶反饋太貴了,但是從品牌方提供的產品和服務的成本而言,可能產品本身的利潤也不高,除了硬件本省的成本,用戶持續(xù)的使用AI服務,還有大模型和語音合成技術的成本,這些目前都沒有收費,讓用戶免費使用,只能說成體技術和服務成本就比較高,所以這個定價這么貴也能理解。
2.3.字節(jié)未來還會布局哪些AI硬件?
根據(jù)目前關注到的消息,預計未來字節(jié)可能在如下幾個硬件領域會有AI的應用布局:
- 穿戴類設備:AI耳機(Oladance業(yè)務)、AI眼鏡(PICO業(yè)務)、AI手機(錘子手機業(yè)務)
- 教育硬件:AI學習機、機器狗(豆包愛學業(yè)務)
以上信息僅為個人猜測,并未得到證實僅供參考,參考新來源如下:
“據(jù)悉,字節(jié)跳動同時還在探索 AI 眼鏡方向,可能會投資一家新公司或組建內部團隊,并且有一名互聯(lián)網(wǎng)公司的前大模型核心人物已在與字節(jié)合作研發(fā) AI 眼鏡。
此前在 2024 年 5 月舉行的火山引擎 Force 原動力大會上,字節(jié)跳動曾對外展示了 3 款聯(lián)合外部合作方開發(fā)的 AI 硬件產品,其中包括機器狗、學習機以及學習機器人。
字節(jié)跳動曾在 2021 年底投資 AI 技術及智能眼鏡研發(fā)商「李未可」,2024 年 7 月,李未可與博士宣布在全國 50 家博士眼鏡門店線下首發(fā)李未可的 Meta Lens AI 眼鏡。”
三、所在行業(yè)分析:AI硬件、智能耳機
3.1 AI硬件行業(yè)賽道布局和核心玩家
根據(jù)個人了解,目前國內外在AI硬件的上布局,主要聚焦在AI手機、穿戴類設備、教育硬件、辦公硬件、智能家居和車載設備領域;其中穿戴類設備自然是受關注度最大的領域,而AI手機、AI耳機自然屬于AI硬件行業(yè)領域目前最受關注的兩大領域,各個領域目前的子賽道和國內外主要玩家情況如下:
1)AI手機:AI手機是目前廣大消費者比較期待的AI硬件領域,繼蘋果不斷地釋放AI信號之后,我們暫時沒有看到有實質性的蘋果AI產品出來,反而是國內的手機最近觀看了OPPO X8自帶的手機AI功能后感覺開始看到一些AI手機的應用雛形,X8在一鍵識屏以及AI消除、去拖影、去反光等圖像AI方面的表現(xiàn)讓人煥然一新,感覺AI手機終于開始到來的感覺;不過目前大家都還是聚焦在圖像和攝影領域,我們還是更期待手機AI助手和APP Agent能帶來更多創(chuàng)新;
2)穿戴類AI硬件:賽道包括主要以AI耳機、AI眼鏡、AI配飾、AI智能手表等領域,具體如下
- AI耳機:Ola friend的發(fā)布,讓整個投資圈和AI圈開始更加關注AI硬件領域,讓大家終于看到Chatbot能夠在耳機端使用,大家暢想的AI耳機終于可以落地;同時,國內像訊飛也推出了AI會議耳機,主打會議錄制和會議AI助手功能;海外目前也關注到,三星也推出了AI 耳機 Galaxy Buds3 Pro;
- AI眼鏡:在AR眼鏡發(fā)展不瘟不火的同時,目前整個硬件行業(yè)大家開始把目光轉移到AI眼鏡上,這種在眼鏡上搭配耳機,把AI眼鏡和AI耳機組合在一起的感覺,讓人開始真的感受到一個便攜式穿戴的“第二大腦”真的可以實現(xiàn);Meta和Ray-Ban聯(lián)合推出的雷朋AI眼鏡推出之后,讓大家開始把注意力關注到AI眼鏡領域,目前國內包括華為等廠商也在布局該領域并推出相應的產品,還有一些垂直創(chuàng)業(yè)公司像李未可、雷鳥等也在推出相應的產品;10月參加了字節(jié)火山引擎線下舉辦的智能硬件x大模型的線下會,上臺演示的AI眼鏡也不少,可見越來越多的創(chuàng)業(yè)公司已經開始投入該領域的產品打造;
- AI配飾:海外AI pin和Rabbit R1出來之后,讓人看到了不一樣的AI硬件產品,把AI配飾的概念也炒火了起來,作為新興的產品,目前這兩款產品在海外的用戶滿意度還不是很高,產品能力上被吐槽和詬病的比較多,所以激起了一定的水花但是很快又平靜了,不過新興領域就是這樣,未來還是需要這些產品廠商持續(xù)的打磨產品才能交付給消費者一個滿意的產品;
- AI智能手表:智能手表目前在國內外很多手機廠商都有布局,但是目前結合大模型的AI只能手表暫時沒有看到有類似的產品,個人覺得,未來這塊會是大家爭先投入的領域,特別是兒童手表領域;
3)AI PC:蘋果和聯(lián)想等電腦廠商一直都聚焦AI電腦領域有比較多的發(fā)聲和暢想,我們也相信這個領域未來會是AI的重點應用方向,不過目前確實還沒有看到深度結合AI的電腦終端產品出現(xiàn);
4)AI教育硬件:教育硬件領域,一方面很多傳統(tǒng)的教育硬件比如猿輔導的學練機,科大訊飛的學習機,開始結合大模型推出部分AI功能;另一方面,AI玩具現(xiàn)在也是很多創(chuàng)業(yè)公司投入的應用領域,包括機器狗,甚至連AI盆栽、AI玩偶都有,產品主打益智和陪伴價值;
5)AI辦公硬件:除了教育,辦公也同樣是硬件集中地,圍繞辦公領域的AI硬件目前比較少,暫未看到太多知名度較高的產品出來;
6)AI智能家居:**這塊目前主要還是以AI音箱為主,主要玩家還是傳統(tǒng)智能音箱的那些玩家,包括天貓精靈,以及亞馬遜Echo;
7)AI車載設備:最后一個領域的AI車載設備,目前國內像蔚來、理想汽車等都有推出相應的AI車載結合硬件,同樣海外像奔馳、大眾,也有相關的應用案例;
3.2 AI硬件行業(yè)動態(tài)情況
1)AI Pin和Rabbit R1
AI硬件最早爆火的產品,是2023年底美國Humane公司在世界移動通信大會上發(fā)布的AI Pin,用戶將其別在衣服上,將畫面投影在手掌上,用語音進行控制。
AI Pin定價699美元,發(fā)布一個月內,預定量就超過了450萬臺。然而, AI Pin的實際效果卻不盡如人意,存在反應慢、交互體驗差、續(xù)航差等諸多問題,很快跌落神壇,產品退貨量甚至超過發(fā)貨量。
與AI Pin類似的還有曾在百度智能硬件負責人呂聘創(chuàng)立公司Rabbit推出的R1,用戶只需要通過和巴掌大小的R1進行語音交流,即可調用手機上所有APP。產品定價199美元,發(fā)布一周,預售量達4萬臺,幾個月內銷售量破10萬臺。然而,R1很快也受到套殼安卓、續(xù)航差、基礎功能缺失、幻覺嚴重等質疑。根據(jù)今年10月呂聘的采訪可以推斷,Rabbit R1正常的雙日活僅有5206,相較于銷量并不理想。
AI Pin和Rabbit R1均采用了全新的硬件形態(tài),也可以被稱為是AI Native的硬件產品。全新的形態(tài)雖然在初期極大吸引了消費者的興趣,但一旦出現(xiàn)Over Promise和Under Deliver的問題,很快就會被消費者拋棄。
2)Ray-Ban Meta智能眼鏡
在這一點上,Meta則選擇了不同的解法。
2023年9月,Meta與 Ray-Ban聯(lián)手推出智能眼鏡Ray-Ban Meta,用戶可以通過眼鏡拍攝照片與視頻、接聽電話以及播放音樂,并可以通過語音和簡單的手勢來控制設備。
Ray-Ban Meta起售價為299美元,相較于Ray-Ban的傳統(tǒng)眼鏡產品并不昂貴。
僅2023年第四季度,Ray-Ban Meta出貨量就超過30萬副,直到目前累計出貨量已超百萬。而今年9月份Meta發(fā)布的與視覺AI模型相結合的AR眼鏡Meta Orion則再度引爆輿論,以至于很多人紛紛認為眼鏡將是AI硬件的最佳形態(tài)。
3)AI車載設備
高通推出支持生成式 AI 的數(shù)字座艙
展會期間,高通通過驍龍數(shù)字底盤概念車,展示了驍龍座艙平臺的傳統(tǒng) AI 和生成式 AI 能力,涵蓋數(shù)字座艙、車聯(lián)網(wǎng)技術、網(wǎng)聯(lián)服務、先進駕駛輔助與自動駕駛系統(tǒng)等多個方面。
對于復雜的大模型而言,單一在云端運行的 AI 存在高成本、高能耗和隱私安全等問題。
高通通過兼具高性能和低功耗的平臺,將終端側生成式 AI 能力帶進座艙,為座艙提供強大、高效、私密、更安全和更個性化的車載交互體驗。
自駕出游前不再需要做復雜的攻略,數(shù)字助手能夠根據(jù)我們的出行偏好規(guī)劃一趟完美的行程;碰到如何換輪胎、安裝嬰兒安全座椅這些問題,無需翻出上百頁的用戶手冊查找答案,AI 助手能通過對話指導你完成;它還能告訴你儀表盤上突然出現(xiàn)的警示燈代表什么,幫你預約最近的服務中心檢測維修。
值得一提的是,高通還為兩輪車、電動踏板車等新型車輛細分市場推出了驍龍數(shù)字底盤,提升車輛安全性、連接、信息娛樂、輔助系統(tǒng)(ARAS)和個性化云連接等方面的體驗。
梅賽德斯奔馳
與 Open AI 合作開發(fā)車載語音助手寶馬與亞馬遜合作推出 Alexa 大型語言模型,而梅賽德斯奔馳正在與 OpenAI 合作車載語音助手——MBUX AI。
作為 MB.OS 的一部分,MBUX 引入的語音助手能夠提供基于上下文的建議,并與用戶進行對話;它能夠基于情境給出建議,主動提問,更清楚地了解用戶所詢問的內容。
它還可以根據(jù)駕駛員的心理狀態(tài)來調整其回答問題時的語氣,比如,如果駕駛員的心情沮喪,那么它的提示和反應將更短、更直接;而如果駕駛員心情好,虛擬助手的聲音會更愉快,更健談。
自查功能,可以對語音助手的回答進行合理性檢查。例如,當它推薦的餐館或商店關閉時,語言助手將通過云數(shù)據(jù)或者客戶的陳述來進行復查。
大眾汽車
與 Cerence 合作開發(fā)車載語音助手在 AI 的加持下,汽車已經成為對話伙伴。
大眾汽車在 CES 2024 期間表示,計劃在二季度推出首款大模型汽車,整合了 ChatGPT 的語音助手,將在汽車行駛過程中識別并響應駕駛員的一系列需求。
其語音助手「Hello Ida」將整合 ChatGPT 的大模型能力,在汽車行駛過程中識別并響應駕駛員的一系列需求。
新的由大模型加持的車載語音助手將登陸 ID 4 和 ID 7 兩款新能源汽車。方案由 Cerence 協(xié)助完成,相比之前的語音交互體驗,大模型加持的語音助手應用范圍更廣、更自然。
4)AI智能家居
- 三星家居全家桶:冰箱、吸塵器、洗衣機、電視,還有投影機器人,通通 AI 加持三星在 CES 展前發(fā)布會上,展出了多款 AI 加持下的家居新品,展示了「AI for All」的決心。可以識別食物種類,并制定菜譜的四門 Flex 冰箱。AI 物體識別、AI 地板檢測技術加持下的 Jet Bot Combo 真空吸塵器,能夠更大力度減輕我們的清掃工作。QLED 8K 電視,也已支持上 AI 音頻轉字幕,并可通過 AI 分析環(huán)境聲,提升影音體驗。萌萌的 Ballie 投影儀機器人,真 AI 伴侶,能自動幫你投喂寵物,執(zhí)行視頻通話,甚至投影出健身教程。
- Displace:全球首個購物電視,自動分析商品,自動加購物車,**在國內已有不少視頻應用,支持通過圖片識別技術,一鍵定位劇中好物。但電視廠商 Displace 似乎覺得,這還不夠便利!在 CES 2024 期間,Displace 直接帶來兩款極度方便剁手黨的電視新品 Displace Flex 和 Displace Mini。兩臺電視都內置有 AI 加持下的 Displace Shopping 服務。當用戶觀看電視發(fā)現(xiàn)心頭好物時,只需使用手勢就能即刻暫停畫面,自動分析商品。并且,秉承極致便利原則,Displace Shopping 可直接將商品加載至購物車。按照這個邏輯,看完電視,再刷刷滿滿當當?shù)馁徫镘?,也是件很愉快的事兒?/li>
5)AI眼鏡
- 雷鳥:大模型加持的輕量級 AR 眼鏡,國內 AR 廠商雷鳥科技,在 CES 2024 上發(fā)布了新款 AR 眼鏡雷鳥 X2 Lite。AI+AR 是這款眼鏡,主打功能亮點。和早先發(fā)布的雷鳥 X2 一樣,雷鳥 X2 Lite 也內置了大模型語音助手 Rayneo AI。Rayneo AI 可實現(xiàn)多輪自然語言對話、行程規(guī)劃、便捷百科問答、頭腦風暴等多項能力。同時,雷鳥 X2 Lite 也支持 AI 輔助翻譯、3D 空間導航、第一人稱視角影像創(chuàng)作等功能。
- Solos:ChatGPT 協(xié)助翻譯的音頻眼鏡:智能眼鏡公司 Solos 亮相了其去年上新的一款搭載 ChatGPT 的新品 Solos AirGo 3。Solos AirGo 3 核心功能即實時翻譯。搭配有應用軟件 SolosTranslate,進而可透過 ChatGPT 翻譯眼鏡所拾取的聲音。并且,Solos AirGo 3 還可以提供不同的場景模式,比如一對一對話模式,就非常適合與人面對面交流時使用。
3.3 智能耳機行業(yè)市場規(guī)模情況
1)全球市場規(guī)模情況:根據(jù)沙利文白皮書報告分享,2023年全球耳機零售量5.1億副,其中開放式耳機3000萬副,開放式耳機占比6%;預計2028年全球耳機規(guī)模7.6億副,開放式耳機5400萬副;
2)國內市場規(guī)模情況:根據(jù)智研瞻公開分享數(shù)據(jù),2023年中國智能耳機的市場規(guī)模為144億,年復合增長率在15%左右;
3)開放式耳機市場規(guī)模:作為智能耳機的一個重要分支,開放式耳機近年來也表現(xiàn)出強勁的增長勢頭,特別是在華南和華中地區(qū),開放式耳機的出貨量在2023年達到了652萬臺,同比增長130.2%;目前開放式耳機在智能耳機中的滲透占比大概是7%左右,其中70%的開放式耳機是骨傳感形式的耳機;
3.4 智能耳機類型劃分
智能耳機行業(yè)可根據(jù)不同的分類標準進行劃分,涵蓋連接方式、使用方式、消費場景、價格段:
1)按照連接方式連接方式上,包有線耳機和無線耳機,其中無線智能耳機成為市場主流,無線耳機中TWS藍牙耳機獨占66%市場份額,展現(xiàn)真無線立體聲設計和多樣化智能功能,頸戴式、頭戴式和項圈耳機分別占據(jù)約15.2%、8.6%和7.6%的市場。
2)按照佩戴方式包括入耳式、半入耳式、掛耳式,入耳式耳機因緊貼耳道帶來震撼音質,半入耳式設計舒適適合長時間佩戴,而掛耳式則平衡了舒適與牢固,掛耳式也就是OWS(開放式耳機),2021年,“Oladance”創(chuàng)始人李浩乾(前BOSE高管)在TWS行業(yè)峰會上首次提出“OWS”概念,即“Open Wearable Stereo(開放式無線音響)”,至此,開放式耳機行業(yè)進入發(fā)展期。具體來說,開放式耳機采用不入耳的佩戴設計,是讓用戶聽見耳機內聲音的同時能夠感知到周圍環(huán)境的無線藍牙耳機。開放式耳機主要由骨傳導和氣傳導兩種技術組成,根據(jù)沙利文白皮書相關報告,開放式耳機中,目前有70%的耳機采用的是骨傳導形式,30%采用氣傳導方式;
3)按照使用場景包括消費級、商用級、工業(yè)級使用場景,其中消費級產品包括娛樂消費耳機(聽音樂、看電影等)、商務耳機(開會議、通電話)、運動耳機等;
4)按照價格段劃分
- 低端耳機:價格區(qū)間在0-199元,競爭非常激烈,這一價格段主要面向入門級用戶或追求性價比的用戶,產品多以入耳式或有線耳機為主,音質和功能相對基礎,滿足日常簡單的聽音需求。
- 中低端耳機:價格區(qū)間在200-499元,數(shù)量較多,普及型耳機市場的主要價格段,這一價格段產品在功能性上有所提升,許多耳機配備了降噪、語音助手等功能,適合對音質和功能有一定要求的用戶,尤其是藍牙真無線耳機逐漸普及;
- 中端耳機:價格區(qū)間500-999元,產品數(shù)量適中,以知名品牌為主,這個價格段的耳機在音質、降噪和舒適性上都有較好的表現(xiàn)。以真無線和入耳式耳機為主,適合對音質有較高要求的用戶,產品在功能、續(xù)航和外觀設計上都更加均衡;
- 高端耳機:價格區(qū)間1000-1999元,數(shù)量相對較少,但品牌覆蓋度較廣,高端耳機價格段多用于真無線、頭戴式降噪等高音質、功能性強的耳機,產品品質、音質、降噪效果突出,適合追求較高聽覺體驗和品質的用戶。示例品牌包括:
- 超高端耳機:2000元以上,數(shù)量少,主打高端市場;
3.5.智能耳機產業(yè)鏈分析和核心玩家
上游環(huán)節(jié):
原材料供應商包括芯片(如主控藍牙芯片和存儲芯片)、電子元器件(包括傳感器和MEMS麥克風等)、電池以及外殼、耳塞等零部件。這些組件是智能耳機實現(xiàn)無線連接、數(shù)據(jù)處理和各種功能(如噪音消除、語音助手集成)的基礎。
上游耳機主控藍牙芯片廠商包括BES恒玄、Bluetrum中科藍訊、JL杰理等; MEMS麥克風廠商包括敏芯微電子、意芯微電子等;耳機電池廠商包括VDL紫建電子、HJ弘捷等;其他傳感器廠商包括SHOUDING首鼎、PinTeng品騰等;電源管理芯片廠商包括Injoinic英集芯、金宇宙等;無線充電接收芯片廠商包括Prisemi芯導科技、COPO酷珀微等;充電盒電池廠商包括眾旺德、EVE億緯鋰能等;
中游環(huán)節(jié):
則涉及整機制造和封裝,代加工廠商包括天鍵股份、奧尼電子等廠商;
下游環(huán)節(jié):
則主要由品牌廠商和銷售渠道構成,直接面向終端消費者。品牌廠商如華為、小米、OV、蘋果、Beats、sony、bose、JBL、漫步者、海能達等,新興品牌商包括Oladance、Shokz韶音、Cleer等;在無線耳機市場上,蘋果、華為和小米三大品牌占據(jù)了前三名的位置,合計市場份額達到32.8%。華為耳機憑借出色的用戶口碑與媒體評價,在2021年中國十大耳機品牌評選中榮登榜單。國產品牌的競爭力也在不斷增長,多個中高端國產耳機品牌如QDC、達音科、TANCHJIM、HIFIMAN等在發(fā)燒友中獲得認可。
3.6.AI耳機和傳統(tǒng)智能耳機的差別是什么?
- 傳統(tǒng)耳機只是手機聲音的延伸,不支持交互,AI耳機可以支持交互和互動、支持完成指令和任務:老實說,AI耳機相比傳統(tǒng)的智能耳機而言,主要的差別其實就是增加了支持AI互動的功能,讓耳機硬件本身能夠支持接收用戶的聲音指令,然后實時的響應輸出;但是增加了這個能力之后在使用場景上卻可以帶來很多耳機的應用場景,讓耳機的價值更高;傳統(tǒng)的智能耳機更多的是以單線的輸出為主,無法接收過多的指令。
- AI耳機可以在不碰手機的情況下調動APP執(zhí)行任務,可以遠程操控APP甚至手機;
- AI耳機支持輸入和輸出音頻內容上云,支持錄制,從而獲得更多的服務能力;
四、用戶對于AI耳機的需求思考
4.1 消費者對智能耳機的基礎訴求
根據(jù)沙利文白皮書發(fā)表報告,消費者在決策耳機的購買因素的時候,會優(yōu)先考慮如下幾個因素:
- 舒適度、續(xù)航時間:這考量的是耳機的重量、佩戴方式、攜帶方式等物理體驗,以及耳機的電池續(xù)航能力;
- 價格:消費者對于耳機的價格接受度;
- 音質:消費者對直接的音質需求,有強烈的渴望和需求,希望能支持更良好的音質體驗;
- 降噪:包括智能降噪等功能;
- 易用性:包括使用操作更簡單、藍牙連接和調節(jié)操控簡便
4.2 消費者對開放式AI耳機的進階訴求
- 語音互動能力:能更“聰明”、更實時的和用戶語音互動,是AI耳機的關鍵訴求之一,這是AI耳機最關鍵的能力;
- 音質要求:包括高保真、低遲延、高流暢度、低音效果、個性化調節(jié)的需求,特別是發(fā)燒友用戶,對音質有更加嚴苛的追求;
- 拾音效果:與傳統(tǒng)智能耳機以輸出為主不同,AI耳機需要支持靈敏的語音輸入,所以需要具備靈敏的拾音效果,且最好能支持自動增益,準確識別使用者的聲音,避免受到環(huán)境音的干擾;
- 智能降噪能力:對開放式的耳機而言,降噪是一個短板,所以用戶更容易提出智能降噪的需求,包括能夠支持智能過濾環(huán)境音,甚至對于部分不應該降噪的聲音可以做到不被降噪,例如消防車聲音;
- 記憶存儲和錄制能力:用戶也期望耳機能夠具備記憶存儲和錄制的能力,從而支持語音錄制的功能;、
4.3 豆包AI耳機目前在消費者訴求上的滿足情況
綜合以上用戶對于AI耳機的需求的衡量因素,整體上看,目前豆包AI耳機在語音互動、舒適度、續(xù)航能力等方面基本可以滿足用戶需求,但是在音質,降噪能力等方面還不足,整體定價也高于消費者預期;
4.4 AI耳機滿足用戶需求存在的挑戰(zhàn)有哪些?
1)硬件性能和算力要求:包括芯片的計算能力、拾音器硬件的性能等,AI耳機需要支持大模型運算,以及實時的處理速度,且需要準確的語音識別能力,這些都是需要關鍵攻克的技術難題;
- 數(shù)據(jù)處理速度:AI耳機需要實時分析聲音和環(huán)境數(shù)據(jù),以提供快速響應,這對芯片的處理能力和算力提出了很高的要求。
- 低功耗高性能:在有限的電池容量下實現(xiàn)低延遲、實時AI運算和長時間續(xù)航,需要先進的芯片技術和能源管理優(yōu)化;
2)用戶對音質要求的挑戰(zhàn):音質是用戶購買耳機的重要決策因素之一,目前開放式AI耳機在音質上的弱項會是消費者比較在意的一個點,而提升音質很大程度上取決于聲學腔體的設計、芯片性能、傳輸鏈路、編碼技術等因素的影響,極大的考驗技術和成本,該部分具體可見4.5部分;
3)復雜環(huán)境的語音識別準確性
- 降噪與語音識別的平衡:在嘈雜環(huán)境下,既要保證語音指令識別的準確性,又要進行有效降噪,這對算法提出了較高的要求。
- 多語言與方言識別:支持多種語言和方言,尤其是具備較強的方言識別能力,對AI語音識別技術是一個重大挑戰(zhàn)。
4)成本挑戰(zhàn):面對高昂的模型、語音識別、語音合成等技術成本,AI耳機如何保持商業(yè)模式的成功;
5)面對多樣的能力和多種硬件組合:在體積有限的耳機中集成多個傳感器并保持輕量化,是技術設計上的挑戰(zhàn)。
4.5 AI耳機如何提高音質表現(xiàn)?
前面也提到了,音質是消費者對耳機非常重視的因素,目前豆包AI耳機在音質和AI互動能力上,優(yōu)先保障了AI互動的能力,對于音質的追求必然也會有些犧牲,所以我們可以大概了解一下如果要獲得更好的音質表現(xiàn),需要依賴哪些技術能力;
- 聲學腔體設計:無論是入耳式、頭戴式還是開放式耳機,都需要一個外殼來容納其發(fā)聲單元,這一部分被稱為腔體”。腔體設計對耳機的音質表現(xiàn)至關重要,它直接影響聲音的調音和漏音情況,從而直接影響用戶的聽覺體驗。其主要從聲音調音、共振和失真控制、減少漏音與聲場感和定位幾個方面影響耳機音質;腔體設計的經驗和技術,更多取決于廠商在這方面的經驗和積累;
- 藍牙芯片:芯片的性能也同樣決定了音質表現(xiàn)的效果,目前市面上中高端的芯片主要是蘋果、高通、華為、恒玄科技等廠商的芯片;
- 傳輸鏈路:在傳輸過程中如果音頻文件無法順暢傳輸,也會直接影響音質,而將音頻文件以“高保真”格式傳輸,對于無線耳機功耗又是一個挑戰(zhàn)。如何在保證功耗情況下實現(xiàn)穩(wěn)定傳輸,同時確保傳輸接近“無損”水平,是當前所有廠商亟待解決的問題之一;
- 編碼技術:編碼技術也會影響音質的好壞,目前編碼技術的音質表現(xiàn)從優(yōu)到劣排列為aptXLossless>LDACLHDC>aptX>AAC>SBC;
- 藍牙版本:藍牙版本越高,傳輸速率和穩(wěn)定性也會越高,對音質的效果越好,藍牙吧版本5.4是目前最優(yōu)的版本;
五、產品競爭分析
5.1 AI耳機競品的動態(tài)情況
科大訊飛:
2024年5月 15 日,科大訊飛旗下品牌未來智能發(fā)布了訊飛會議耳機Pro2和iFLYBUDS2兩款新耳機,訊飛會議耳機 Pro2支持 VIAIMAI進化大模型,可一鍵生成會議摘要總結、待辦事項,支持 AI會議助理有問必答、32 國語言同傳翻譯,支持閃錄音功能,支持免費錄音轉文字等AI功能,iFLYBUDS2 具備會議摘要總結、多場景錄音撰寫多國語音同聲傳譯、快速生成會議摘要和待辦事項等 AI功能。
Cleer:
2024 年4 月 22 日,智能聲學品牌 Cleer 發(fā)布了“全球首款開放式 AI耳機”CleerARC3 音弧,該耳機搭載了全新一代 Greenwaves Gap9 AI芯片,內置了 Gomore 研發(fā)的AI運動算法,可幫助用戶實時監(jiān)控運動生理數(shù)據(jù),如消耗卡路里、訓練負荷及恢復時間、進階跑步指標等精準運動數(shù)據(jù);在智能交互方面,CleerARC3音弧還集成了出門問問的語音控制技術,升級了 AI語音控制,用戶無需提示詞喚醒語音助手,使用“下一首”“接聽電話”等快捷口令即可進行相應操作;CleerARC3音弧還在開放式耳機中實現(xiàn)了 AI降噪效果,通過引進全新一代 AI芯片 GAP9 及 AI算法,首次在開放式耳機中實現(xiàn)了 AI降噪效果。
三星:
2024 年 7 月 10 日,三星發(fā)布兩款耳機新品——Galaxy Buds3 Pro 與 Galaxy Buds3。其中 Samsung Galaxy Buds 3 Pro 耳機主打 AI,具備自適應降噪、環(huán)境分析(可以視周圍環(huán)境的種類對降噪強度進行調整,進行”選擇性的降噪”,例如路上救護車的聲音就不會被”降噪”掉)等功能,并能夠配合 Galaxy 手機完成實時翻譯功能;
阿里通義:
首款智能耳機 AIxFU(愛富)在 2024 年云棲大會上首次對外發(fā)聲。這款耳機融入了阿里通義的 AI 技術,定位也是耳畔智能助手,具體的功能細節(jié)目前暫時尚未公開;
百度小度:
另有消息透露,最早在 2020 年 9 月推出智能耳機的小度,今年也在加快AI耳機新品節(jié)奏。
漫步者:
在 2023 年與阿里集團下屬人工智能公司簽訂合作開發(fā)智能耳機的協(xié)議書,相關產品已在研發(fā)中。
魅族:
聯(lián)合怒瞄在今年年初推出的首款 AI Device 亮相,也是 AI 耳機形態(tài),計劃將于今年年底美國「黑五:」購物節(jié)期間正式發(fā)布。
整體而言,目前AI耳機競品中,除了Cleer已經也支持AI互動體驗且更多聚焦運動健康領域,科大訊飛垂直聚焦會議場景,目前像豆包AI耳機一樣具備完整的AI語音互動能力,且支持多種應用場景的AI耳機,暫時還沒有看到,其他產品基本都還在研發(fā)過程中;
5.2 面對激烈的市場競爭,字節(jié)的競爭力是什么?
AI耳機的技術實現(xiàn)基本包括以下幾部分:LLM(大模型)+ASR(自動語音識別)+TTS(語音合成)+RTC(實時通信)+Agent;其中ASR作為語音識別輸入技術,LLM+Agent作為生成回答的處理中樞,TTS和RTC作為語音生成輸出技術,閉環(huán)整個產品的能力,字節(jié)在以上幾部分上的競爭優(yōu)勢如下:
- 語音技術能力的優(yōu)勢:目前字節(jié)在語音技術上的優(yōu)勢更為顯著,其語音效果在業(yè)界的口碑和認可度比較高,背后主要依托其ASR、TTS、RTC的技術能力,語音技術作為AI硬件最重要的技術之一,掌握語音技術能力將更加有競爭優(yōu)勢;
- 大模型的技術優(yōu)勢:字節(jié)自研大模型,相比沒有大模型的廠商而言,則更加有優(yōu)勢,而對于同樣也有大模型的廠商,且不提基礎大模型能力差異如何,字節(jié)至少在成本端占據(jù)更加優(yōu)勢位置,從其定價上看,模型定價為行業(yè)最低;
- Agent:未來耳機的使用場景,本質上其實也是通過Agent的方式實現(xiàn)的,字節(jié)在Agent的設計能力上,依托扣子的技術能力,或許能具備更強大和靈活的agent開發(fā),從而支持豐富的應用場景;
六、商業(yè)模式思考
6.1 AI耳機真的有利潤空間嗎?
我們先盤點一個AI耳機的成本結構,個人總結下來主要包括如下幾部分:
- 硬件部分成本:包括芯片、電池、傳感器、耳機外殼等,該部分為一次性成本;
- 大模型和云服務部分:包括大模型token成本、語音識別和語音合成云服務成本,該部分為用戶只要使用就會產生的成本;
由此可見,其產品的成本說實話可能不低,所以AI耳機真的有利潤空間嗎?
引用rabbit R1 的創(chuàng)始人呂聘的公開消息,其AI硬件產品 Rabbit R1的售價199美元,硬件的成本大概占比60%,只考慮硬件的利潤率是40%左右,然而用戶的使用過程中還有云端的服務消耗的成本,硬件的利潤預計能夠滿足用戶1~1.5年的使用,也就是說,產品的利潤取決于產品的使用壽命以及用戶的使用頻率和消耗。
所以,可見單純硬件本身,說實話可能沒有太多的利潤空間,那么AI耳機的商業(yè)模式到底是什么樣的?
6.2 豆包AI耳機的商業(yè)模式什么?
參考Rabbit R1創(chuàng)始人呂聘的說法,未來AI 耳機的商業(yè)模式可能和手機廠商的模式相同,可能也是基于應用商店APPStore的模式實現(xiàn)商業(yè)化;未來AI耳機的使用可以支持多種應用場景,相應的應用由開發(fā)者開發(fā)并發(fā)布到應用商店,應用本身可以通過提供增值服務等方式讓用戶付費,而應用商店品牌方采用收傭分成的方式獲利。
舉個比較典型的例子,比如音樂、聽書和FM類的應用,天然就是AI耳機最合適的搭配應用,用戶可以購買耳機應用商店內的服務,獲得更多的增值能力,而品牌方從中抽取一定的分成;
6.3 AI耳機的應用,和手機APP的應用有何區(qū)別?
看到前面第二點的時候,可能很容易會設想的問題是目前手機端已經有APP,且連接耳機就可以支持接聽音樂等,為何還需要一個單獨的AI耳機的應用?
仔細理解一下就可以知道,目前手機端的APP更多的只是支持聲音的輸出,尚不能通過耳機對APP發(fā)起指令,也就無法實現(xiàn)AI互動,應用本身必須要和耳機建立連接和“通訊”才可實現(xiàn)這樣的AI互動效果,所以手機APP也需要結合AI耳機做二次開發(fā),形成適配耳機互動的應用,這是兩者之間的差別。
當然,以上這些也都是大家的揣測,并沒有看到現(xiàn)實成功的案例,這些可以交給現(xiàn)在的AI硬件廠商們給我們答案;
七、產品局限和未來發(fā)展思考
7.1.豆包AI耳機目前的產品局限性
1.從產品使用的角度看,目前不能脫離手機使用:個人認為,最蛋疼的就是必須要藍牙連接手機,這就意味著,耳機只是手機在空間上的延伸,耳機不能脫離手機使用,對于用戶而言,也必須時刻保留在手機可以連接的范圍內;
2.從硬件的角度看,語音識別在復雜環(huán)境中的準確性不足:例如在嘈雜的環(huán)境中,用戶體驗可能受到影響;
3.從數(shù)據(jù)的運行效率上,目前耳機的AI問答效果需要經歷“耳機→APP→豆包應用→云端大模型”,鏈路比較長,無法實現(xiàn)“耳機→云端大模型”直連,這將影響其多任務處理和即時信息反饋方面的表現(xiàn) ;
4.從商業(yè)模式上,AI耳機現(xiàn)在還是個新興領域,商業(yè)模式是否能成功還沒有得到印證,AI耳機未來將持續(xù)面臨商業(yè)模式的挑戰(zhàn);
7.2.豆包AI耳機未來發(fā)展的思考
綜合前面關于產品局限性的思考,個人認為,未來AI耳機的發(fā)展可能包括如下幾個方面:
1)從產品使用的角度,未來AI耳機朝著可以脫離手機獨立運行的方向使用,能夠支持自身聯(lián)網(wǎng),直接連接云端大模型,這樣耳機便可以不需要通過藍牙連接耳機使用,脫離手機連接距離范圍也能運行,手機端的價值更多的解決耳機應用安裝和管理的能力,以及語音數(shù)據(jù)上云的作用;但是這必然意味著對芯片等硬件的要求會更高;
2)從硬件的角度,未來AI耳機可以逐步補充其在智能識別、智能降噪、音質等方面的短板,基礎性能上追趕傳統(tǒng)智能耳機的體驗,讓AI成為耳機標配下的增值部分,而不是讓用戶在傳統(tǒng)智能耳機和AI之間做選擇;
3)從數(shù)據(jù)的運行效率上,個人覺得潛在的發(fā)展路徑包括如下幾個階段:
- 耳機→APP→豆包應用→云端大模型:這是現(xiàn)在的實現(xiàn)模式;
- 耳機→云端大模型:未來耳機如果直接支持聯(lián)網(wǎng)和計算,便可以直連云端大模型;
- 耳機→端側模型+云端模型:未來如果端側模型的發(fā)展起來,可以讓耳機本身自己承擔一部分算力計算,部分鏈接云端大模型,形成端云混合的計算方案;不過這個還比較遙遠,端側模型目前還沒有在手機和電腦上看到落地實現(xiàn);
4)從商業(yè)模式上,AI耳機除了持續(xù)迭代產品提升產品價值,也會持續(xù)的尋找降低硬件和軟件成本的路徑,同時尋找商業(yè)變現(xiàn)的機會,把商業(yè)模式跑通;
7.3.字節(jié)將如何賦能AI硬件行業(yè)
我相信字節(jié)做AI耳機和AI硬件,不會只是想單純的做硬件本身,按照大廠的生態(tài)發(fā)展思路,他們通常都會把解決方案開放出來,賦能整個行業(yè),10月在參加火山引擎舉辦的“智能硬件x大模型”的線下會議的時候已經看到了大概的思路;
1)智能硬件連接大模型的解決方案:LLM+ASR+TTS+RTC+Agent
官方給出的關于AI硬件的技術解決方案的組合是串聯(lián)大模型LLM,語音自動識別技術ASR、語音合成技術TTS、實時通訊技術RTC、Agent開發(fā)技術,如此便可以實現(xiàn)硬件AI化的能力;
火山引擎提供大模型和語音技術的一體化SDK,接入SDK即可直接使用自己的語音和大模型技術,至于Agent的構建,這主要可以通過扣子實現(xiàn),扣子后續(xù)將在API插件方面增加硬件插件能力,支持扣子和硬件能力的連接,解決Agent調用硬件能力的問題;
2)字節(jié)的語音技術能力情況
- 強大語音識別能力:支持中文普通話、方言混合、語種混合能力;
- 智能降噪能力:支持回聲消除、背景音一直、自動增益(自動識別說話人的聲音并強化該聲音,弱化其余聲音)
- 智能打斷:支持語音隨時打斷,交互更加流暢、自然、擬人化;
八、結尾
OK,至此關于字節(jié)豆包AI耳機的分析大致寫完了,老實說這是第一次這么系統(tǒng)的去關注和分析一個硬件產品,當然這個過程中也借此接觸和了解到了更多硬件、語音等相關的技術,對我個人而言還是很有幫助的,希望同樣也能幫助到大家,個人相信,未來AI硬件也能像軟件一個,用AI把整個硬件行業(yè)重新再做一遍,對于消費者而言,我們可以享受更多的科技成果,我們拭目以待!
作者:三白有話說,公眾號:三白有話說
本文由 @三白有話說 原創(chuàng)發(fā)布于人人都是產品經理。未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!