視覺模型落地:AI打工,干活全自動
隨著人工智能技術(shù)的不斷進(jìn)步,視覺模型正在從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用,逐漸改變我們的工作和生活方式。本文將探討字節(jié)跳動最新發(fā)布的豆包1.5視覺模型如何實(shí)現(xiàn)視覺定位與計數(shù)功能,并通過實(shí)際案例展示其在圖像標(biāo)注、庫存盤點(diǎn)等場景中的應(yīng)用潛力。盡管目前仍存在一些挑戰(zhàn),但這一技術(shù)的進(jìn)步已經(jīng)為自動化工作流程帶來了新的可能性,預(yù)示著AI在更多實(shí)際場景中的廣泛應(yīng)用前景。
算一下,一碟 15,這是吃了多少?
答:一共14盤,合計210
AI 是可以拿來做盤點(diǎn)的
方法:AI 數(shù)的,容我細(xì)細(xì)道來
字節(jié)發(fā)了新模型
今天是字節(jié)的發(fā)布會,我去了現(xiàn)場。
豆包 1.5 深度思考模型上線,200B MoE,20B 激活參數(shù),R1 級別的性能。
豆包 1.5 深度思考模型上線
但很多人沒注意到是,伴隨這個模型的,還有個有非常趣的小玩意兒:Doubao-1.5-vision-pro。
還有個視覺理解模型
仔細(xì)看了文檔后,注意到有這樣一段:
- 視覺定位能力大幅提升:支持對單目標(biāo)、多目標(biāo)、小目標(biāo)等進(jìn)行邊界框或點(diǎn)提示進(jìn)行定位,并支持基于定位進(jìn)行計數(shù),給出坐標(biāo)位置,或描述所定位內(nèi)容。支持 3D 定位,可基于圖像進(jìn)行深度預(yù)測、距離排序、深度比較等??梢詮V泛用在各類巡檢等上商業(yè)化場景中。
這是一個小小的、但很有意義的進(jìn)步:大模型可以給圖片穩(wěn)定打標(biāo)記了
把圖交給它,讓它識別所有壽司盤的位置,輸出坐標(biāo)。
讓模型獲取坐標(biāo)
有了格式化的坐標(biāo),只需要一個腳本就可以標(biāo)注了:設(shè)定線條長度 200,粗度 10,顏色亮青,文字字號 70,配了黑色陰影,保證在各種光線下都能看清。
標(biāo)注好的圖片
視覺思考的落地
這事兒做完我突然意識到,
這不就是很多場景下都用得上的“圖像計數(shù)”嗎?
于是,我測了幾個別的:
街頭照片,他知道路牌在哪;
獲取路標(biāo)位置
標(biāo)記好的路牌
或者拿它去標(biāo)注米老鼠的帽子。
眾所周知,初版米老鼠版權(quán)到了
你不用告訴它“那是個什么”,只要給出目標(biāo)定義或提問方式,就能獲得結(jié)果。
小任務(wù),不小的價值
多模態(tài)這幾年卷得飛起,但真正能落地的場景并不多:AI 寫詩、拍題解題,這些看起來很炫,但離實(shí)際太遠(yuǎn)。
但我們也知道,每刻都有無數(shù)人在認(rèn)真的應(yīng)對工作:盤庫存、數(shù)元件…勞心勞力。那么,這些事情,為什么不交給 AI 呢?
在幾年前,還是 CV 當(dāng)?shù)赖臅r候,你會說:開發(fā)個 AI,可比人力貴多了。
但現(xiàn)在不同了:對著你的任務(wù),只需要一個明確的問題,就可以拿到一份標(biāo)注好的信息
誠然,單以現(xiàn)在來看,問題也不少:
- 角度偏了、光線不均,容易漏標(biāo);
- 目標(biāo)密集時,編號會擠在一起,看不清楚;
- 背景復(fù)雜時,有時會誤判或者漏標(biāo)。
這些問題都是可以優(yōu)化的。
質(zhì)變已經(jīng)發(fā)生了,量變只是時間問題。
那么,希望硅基大人,日后要好好打工
本文由人人都是產(chǎn)品經(jīng)理作者【賽博禪心】,微信公眾號:【賽博禪心】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!
