誰是視覺推理 AI 之王?一場(chǎng)游戲,橫評(píng) 5 大頂流模型

一澤Eze
0 評(píng)論 1042 瀏覽 0 收藏 14 分鐘

在人工智能領(lǐng)域,視覺推理能力是衡量AI智能水平的重要指標(biāo)之一。本文通過一場(chǎng)別開生面的游戲——“網(wǎng)絡(luò)迷蹤”,對(duì)五大頂級(jí)多模態(tài)推理模型進(jìn)行了橫向評(píng)測(cè),以確定誰是視覺推理AI之王。

?? Hi,我想先請(qǐng)你只看下面這張照片,推測(cè)它的拍攝城市:

這是一類叫做「網(wǎng)絡(luò)迷蹤」的推理游戲:只看照片,判斷拍攝地點(diǎn)的位置,距離越近,得分越高。

太適合測(cè)試 AI 的視覺推理能力了。

完美模擬了人類玩家的視覺推理過程:

1?? 精準(zhǔn)識(shí)別視覺元素:解讀路牌文字、辨認(rèn)植被類型、分析建筑風(fēng)格特征;

2?? 調(diào)用知識(shí)儲(chǔ)備:判斷特定電線桿造型屬于哪個(gè)國(guó)家或地區(qū);

3?? 以及多層次線索整合推理。

要想在這個(gè)游戲中取得好成績(jī),AI 們必須同時(shí)發(fā)揮其視覺識(shí)別、模型知識(shí)、邏輯推理的最大潛能。

當(dāng) AI 答題結(jié)果被標(biāo)注在地圖上后,它們之間的智力差距也就一目了然。

比單一維度的 Benchmark 跑分,能更有趣、直觀地看到模型的差距。

所以我拉上了國(guó)內(nèi)外 5 個(gè)頂流多模態(tài)推理模型,一起來做了這項(xiàng)比賽。

?? 簡(jiǎn)單介紹「AI 網(wǎng)絡(luò)迷蹤」賽制

本次比賽的參賽選手如下:

注:DeepSeek-R1 其實(shí)不支持多模態(tài)(視覺識(shí)別),故不參加比賽。

比賽規(guī)則很簡(jiǎn)單:

1.共 5 道題目,每題提供同一位置兩張不同拍攝方向的照片(題源:圖尋-每日挑戰(zhàn)-全球 04/20)

2.通過統(tǒng)一的比賽 Prompt,要求 AI 給出它認(rèn)為最可能的經(jīng)緯度坐標(biāo)你正在參與地圖迷蹤比賽,不準(zhǔn)聯(lián)網(wǎng)。

右下角小地圖不包含任何有效信息。 分析提供的圖片,推斷其拍攝的地理位置的行政區(qū)劃層級(jí)(格式:大洲,國(guó)家,行政區(qū),城市,鄉(xiāng)鎮(zhèn))和經(jīng)緯度(格式,如 41.40338, 2.17403),盡可能準(zhǔn)確。 使用中文回答。

3.每一題均在地圖上標(biāo)注出所有 AI 的猜測(cè)點(diǎn)和實(shí)際位置,距離越近,排名越高

第一輪:某熱帶地區(qū)

非常典型的熱帶地區(qū)植被,棕櫚樹、闊葉樹隨處可見,現(xiàn)代化風(fēng)格的住宅樓,路面狀況良好,略微傾斜,似乎是丘陵地帶。

第一輪測(cè)試中,各模型回答如下:

ChatGPT-o3:

Gemini-2.5-pro:

Claude-3.7-sonnet-thinking:

Doubao-1.5-thinking-pro:

QVQ-Max:

把第一輪的答題結(jié)果對(duì)應(yīng)到地圖坐標(biāo)位置,與實(shí)際答案距離位置如圖:

實(shí)際位置約在:1.266428, 103.823641,可在 Google 地圖查看街景

不過第一輪照片,其實(shí)還是缺乏了決定性信息。如果要完全精準(zhǔn),就需要對(duì)照新加坡的衛(wèi)星/街景影像,進(jìn)行一一排查。

本輪排名 ?? :

第二輪:有俄文名稱的工廠

第二輪的各 AI 的猜測(cè)結(jié)果,對(duì)應(yīng)地圖位置如下:

其中 ChatGPT 和 Gemini 表現(xiàn)出了意外的準(zhǔn)確性,誤差均在 1 公里左右。

雖然不小心定位到海里去了,但無傷大雅。(主要是因?yàn)楸据啽荣愔校?AI 不能通過地圖服務(wù)確認(rèn)經(jīng)緯度的真實(shí)位置情況)

實(shí)際位置約在:44.727172, 37.823414,可在 Google 地圖查看街景

特別的,ChatGPT-o3 在本次推理過程中,對(duì)圖像進(jìn)行了多次“縮放再識(shí)別”,類似人類識(shí)別圖像細(xì)節(jié)的過程,“當(dāng)整張圖像看不出足夠的信息時(shí),通過放大圖像,來加強(qiáng)對(duì)某個(gè)特征區(qū)域的細(xì)節(jié)識(shí)別”。

想來這種視覺推理方式,很快會(huì)成為各家的共識(shí)。

本輪排名 ??:

第三輪:某海邊公路

沿海的公路,遠(yuǎn)處西方有雪山,太陽非常好,繞山公路的方向也很明顯。

第三輪的各 AI 的猜測(cè)結(jié)果,對(duì)應(yīng)地圖位置如下:

實(shí)際位置約在:38.658016, 23.967011,可在 Google 地圖查看街景

本輪排名 ??:

第四輪:零售園區(qū)

這輪其實(shí)給出的信息已經(jīng)很多,各式各樣的建筑招牌名稱、各型號(hào)的汽車、以及平坦的地貌。

第四輪結(jié)果,對(duì)應(yīng)地圖位置如下:

實(shí)際位置約在:44.867243, 13.868149,可在 Google 地圖查看街景

ChatGPT 和 Gemini 表現(xiàn)的都很“本地人”,不過 Gemini 這次更勝一籌。

值得一提的是,本次實(shí)測(cè)中,只有 QVQ-Max 和 ChatGPT-o3 識(shí)別出了圖二遠(yuǎn)處很小的“Decathlon”迪卡儂 Logo。

(這樣來看,QVQ 沒做縮放再識(shí)別,識(shí)別精度也不錯(cuò))

如果 AI 能調(diào)用 Google 地圖,進(jìn)行建筑名稱的布局、距離的真實(shí)比對(duì),應(yīng)該更容易找到完全精確的位置。

第五輪:干燥丘陵

最后一輪的信息就相當(dāng)有限了,干燥的丘陵地形,主要為低矮灌木,符合地中海氣候區(qū)或者溫帶大陸性半干旱氣候區(qū)的特征。

維護(hù)的相對(duì)良好的土路,道路大致朝西南方向。估計(jì)是在鄉(xiāng)村或偏遠(yuǎn)地區(qū),交通不便。推理難度確實(shí)比之前的更高。

各家 AI 推測(cè)的地圖位置如下:

實(shí)際位置約在:40.372043, 31.760780,可在 Google 地圖查看街景

?? 比賽結(jié)果:o3 第一

統(tǒng)計(jì) 5 輪比賽結(jié)果,平均名次就是最終成績(jī):

小結(jié)

這次比賽,并沒有讓 AI 聯(lián)網(wǎng)使用地圖服務(wù)或圖像搜索,純粹考察模型基于自身的視覺識(shí)別、知識(shí)儲(chǔ)備、多模態(tài)推理這三大核心能力。

(模擬了真實(shí)人類玩「圖尋」的情況,沒時(shí)間用地圖查詢作弊)

但在 AI 的幫助下,我依然超過了今天 94.88% 的玩家,刷新了我自己的得分紀(jì)錄。

而這當(dāng)然不是當(dāng)前 AI 的能力邊界。

當(dāng)我們把衛(wèi)星地圖、街景影像服務(wù),甚至小紅書等社交平臺(tái)的權(quán)限,通過類 MCP 協(xié)議提供給 AI 后,

任何人都能用 AI 快速推測(cè)一張照片的大致范圍,再利用衛(wèi)星影像、社交平臺(tái)照片內(nèi)容精細(xì)比對(duì),最終推測(cè)出精度極其恐怖的位置信息。

那樣,精準(zhǔn)定位一個(gè)人的位置不再是難題。

而一個(gè)能看懂世界、調(diào)用互聯(lián)網(wǎng)海量工具、多步推理的 AI,將在地圖導(dǎo)航、生活服務(wù)、乃至安防監(jiān)控等方方面面帶來多大的變化?

本文由人人都是產(chǎn)品經(jīng)理作者【一澤Eze】,微信公眾號(hào):【一澤Eze】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Unsplash,基于 CC0 協(xié)議。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!