當(dāng)AI連麻將中最基礎(chǔ)的聽牌場(chǎng)景都無法準(zhǔn)確識(shí)別時(shí),我們是否高估了其實(shí)際應(yīng)用能力?本文通過實(shí)測(cè)豆包與Gemini在麻將決策中的表現(xiàn),揭示當(dāng)前AI在多模態(tài)識(shí)別、語(yǔ)音處理與場(chǎng)景理解上的局限性。
———— / BEGIN / ————
先說結(jié)論:
別說打麻將了,就連最后的臨門一腳:聽牌(再有一張牌就胡了),AI 目前都做不到。
使用場(chǎng)景
場(chǎng)景:四個(gè)人打麻將。
任務(wù):我用豆包進(jìn)行視頻對(duì)話,看它能否幫我做出決策。為降低任務(wù)難度,我將明確告訴豆包,我已經(jīng)聽牌了。
測(cè)試內(nèi)容:主要考驗(yàn)豆包的『推理』和『視覺識(shí)別』以及『語(yǔ)音分辨聲紋能力』。
截圖看下當(dāng)時(shí)的聽牌狀態(tài)(聽的牌是 :9 條和 1 餅(1 筒)):
![]()
結(jié)果,都翻車了
當(dāng)時(shí)我問豆包:聽牌了,聽哪張一牌?
最后豆包回復(fù)我說:?jiǎn)蔚?7 餅。
我:。。。
![]()
分析下豆包存在的幾個(gè)問題:
1. 文字識(shí)別
豆包把聽到的內(nèi)容轉(zhuǎn)為文字后,識(shí)別成:停牌 而非 聽牌,不過從最后的答案來看,轉(zhuǎn)化為了 聽牌,未受到 停牌 錯(cuò)別字的影響(也可能是后續(xù)識(shí)別出來麻將場(chǎng)景,但無法修改剛開始的 停牌 文字)。
2. 視覺識(shí)別
豆包的 視覺識(shí)別 就沒那么精準(zhǔn),沒有能有效識(shí)別到畫面中我的具體的聽牌張數(shù)和聽哪張牌(可能受限于燈光?),甚至最后給的答案與面向自己的聽牌毫不相干。(豆包,你就沒發(fā)現(xiàn)你給我的答案和你所看到的沒匹配上嗎?)
3.語(yǔ)音聲紋分辨
豆包在與我的對(duì)話當(dāng)中,語(yǔ)音識(shí)別無法有效識(shí)別到是我的聲紋(也可能是現(xiàn)在豆包不具備的能力),誤將其它 3 個(gè)人的所有對(duì)話(如有人想要 7 餅、一萬 等等),都一股腦作為 Prompt 進(jìn)行處理。
這也是為什么最后回復(fù)我的答案是:?jiǎn)蔚?7 餅。
/無語(yǔ)
如果說攝像頭識(shí)別有問題,那我把截圖發(fā)給豆包試試呢?
寄希望豆包可以對(duì)圖片通過諸如高亮、裁剪、放大等操作,從這張低質(zhì)量圖片中提取到關(guān)鍵數(shù)據(jù),并告訴我正確答案。
4. 圖片識(shí)別
當(dāng)我把照片發(fā)給豆包,它同樣翻車了,回答我是:聽五萬和六筒兩張牌。
![]()
我:……
本來還想讓豆包代替我打麻將呢,結(jié)果連最簡(jiǎn)單的場(chǎng)景都翻車了。
可是,我還是不想放棄,那試試 Gemini 呢?
是否會(huì)比豆包更『聰明』呢?
Gemini,也翻車了
我把截圖發(fā)給 Gemini:告訴我聽牌,聽哪幾張牌?
![]()
Gemini 首先回答我,幫我開發(fā)了一個(gè) :麻將聽牌助手。你可以通過拍照或上傳手牌照片,利用 AI 自動(dòng)識(shí)別牌面并計(jì)算你當(dāng)前聽哪幾張牌。
![]()
最后,回復(fù)我本次識(shí)別的結(jié)果:處于『雙碰聽』狀態(tài),聽 4 筒 和 6 筒。
![]()
額……
有點(diǎn)出人意料。
我心想,那就用 Gemini 開發(fā)的 麻將聽牌助手 試一下子呢?
![]()
結(jié)果,您猜怎么著?
![]()
給出了 聽 3 筒 、6 筒 的回答。
我只是不明白為什么給出了與 Gemini 截然不同的答案?
/黑人問號(hào)臉?
于是,我又試著重新上傳一下圖片,再試一次:
結(jié)果:
![]()
結(jié)果又給出了不同的答案: 聽 3 筒 、5 萬。
我滴馬。
這 AI 屬實(shí)是把『不確定性』玩明白了。
我還能說什么?
一直被媒體吹上天,要取代人類工作的 AI ,到用戶的真實(shí)場(chǎng)景當(dāng)中,竟然這般如此拉胯 ???
剛才還只是打麻將中最最最簡(jiǎn)單的一個(gè)聽牌場(chǎng)景,更別提打麻將過程中更復(fù)雜的碰、吃、杠、胡了。
1. 用戶在打麻將的過程當(dāng)中,是一直在思考和推理接下來打哪張?還有哪張沒出?有兩對(duì)要拆一下,拆哪個(gè)?別給別人點(diǎn)炮了等等。
2. 用戶會(huì)準(zhǔn)確識(shí)打麻將的過程中,講的笑話,和麻將的上下文沒有任何關(guān)系,不需要作為 Prompt 輸入。亦或者聽到對(duì)方說:上一局我就聽一萬,結(jié)果一直沒摸到 的時(shí)候,也知道和這局的上下文沒關(guān)系。
3. 用戶能夠進(jìn)行多模態(tài)處理,比如聽到對(duì)方說:一萬(即使不在視覺范圍內(nèi)),也能立即做出是否需要的決策。
4. 當(dāng)自己的『上家』打完后,如果無人胡或碰的時(shí)候,馬上就要接手,繼續(xù)流程,AI 目前還不能準(zhǔn)確識(shí)別到:It’s my turn/該我出手了。
5.還要能準(zhǔn)確處理邊界或異常 case:比如我剛揭一張牌,下家說:我碰了、碰了。這時(shí)我需要能夠有效處理,把牌退回去。
等等,還更復(fù)雜的場(chǎng)景就不舉例了。
你會(huì)讓 AI 替你玩麻將嗎?
如果會(huì),那你玩麻將的樂趣在哪里?
讓 AI 替你玩? 你玩的意義在哪里?
還有更多娛樂場(chǎng)景:
讓 AI 替你打游戲?
讓 AI 替你刷短視頻?
讓 AI 替你看電影?
讓 AI 替你逛淘寶?
![]()
個(gè)人覺得:娛樂場(chǎng)景下,AI 無法(無需)代替人類。
PS:Gemini 的回復(fù)除了文字,還會(huì)通過拓展網(wǎng)頁(yè)或應(yīng)用(如本文的麻將聽牌助手)的形式幫助用戶獲得更進(jìn)一步的信息增量。
PPS:感興趣的同學(xué)可以測(cè)試下其它幾個(gè) AI 工具,看是否會(huì)打麻將?
本文來自公眾號(hào):大偉的數(shù)字分身 作者:大偉的數(shù)字分身
想要第一時(shí)間了解行業(yè)動(dòng)態(tài)、面試技巧、商業(yè)知識(shí)等等等?加入產(chǎn)品經(jīng)理進(jìn)化營(yíng),跟優(yōu)秀的產(chǎn)品人一起交流成長(zhǎng)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.