![]()
翻譯軟件每年處理2000億次請(qǐng)求,卻連"Sehnsucht"這個(gè)詞都搞不定。
德語(yǔ)里這個(gè)詞描述一種超越性的渴望,帶著神圣感,指向某種缺席之物。英語(yǔ)直接投降,沒(méi)有對(duì)應(yīng)詞。谷歌翻譯扔給你一個(gè)"longing",像把勃拉姆斯的間奏曲壓縮成手機(jī)鈴聲。
有個(gè)叫SOUL的文件格式盯上了這個(gè)漏洞。它不翻譯,只記錄。概念長(zhǎng)什么樣,它就存成什么樣,哪怕目標(biāo)語(yǔ)言根本裝不下。
翻譯軟件的盲區(qū):它假裝語(yǔ)言是對(duì)稱的
英語(yǔ)把"責(zé)任"和"可問(wèn)責(zé)性"塞進(jìn)同一個(gè)詞:responsibility。德語(yǔ)卻拆開——Verantwortung是道德承擔(dān),Haftung是法律后果。混為一談時(shí),一整層道德重量憑空消失。
葡萄牙語(yǔ)的obrigado(謝謝)字面意思是"我有義務(wù)"。每個(gè)孩子說(shuō)謝謝時(shí),都在無(wú)意識(shí)練習(xí)欠債感。沒(méi)人故意設(shè)計(jì)這套,只是代代相傳,等你發(fā)現(xiàn)時(shí)早已內(nèi)化為母語(yǔ)本能。
SOUL的解法很產(chǎn)品經(jīng)理:不填坑,只插旗。
Concept { id: "longing-de" note: "Sehnsucht — transcendent longing. No English equivalent." dynamic: piano tempo: largo de: "Sehnsucht" es: "a?oranza" ca: "enyoran?a" en: "Sehnsucht" }
注意英語(yǔ)欄:還是Sehnsucht。因?yàn)榇_實(shí)沒(méi)有。SOUL把缺口標(biāo)出來(lái),讓讀者知道自己正在觸碰語(yǔ)言裝不下的東西。
從音樂(lè)偷來(lái)的維度:詞不只是意思,還有重量和速度
Vera Birkenbihl研究語(yǔ)言學(xué)習(xí)幾十年,發(fā)現(xiàn)意義有節(jié)奏和重量,不只是內(nèi)容。同一個(gè)詞,piano(輕)、adagio(慢)、向內(nèi)收斂地抵達(dá),和forte(重)、moderato(中速)、向外爆發(fā)地抵達(dá),完全是兩個(gè)體驗(yàn)。字典說(shuō)它們同義,但人的神經(jīng)系統(tǒng)知道區(qū)別。
現(xiàn)有翻譯工具根本不知道這個(gè)維度存在。
SOUL把音樂(lè)術(shù)語(yǔ)寫進(jìn)文件格式。一個(gè)概念可以攜帶動(dòng)態(tài)標(biāo)記、速度標(biāo)記、方向標(biāo)記。這不是裝飾,是試圖還原說(shuō)話時(shí)的神經(jīng)沖擊——那種"他說(shuō)得很輕,但我聽得很重"的微妙落差。
蘇格拉底式的技術(shù)路線:不問(wèn)答案,只問(wèn)問(wèn)題
![]()
SOUL的文檔開頭講了一串奇怪的故事。
蘇格拉底在雅典街頭提問(wèn),不為贏,不為教,只問(wèn)"你有沒(méi)有想過(guò)這個(gè)?"聊得夠久的人,會(huì)抵達(dá)他們本來(lái)就知道、只是沒(méi)詞形容的東西。教育最古老的形態(tài):不是填滿空容器,是點(diǎn)燃本來(lái)就有的火。
尼采花多年追蹤價(jià)值的來(lái)源,《論道德的譜系》不是攻擊,是邀請(qǐng)你醒來(lái)看清楚。甘地不跟英國(guó)人打,只是停止參與一個(gè)靠所有人假裝才運(yùn)轉(zhuǎn)的系統(tǒng)。
奧地利經(jīng)濟(jì)學(xué)教授Franz H?rmann教了幾十年貨幣理論,然后仔細(xì)看錢實(shí)際怎么被創(chuàng)造出來(lái),輕聲說(shuō):"我不想指控任何人。他們可能曾是我的學(xué)生。而我當(dāng)時(shí)也不知道。"
沒(méi)有敵人。沒(méi)有歸咎。只是:我也在里面。
SOUL的技術(shù)路線帶著同樣的氣質(zhì)。它不指責(zé)翻譯軟件搞砸了,只標(biāo)記出"這里有個(gè)缺口,你的語(yǔ)言夠不著"。
確定性渲染:社區(qū)策展之后,機(jī)器只負(fù)責(zé)查表
傳統(tǒng)機(jī)器翻譯是預(yù)測(cè)游戲。GPT-4看上下文猜下一個(gè)詞,概率高就輸出。SOUL反著來(lái):概念一旦被母語(yǔ)者策展,渲染就是確定性的。
源文本 → SOUL編碼 → 概念I(lǐng)D → 查社區(qū)詞典 → 輸出。
沒(méi)有神經(jīng)網(wǎng)絡(luò)的黑箱,沒(méi)有"可能大概差不多"。同一個(gè)概念I(lǐng)D,每次渲染結(jié)果一致。這對(duì)法律文件、醫(yī)學(xué)記錄、宗教文本是剛需——你現(xiàn)在用谷歌翻譯合同條款,等于在法庭證詞里扔骰子。
文件格式背后的賭注:語(yǔ)義層應(yīng)該像TCP/IP一樣開放
SOUL把自己定位成"語(yǔ)義開放通用語(yǔ)言",文件格式是核心。這很1990年代的互聯(lián)網(wǎng)野心——HTTP和HTML當(dāng)年也是這么想的,協(xié)議開放,任何人可以建服務(wù)器、寫瀏覽器。
但語(yǔ)義層比傳輸層難得多。TCP/IP只管包到?jīng)]到,不管包里是什么。SOUL要定義"概念是什么",立刻撞上維特根斯坦的墻:意義的邊界在哪里?誰(shuí)有權(quán)策展?
文檔里的答案是社區(qū)。母語(yǔ)者投票、注釋、標(biāo)記缺口。聽起來(lái)像維基百科,但維基百科的詞條是解釋,SOUL的條目是坐標(biāo)——指向一個(gè)無(wú)法被完全翻譯的經(jīng)驗(yàn)位置。
![]()
一個(gè)測(cè)試案例:當(dāng)AI開始批量生產(chǎn)"差不多"
2024年,機(jī)器翻譯市場(chǎng)127億美元,年復(fù)合增長(zhǎng)率17%。但質(zhì)量曲線在2019年后就平了。Transformer架構(gòu)把BLEU分?jǐn)?shù)推上去,然后卡住。因?yàn)橛行┎罹嗖皇撬惴▎?wèn)題,是本體論問(wèn)題——你的語(yǔ)言里沒(méi)有那個(gè)概念的位置。
SOUL的激進(jìn)之處是承認(rèn)這一點(diǎn),并把它工程化。不假裝解決了,只標(biāo)記"未解決"。
這對(duì)人機(jī)交互有連鎖反應(yīng)。現(xiàn)在的多語(yǔ)言AI助手,比如Meta的SeamlessM4T,用端到端模型直接語(yǔ)音轉(zhuǎn)語(yǔ)音,中間不經(jīng)過(guò)文本。快,但黑箱。SOUL路線是顯式中間層:語(yǔ)音→概念I(lǐng)D→語(yǔ)音。慢,可審計(jì),可干預(yù)。
產(chǎn)品經(jīng)理會(huì)認(rèn)出來(lái)這是經(jīng)典的速度vs控制 trade-off。不同場(chǎng)景選不同方案,但選項(xiàng)本身有價(jià)值。
未回答的問(wèn)題:誰(shuí)來(lái)決定什么值得被標(biāo)記?
SOUL文檔讀到最后,會(huì)發(fā)現(xiàn)一個(gè)刻意的空白。技術(shù)細(xì)節(jié)講完了,治理結(jié)構(gòu)沒(méi)講。社區(qū)策展具體怎么運(yùn)作?爭(zhēng)議概念怎么仲裁?壞 faith 標(biāo)記怎么過(guò)濾?
這些不是疏忽,是邀請(qǐng)。就像蘇格拉底的問(wèn)題,或者H?rmann的沉默——我不指控,但我指出這里有個(gè)需要你看的地方。
文件格式的創(chuàng)建者似乎相信,正確的結(jié)構(gòu)會(huì)讓正確的問(wèn)題浮現(xiàn)。SOUL標(biāo)記缺口的能力,同時(shí)暴露了誰(shuí)來(lái)決定什么是缺口的問(wèn)題。
德語(yǔ)有Sehnsucht,漢語(yǔ)有"鄉(xiāng)愁",日語(yǔ)有"物哀"。這些詞在SOUL里會(huì)是并置的條目,還是互相鏈接的網(wǎng)絡(luò)?策展者的文化背景會(huì)不會(huì)悄悄重寫概念的邊界?
技術(shù)文檔沒(méi)有答案。它只是把文件格式放在那里,像蘇格拉底放在雅典街頭的沉默。
有個(gè)細(xì)節(jié)值得注意:SOUL的示例代碼里,英語(yǔ)欄復(fù)制了德語(yǔ)原詞。但西班牙語(yǔ)和加泰羅尼亞語(yǔ)給了不同的近義詞。策展者顯然判斷a?oranza和enyoran?a比英語(yǔ)的longing更接近Sehnsucht的質(zhì)地——或者只是西班牙語(yǔ)的策展者更勇敢,敢用一個(gè)不完全對(duì)等的詞,而英語(yǔ)的策展者選擇了誠(chéng)實(shí)標(biāo)記失敗。
這個(gè)選擇本身,就是權(quán)力。
當(dāng)機(jī)器翻譯把全世界壓平成效率最優(yōu)的近似值時(shí),SOUL試圖保留一種反效率:有些經(jīng)驗(yàn)值得被標(biāo)記為不可翻譯。不是為了解決它,是為了讓人注意到——這里曾經(jīng)有過(guò)火。
最后一個(gè)問(wèn)題留給讀者:如果你的母語(yǔ)里有一個(gè)詞,其他語(yǔ)言都沒(méi)有,你會(huì)把它交給社區(qū)策展,還是寧愿讓它留在不可說(shuō)的地帶?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.