網易首頁 > 網易號 > 正文申請入駐

<span class="js_title_inner">AI愛胡說八道？那就為數據「降噪」

2026-01-30 17:56:19　來源: 數字力場

北京舉報

分享至

在用戶「苦AI胡編亂造久矣」的今天，AI大模型該如何擺脫「垃圾進，垃圾出」的魔咒？

文 | 佘宗明

這年頭，比冷不丁梆梆就兩拳掌門人張八旦更能「一本正經地胡說八道」的，是AI。

去年初，DeepSeek火了后，就有篇文章在網上熱傳，題目是「DeepSeek的胡編亂造，正在淹沒中文互聯網」。

愛胡編亂造的，不只是DeepSeek。如果說幻覺是病，那它稱得上是大模型的通病。

前不久，香港大學人工智能評估實驗室（AIEL）就發布報告稱，大模型普遍存在「嚴守指令但易虛構事實」傾向，事實可靠性仍是全球大模型共同的短板。

更早之前，去年2月，清華大學新媒沈陽團隊的報告指出，市場上多個熱門大模型在事實性幻覺評測中幻覺率超過19%。

可以說，生成式AI將互聯網時代的「信息過載，事實稀缺」情形進行了幾何級放大。

那怎么讓AI離加冕「事實派」近些，離「滿嘴跑火車」遠些？

打破大模型「GIGO（即垃圾進Garbage In，垃圾出Garbage Out）」魔咒，至關重要。

究其前提，就是要回歸「Clean Data > Big Model（高質量數據優于大模型）」的邏輯基點。

01/

為什么AI給出的答案總是「聽著像真的，其實是編的」？它怎么就這么愛胡編亂造？

去年9月，OpenAI在論文《為什么語言模型會產生幻覺》中對此做出了分析，我的總結是：因為大語言模型（LLM）「本性難移」。

大模型本質上是個「隨機鸚鵡」，運行底層邏輯是「下一個詞元預測」（Next Token Prediction），這決定了，它是個貝葉斯預測大師，而非事實考證者。

其長處在于，能根據高頻統計關聯對強規律性知識（如語法規則、編程程式、基礎常識）進行快速「復現」。打個比方，你問它「法國首都是哪里」，它會因為「法國首都巴黎」幾個字在海量文本中以固定搭配高頻出現，迅速回答「巴黎」。

問題是，世界上絕大多數知識都是出現頻次低的「長尾事實」（Long-tail Facts），如數字力場公眾號創立時間，就不是規律性知識。按圖靈獎得主楊立昆的說法，大模型是高級復讀機，「擅長模仿人類對話模式，卻不懂背后的邏輯與含義。」碰到這類問題，它經常蒙圈。

由于訓練目標是「最大化生成文本序列的聯合概率」，不包含任何關于真實性的直接約束，對于不懂的問題，它傾向于編個像樣的，而非坦承其短地說「我不知道」。

大模型幻覺問題連著的，是訓練機制問題，更是數據質量問題——「真數據不夠，臟數據來湊」之下，必然會出現上游水源（輸入語料）污染導致下游水流（輸出結果）渾濁的情況。

▲很多大模型都跳不出「垃圾進，垃圾出」的魔咒。

都知道，大模型的三大要素是算法、算力和數據，數據（語料）是源頭活水。前兩者可以靠優化，后者主要靠積累。

隨著可用真實數據漸次枯竭，大模型如今普遍患上了高質量數據饑渴癥。

不少大模型用合成數據解渴，想靠AI生成內容來推倒自己撞上的那堵「數據墻」。

但這很可能導致「模型崩潰（Model Collapse）」——2024年7月，《自然》雜志就對此發出預警，稱隨著模型繼續在模型本身生成的越來越不準確的文本上進行訓練，這類遞歸循環會導致模型退化，AI很可能「在短短幾代內將原始內容迭代成無法挽回的胡言亂語。」

結果就是，AI「訓」AI，越訓越傻。

02 /

在幻覺問題上，「機器學習之父」邁克爾·歐文·喬丹曾表示，「單純依靠暴力計算（Brute Force）無法解決智能的根本問題，反而可能因為數據噪聲而產生系統性風險。」

誠如此言，大模型幻覺帶來的破壞力不容小覷，一個程序bug也許會導致系統崩潰，但那是顯性的，大模型幻覺則頗具隱蔽性，隱蔽性會強化其危害性。

首先，在醫療診斷、法律咨詢、金融決策等邊際容錯率極低的領域，出現任何幻覺，都可能釀成嚴重后果，導致生命財產損失。

其次，AI胡編亂造容易導致錯誤信息謬種流傳，帶來社會空間信息污染，還消耗大眾的技術信任度，拉低許多人的接受意愿。

還有，流沙上沒法建大廈，幻覺問題若得不到有效控制，大模型的應用落地也會受影響。

大模型的進化形態，是成為能夠主動執行復雜任務的智能體（Agent），但前置條件是可靠。畢竟，誰也無法安心委托那些可能會憑空捏造聯系人信息、杜撰財報數據的AI助理，來處理重要事務。

▲大模型幻覺帶來的危害不容小覷。

時至今日，幻覺已從技術瑕疵演變為AI產業化應用的現實掣肘。

當此之時，正如芯片產業已走出「兆赫茲競賽」迷思那樣，AI行業也該跳出「數據規模崇拜」和「參數軍備競賽熱潮」。

從百億到千億再到萬億，過去幾年，大模型領域的參數規模持續被刷新，仿佛數據量越大模型性能就越好。

這在初期確實成立，參數也并非不重要，但隨著「更大的模型=更強的智能」等式在邊際效用遞減中失效，回歸數據質量重要性高于數據集規模的理性判斷，正當其時。中國最大的數據智能服務商明略科技提出「Clean Data > Big Model」，就意在于此。

要知道，現在AI行業已進入產業化落地階段，用戶（特別是企業級用戶）在意的不是參數數字，而是模型在實際任務中表現出的可用性、可靠性——他們需要的是「可信AI」。

而控制幻覺，就是「可信AI」價值凸顯期的決定性競爭維度。數據可信度也已取代數據集規模，成為大模型的核心競爭力。

03 /

正因來得普遍又極具危害，大模型幻覺不是個可以打個補丁的小bug，而是需要從系統層面去革新重構的根本性問題。

知名AI科學家、斯坦福大學教授吳恩達提出的「以數據為中心的AI（Data-Centric AI）」理念，就來得頗具針對性。他認為，AI模型開發過程中，業界過分關注模型架構的優化，卻忽視了系統性地工程化數據質量。「如果80%的機器學習工作是數據準備，那么確保數據質量應該是團隊最重要的工作。」

「以數據為中心的AI」跟傳統的AI模型搭建范式「以模型為中心的AI（Model-centric AI）」有別，后者主要工作是改進模型參數，前者主要目標則是改善數據質量——「AI教母」李飛飛、AI大神安德烈·卡帕斯此前做的，其實就與此相關。

▲兩種AI模型搭建范式的對照。

明略科技基于「Clean Data > Big Model」技術哲學系統性地發掘聚合跨領域的高可信信源，推出目前全球范圍內最全面、最權威、最結構化數據源知識庫——First Data，也與之呼應。

需要看到的是，對很多企業來說，獲取干凈、權威、實時的數據比訓練一個模型要難得多。畢竟，大量高價值的權威數據「沉睡」在政府網站深處、PDF報告或復雜的交互式圖表中，由于API接口眾多、格式各異、標準不一，很難被機器自動解析。

First Data擬收錄全球1000余個權威數據源（涵蓋國際組織、各國政府、頂級學術機構），將分散、非標、難復用的原始內容，轉化為可追溯、可驗證、可引用的核心事實，不啻為大模型行業搭建了「可信數據源基礎設施」，它不直接提供「數據」，但能解決「數據去哪找」問題。

《自然》雜志提到，提升模型準確性的重要途徑是，訪問原始數據源并在遞歸訓練的模型中仔細過濾數據。

而First Data堅持100% URL驗證標準，每個數據源都有完整文檔，確保數據源真實可用。這直接回應了AI安全倫理范疇的「數據溯源（Data Provenance）」關切，能從源頭阻斷「幻覺引用」的可能性。

舉個例子，用戶問「2025年前三季度中國AI產業產值是多少？」通常情況下，AI會回憶訓練數據再生成像樣答案；有了數據索引導航工具First Data后，AI則可以指引用戶前往權威信源處獲取相關數據——在此過程中，First Data會充分顧及數據調用與數據跨境傳輸安全，推薦合規可靠的權威網站，并提供文件獲取的逐步導航索引。

First Data的亮點不只是強調「數據溯源」，還有「權重分級」——那些數據源包含了訪問鏈接并標注了API接口信息、更新頻率、覆蓋范圍，更引入了「六大權威等級分類」的創新做法。

這無疑是有的放矢：信源跟信源之間也有可信度差異。按權威程度分級，可以凸顯高可信信源的優先序。

就拿查詢「發展中國家經濟數據」來講，First Data會優先推薦AI去世界銀行官網而非商業資訊公司報告找數據，讓AI盡可能避免低質量信息干擾。

▲First Data建立了結構化元數據體系，還有權威等級分類。

舍此之外，開放開源也是First Data的醒目看點。1月28日，明略科技宣布正式開源First Data。這顯然是盤大棋。

從商業競爭角度看，此舉似乎有些「不值當」，但若是從深遠層面看，以目前最寬松的開源協議MIT協議開源，是利他以自利。

一方面，這能豐富權威數據庫。為了確保數據可信，Google Knowledge Graph此前通過語義搜索和NLP技術持續改進信息準確性，First Data則能走得更遠——依托開源社區協作跟透明溯源機制，它可以建立「分布式數據源賬本」。當全球數據科學家都能參與審核、補充數據源時，其可信度會遠高于單一企業維護的數據庫。

另一方面，這能帶來技術普惠。First Data開源就像針對模型幻覺流行病的數字疫苗接種計劃，讓AI行業切實受益。

04 /

毫無疑問，在用戶「苦AI胡編亂造久矣」的今天，AI行業需要可信數據底座。

而First Data建立的結構化元數據體系，就以可靠數據為錨，為整個行業提供了對抗「模型崩潰」的參照系，也為企業級RAG應用帶來了權威數據層的即插即用解決方案。

對很多企業而言，它們無需自己去搭建數據基礎設施，可以直接利用First Data構建的權威數據源網絡，搭建可信的AI應用原型。

可以預見，有高質量數據加持，很多AI產品也能在降低幻覺中提升「辦實事」能力，實現從ChatBot向智能代理的轉變，伴隨而至的，還有用戶信任的提升：當AI推薦醫療方案引用的是權威醫學數據庫，預測經濟走勢依據是官方結構化數據時，大家自然更愿意采信。

著眼長遠看，First Data開源的價值，還能朝填補全球數據源目錄拼圖中的「中國缺角」、為全球AI基礎設施打造貢獻「中國力量」兩個層面延伸。

長期以來，國外大模型由于缺乏一手、權威、結構化的數據源，在被問到中國經濟相關問題時，輸出的答案經常并不標準，使得很多人只能霧里看花、產生認知偏差。

First Data項目代碼庫雖然本身不存儲、不包含、不直接提供任何原始數據文件，但收錄了公開權威數據源，還采用了中英雙語元數據設計，可提供相關數據的推薦查詢路徑。

這么一來，用戶通過大模型的指引，在權威信源處按圖索驥獲得可信數據后，勢必能夠提升全球使用者及AI模型對中國經濟社會發展的理解深度，讓更多人能直接準確地了解到中國經濟的真實脈動。

跟西方科技巨頭傾向于構建封閉的數據護城河不同，中國企業將全球最全權威數據源知識庫開源，就如同對「中國開源VS美國閉源」模型發展路徑里「中國路線」的致敬，也體現出了鮮明的價值取向：AI時代，數據可以是公共的資源，而非壟斷的籌碼。

從Linux到TCP/IP，歷史表明，真正的數字基礎設施都是開源的，只有開源，才能形成生態，只有形成生態，才能定義標準。中國企業以開源方式為全球AI行業完善貢獻「中國維度」的數據標準，也是在把握主動權。

而這些價值的要義，就在于「真實」二字。

在今天，信息嚴重過載，事實極度稀缺，已構成了我們所處的信息環境。我們比任何時候都更需要可靠數據錨點，確保AI不是胡編亂造，而是言必有據。

First Data給出的解法便是：若AI愛胡編亂造，那就為數據「降噪」。到頭來，其開源的深層價值，與其說是提供了大量權威數據源的工具箱，不如說是申明了某種技術倫理——

AI的核心價值點，不在能說得多像，在能說得多準；不在能生成多少內容，而在能創造多少可信價值。故而，數據可信度優于數據規模，信息可靠性重過生成流暢性。

真善美，真是善的前提。AI向善，先要向真。

?作者 | 佘宗明

?運營 | 李玩

轉載須經許可

廣告合作請聯系微信號：rabgogo88

或手機號：18810070968

敬請關注

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.