來源:市場資訊
(來源:Pubpeer)
在科學研究的世界里,數據的真實與準確是生命線。然而,一篇被引用了超過4000次、發表于頂級期刊《細胞》的里程碑式論文,其公開數據集中竟暗藏大量重復的數值——這個令人震驚的發現,并非來自學術界的同行評審,而是出自一位荷蘭軟件開發者之手。他,就是馬克斯·英格蘭。
![]()
英格蘭并非傳統科學家,而是一名熱衷于維護科研誠信的“數據偵探”。在過去一年里,他開發了一款名為“Bloodhound”的智能檢測軟件,專門“嗅探”公開科學數據中那些不可能出現的、復制粘貼的數值。他的“獵場”,是全球知名的開放獲取數據存儲庫Dryad。
故事的起點并不復雜。英格蘭是知名學術監督網站“撤稿觀察”的忠實讀者。他發現,雖然利用技術識別重復圖像已成果斐然,但針對數值數據的類似審查卻幾乎空白。一個想法在他腦中成型:既然圖片可以造假,數字為什么不行?他決定用代碼來填補這個空白。
他的軟件工作原理猶如一個精密的漏斗。 首先,程序從Dryad中篩選出高引用論文的數據集,進行第一輪重復數值掃描。但這會捕獲大量“誤報”——比如,計算表格中為方便而整列復制的平均值。為此,英格蘭引入了人工智能(谷歌的Gemini 3.1)進行第二輪智能研判。AI的任務是評估這些重復是“情有可原”還是“疑點重重”。在已完全分析的約600篇論文中,35%的數據集觸發了初步警報,而其中33%被AI標記為“可疑”。
![]()
即便如此,挑戰依然存在。AI曾錯誤地標記了一項關于白蟻丘生物量的研究,因為測量草高時出現的幾毫米差異被誤判為異常。經過“AI+人工”雙重審查,英格蘭初步估計,大約有3%的數據集存在需要關注的“問題”。 按此比例推算,僅在Dryad內含Excel文件的2.4萬個數據集中,就可能隱藏著超過700個問題案例。
而最引人注目的“戰果”,直指2016年那篇轟動學界的《細胞》論文。 該論文提出了帕金森病可能起源于腸道的開創性觀點。英格蘭的軟件發現,這篇論文公開近十年的數據集中,健康小鼠的運動功能數據有近一半存在重復,微生物群被改變的小鼠數據也有約40%重復。“這本身就有新聞價值,”英格蘭說,“科學家們認為這篇論文有趣到足以引用上千次,但近十年來,竟無人發現這個具體問題。”
在學術討論平臺PubPeer上,其他研究人員也就該論文的方法論提出了質疑。面對疑問,論文的通訊作者薩基斯·馬茲馬尼安稱這些是“誠實的錯誤”,并表示實驗室正在努力修正手稿。然而,在英格蘭指出問題后不久,同一實驗室的另一篇論文也被發現了類似問題。
英格蘭的行動在學術界激起了漣漪。對于他的發現,許多被質疑論文的作者在PubPeer上給出了解釋:有的是因為合并Excel文件時,不小心將魚類體型數據匹配錯了個體;有的是誤將一個物種的數據粘貼到了另一個物種的表格中。在英格蘭已提出質疑的20篇論文中,有5篇的作者承認錯誤,但堅稱不影響最終結論。
“我們永遠無法知道這些重復背后真正的原因是什么,”英格蘭謹慎地表示。他的核心目標并非指控,而是喚起關注。 他希望資助機構和期刊能夠重視這些問題,并啟動更深入的調查。“如果只是無心之失,卻指控他人欺詐,那將極大的不公。”
然而,推動改變的過程比發現數據異常更加緩慢。英格蘭最早在2025年5月就向《生態學雜志》標記了一篇關于中國入侵植物的研究論文,但截至報道時,修正仍未完成。該刊物的執行編輯表示,調查已結束,正與出版商和作者敲定最終解決方案。
作為數據存儲方,Dryad已在其網站上發布了“關注聲明”,并對英格蘭發現的兩個數據集發出了正式通告。Dryad數據出版負責人丹·愛德華茲承認,英格蘭的工作“揭示了過去未被識別的表格數據問題,為促進研究誠信開辟了新途徑”,但后續的人工核查與解決每個案例,都需要“巨大的投入”。
目前,英格蘭的審查之旅才剛剛開始。他的故事揭示了一個嚴峻的現實:在“可重復性危機”備受關注的今天,大量已發表、被引用、甚至影響深遠的科學數據,可能從未經過系統的數值真實性審查。一位“局外人”用代碼打開的這扇門背后,是一個關于科學信任、糾錯機制與技術進步如何重塑學術規范的宏大故事。 這場靜默的“數據凈化”行動仍在繼續,而它對科學界的影響,或許才剛剛開始。
https://retractionwatch.com/2026/04/06/data-duplications-errors-open-repositories-markus-englund/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.