想象一下,我們隨機從人口統計表、房價走勢、或股票交易量中,隨機抓出成千上萬個數字。
如果我們提取這些數據的首位數字(即 1 到 9 之間那個數字),哪個數字出現的概率最高?
大多數人的直覺是:從 1 到 9,每個數字出現的概率應該是均等的,大約都是 11.1%。但事實卻是:數字 1 出現的概率最高,甚至接近30%,而 9 出現的概率還不到5%。
![]()
這種 分布并非 巧合, 而是一個幾乎統治了所 有自然增長數據 集的數學定律:本福德定律(Benford's Law)。
為什么世界偏愛數字“1”?
看似混亂的自然界,其實暗藏著精準的對數規律。1881年,天文學家西蒙·紐康在圖書館翻閱公用對數表時,注意到一個細節:以 1 開頭的頁面遠比以 8、9 開頭的更臟更破。這反映了人類處理的數據中,低首位數字的處理頻次占據了壓倒性的比例。
![]()
這個發現并未被正式記錄,直到1938年通用電氣的物理學家弗蘭克·本福特收集了河流面積、各國人口、物理常數等20余組、逾兩萬個數字進行驗證。結論驚人地一致:首位數字為 1 的數據占比30.1%,為 2 的約占 17.6%,依次遞減,到 9 僅剩不足 4.6%,才正式確立并命名了這個規律。
為什么現實世界的數據總是不約而同地服從本福德定律?
1.物理本質:自然界的乘性增長規律
我們習慣用線性的眼光看世界。然而,現實世界的大多數動態過程并非簡單的加法疊加,而是比例性的乘法增長。無論是細胞分裂、復利積累、社會財富演變,還是物理學中的放射性衰變,其變化率通常與當前的規模成正比。這種“利滾利”的現象在數學上表現為微分方程:
![]()
這種增長方式決定了:首位數越小,跨越該區間所需的相對增量就越大。
比如,從 100 萬增長到 200 萬,資產需要翻倍(相對增量為 100%);而從 900 萬增長到 1000 萬,資產僅需微增 11.1%(首位重新回到 1)。
在線性直尺上,1 到 2 和 8 到 9 的物理距離是一樣的;但在乘性增長的世界里,同樣的絕對增量對應著完全不同的相對變化。這解釋了為什么數值在以 1 開頭時最為“吃力”,這也是本福德定律最核心的物理來源。
2. 對數尺度下的線性化轉換
由于指數增長是不斷加速的,很難在統一標準下觀察。數學家引入了對數空間來解決這個問題。當我們對增長等式兩邊取自然對數ln時,復雜的指數增長被“拉直”成了標準的直線方程:
![]()
在這個轉換中,原本劇烈的倍數擴張變成了隨時間 t 勻速增加的距離。對數尺子度量的不再是絕對數額,而是增長的進度。只要增長率 r 恒定,數值在對數軸上的演化就是等速的。這意味著,系統在某個區間停留的時間,就嚴格等于該區間在對數軸上的物理長度。1881 年西蒙·紐康發現對數表前幾頁更臟,本質上就是因為人類觀測的數據大多處在對數軸上那個漫長的低首位區間。
3. 對數空間里的分配規律
既然系統在對數軸上是勻速推進的,那么只要觀察時間足夠長,數值落在對數軸上任何位置的概率就是相等的。此時,首位數字 d 出現的概率,完全取決于該數字在對數軸上占據的空間寬度。
數字 1 的領地:log??(2) ? log??(1) = 0.30
數字 2 的領地:log??(3) ? log??(2) = 0.17
數字 9 的區域:log??(10) ? log??(9) = 0.046
可以看出,在對數這把尺子上,數字 1 的領地最寬(占總長度30%),數值穿過它所需的時間最長。當你隨機觀測一個跨越多個數量級的自然系統時,落在 1 到 2 區間的概率,天然就是落在 8 到 9 區間的 6.5 倍。
通過計算從 d 到 d+1 的對數距離在整個單位長度中的占比,我們便得到了本福德定律的通用公式:
![]()
這種分配規律有一種穩健的特性:尺度不變性(Scale Invariance)。也就是無論你用什么度量衡,只要數據跨度足夠大,位數字的分布比例都保持恒定,并精準契合本福德定律。數學上,只有對數分布具備這種“不隨單位縮放而改變”的深層對稱性。
數字世界的“指紋”
人工構造的隨機數往往會破壞自然數據中固有的對數秩序。
2001 年安然公司破產后,審計人員回溯時發現,其披露的財報中首位數字的分布嚴重背離了定律。造假者通過偽造隨機數掩蓋關聯交易,卻抹去了自然數據中特有的分布節奏;
![]()
在希臘債務危機爆發前,研究人員也利用了本福德定律發現希臘申報的 GDP 數據偏離度顯著高于其他歐洲國家。后期事實證明,希臘確實通過會計手段掩蓋了赤字以符合歐元區準入門檻。目前,本福德分析已成為稅務稽查、選舉審查和科研打假中鎖定可疑對象的標準工具。
這種統計規律也存在于圖像診斷中。自然景物的光影過渡通常是連續且平滑的,在 JPEG 壓縮標準中,圖像被劃分為 8x8 的像素塊,通過離散余弦變換(DCT)將空間位圖映射為頻域系數,其幅值分布高度契合本福德定律。一旦使用圖像處理工具或生成式人工智能進行篡改,即便改動在視覺上難以察覺,算法也能夠精準捕捉到系數分布相較于本福德分布的異動,從而判定圖像是否經過了后期處理。
![]()
希爾定理:多源分布的收斂
既然單一體制(乘性增長)服從定律,那么如果把一整份報紙里互不相干的數據(氣溫、比分、股價、人口)混在一起呢?
1995 年,數學家泰德·希爾(Ted Hill)證明了一個關鍵的收斂機制:如果從多個不同的、互不相關的概率分布中隨機抽取樣本并進行混合,最終生成的復合集合將趨向于符合本福德分布。
這可以被視作對數空間的中心極限定理。在普通的加法世界里,大量隨機變量疊加會產生正態分布(鐘形曲線);而在跨越多個量級的乘法世界里,多源數據的混合疊加則導向了對數均勻分布。這種收斂性解釋了為什么復雜的系統(無論是企業賬目還是社會統計)即使包含了很多不具備指數增長特征的單一環節,整體上卻能展現出極高的統計一致性。
本福德定律告訴我們:秩序往往隱藏在表面的不平衡中。造假者可以模仿孤立的數字,卻永遠無法重構這種自洽的統計生態。
end
參考資料:
[1]The Law of Anomalous Numbers. Benford, F.
[2]Benford's Law: Applications for Forensic Accounting, and Fraud Detection. Nigrini, M. J. (2012).
[3]The Distribution of Leading Digits and Uniform Distribution Modulo 1. Diaconis, P.
[4] A Statistical Derivation of the Significant-Digit Law. Hill, T. P.
來源:DataCafe
編輯:楊樂多
轉載內容僅代表作者觀點
不代表中科院物理所立場
如需轉載請聯系原公眾號
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.