","style":"margin-left: 8px; margin-right: 8px;"},"namespaceURI":"http://www.w3.org/1999/xhtml"},"node",{"tagName":"span","attributes":{"style":null},"namespaceURI":"http://www.w3.org/1999/xhtml"},"node",{"tagName":"font","attributes":{"face":"宋體","style":null},"namespaceURI":"http://www.w3.org/1999/xhtml"}]' bdsfid="307">新測算方法與早期證據》的報告(Labor market impacts of AI: A new measure and early evidence)。報告由經濟學家 Maxim Massenkoff 和 Peter McCrory 撰寫,基于 Claude 的實際使用數據對這一問題進行分析。報告的主要內容如下:
![]()
關鍵發現
·本文提出一項新的人工智能替代風險測算指標—— 實際暴露度(observed exposure),該指標結合大語言模型理論能力與現實使用數據,更側重自動化(而非輔助性)及工作場景下的應用。
·人工智能遠未達到理論能力上限:實際應用覆蓋范圍僅為理論可行范圍的一小部分。
·美國勞工統計局(BLS)預測,至 2034 年,實際暴露度越高的職業,就業增長越慢。
·高暴露度職業的從業者更可能是年齡偏大、女性、受教育程度更高、收入更高的群體。
·自 2022 年末以來,高暴露度從業者的失業率并未系統性上升;但有初步證據顯示,高暴露度職業對年輕勞動者的招聘有所放緩。
引言
人工智能的快速普及催生了大量測算與預測其對勞動力市場影響的研究。但過往研究的表現提醒我們應保持審慎。
例如,一項知名的崗位可離岸外包程度研究曾判定美國約四分之一的崗位面臨風險,而十年后,這些崗位中的大多數仍保持穩健增長。政府官方的職業增長預測雖方向正確,但除了對歷史趨勢做線性外推外,預測價值有限。即便事后回顧,重大經濟沖擊對勞動力市場的影響往往也不清晰。工業機器人對就業影響的研究結論相互矛盾,由對華貿易沖擊導致的失業規模至今仍存爭議。
本文提出一套理解人工智能對勞動力市場影響的新框架,并利用早期數據進行檢驗,目前僅發現有限證據表明人工智能已影響就業。我們的目標是建立一套測算人工智能如何影響就業的方法,并定期更新分析。該框架無法覆蓋人工智能重塑勞動力市場的所有渠道,但在顯著影響出現前打下基礎,有望使未來研究比事后分析更可靠地識別經濟沖擊。
人工智能的影響未來有可能變得明確無疑。本框架在影響尚不清晰時最具價值—— 并有助于在替代效應顯現前識別最脆弱的職業。
反事實分析(Counterfactuals)
當影響巨大且突然時,因果推斷相對容易。新冠疫情及相關政策帶來的經濟沖擊極為顯著,許多問題無需復雜統計方法即可判斷。例如疫情初期失業率急劇飆升,幾乎不存在其他解釋空間。
但人工智能的影響可能更接近互聯網或對華貿易,而非新冠疫情。其影響未必能從總體失業率數據中直接看出;貿易政策、經濟周期等因素可能干擾趨勢判斷。
一種常用方法是對比不同人工智能暴露程度的勞動者、企業或行業,以將人工智能的影響與干擾因素分離。暴露度通常基于任務層面定義:例如人工智能可以批改作業,但無法管理課堂,因此教師的暴露度低于可完全遠程完成的崗位。
本文沿用這一基于任務的方法,結合理論能力與實際使用數據,再匯總至職業層面。
暴露度測算
本方法整合三類數據:
1.O*NET數據庫:列明美國約 800 種職業的具體工作任務。
2.本團隊實際使用數據(來自Anthropic Economic Index)。
3.Eloundou 等人(2023)的任務層面暴露度評估:衡量大語言模型理論上能否將某項任務效率提升至少一倍。
Eloundou 等人的指標 β 采用簡單評分:
僅靠大語言模型即可提速一倍:1 分
需基于大語言模型開發額外工具:0.5 分
無法提速:0 分
為何實際使用低于理論能力?部分理論可行的任務因模型限制、法律約束、軟件要求、人工審核等障礙尚未落地。例如“授權續藥并向藥房提供處方信息” 被評為完全暴露(β=1),但我們尚未觀察到 Claude 執行該任務,盡管理論上確實可由大語言模型提速。
不過,理論能力與實際使用高度相關。如圖 1 所示,前四次經濟指數報告中 97% 的觀測任務都屬于理論可行類別(β=0.5 或 1.0)。
![]()
新的職業暴露度指標:實際暴露度
本指標用于衡量:在大語言模型理論上可提速的任務中,哪些真正在工作場景中被自動化使用。理論能力覆蓋范圍更廣,而實際暴露度可追蹤二者差距的收窄過程,從而及時反映經濟變化。
一項職業暴露度更高,意味著:
·任務理論上可由人工智能完成
·任務在 Anthropic 經濟指數中使用量顯著
·任務用于工作相關場景
·自動化使用或 API 調用占比更高
·受人工智能影響的任務在整體工作中占比更大
具體公式見附錄。我們將滿足理論可行且在 Claude 中存在足夠工作相關使用量的任務計為 “覆蓋”,再根據使用方式加權:完全自動化計全權重,輔助性使用計半權重,最后按任務耗時占比加權平均至職業層面。
圖2 展示了觀測到的暴露情況(紅色,實際值)與Eloundou 等研究中的β值(藍色,理論值)的對比,該圖說明了我們在平臺上理論使用情況與實際使用情況之間的差異,這些數據是按廣泛的職業類別進行分組的。我們通過以下步驟來計算這個數據:首先按照我們的時間比例衡量方式按職業級別進行平均,然后按照總就業人數按職業類別進行平均。例如,β指標顯示,在計算機與數學(94%)以及辦公室與行政(90%)等大多數職業中,LLM 的應用范圍是可行的。
![]()
紅色區域展示了根據Anthropic經濟指數得出的LLM(大型語言模型)使用情況,它反映了人們在工作環境中如何使用Claude。該數據涵蓋了人工智能在實際應用中的表現,表明其遠未達到理論上的能力水平。例如,目前Claude僅能覆蓋計算機與數學類別中33%的任務。
隨著技術能力的提升、應用范圍的擴大以及部署的深入,紅色區域將會逐漸覆蓋藍色區域。但仍有大片未被覆蓋的領域;當然,還有很多任務超出了人工智能的處理能力——從諸如修剪樹木和操作農業機械這樣的實際農業工作,到在法庭上代表客戶這樣的法律服務。
圖3 展示了在該措施下受影響最嚴重的十種職業。與其他顯示Claude主要用于編碼的數據一致,計算機程序員位居榜首,覆蓋率達75%;其次是客服代表(70.1%),其主要工作在第一方 API 流量中出現的頻率越來越高;數據錄入員的覆蓋率為 67%,他們的主要任務是閱讀原始文件并輸入數據,這一任務的自動化程度很高(此外,醫療記錄專家、市場研究分析師、金融投資分析師也較高)。
![]()
在最底層,有30%的員工完全沒有覆蓋(暴露度最低),因為他們的工作內容在我們的數據中出現頻率太低,未能達到最低標準。這一群體包括廚師、摩托車修理工、救生員、調酒師、洗碗工和更衣室服務員等。
暴露度與就業增長預測及勞動者特征的關系
將美國勞工統計局(BLS)2025年發布的最新一期就業預測報告(涵蓋2024 -2034年每個職業的就業預期變化情況)與我們的崗位級別暴露度指標進行比較,職位層面的回歸分析表明,那些實際受關注度較高的職位的增長預測要稍弱一些。暴露度每升高10個百分點,BLS就業增長預測就會下降0.6個百分點。這在一定程度上證明了我們的衡量標準與獨立得出的勞動力市場分析師的估計相符,盡管這種關系較為微弱。但僅使用Eloundou理論指標時,則并不存在這樣的相關性。
![]()
圖5 展示了在ChatGPT發布前的2022年8至10月期間,處于最高暴露組的工人以及零暴露工人(占比30%)的特征,所使用的數據來自“當期人口調查”(Current Population Survey,以下簡稱CPS)報告。這兩組人群差異顯著。暴露程度較高的群體中女性的比例高出16個百分點,白人的比例高出11個百分點,前者的亞裔占比幾乎是后者的兩倍。前者的收入平均高出47%,受教育程度也更高。例如,擁有研究生學歷的人在未暴露組中所占比例為 4.5%,而在暴露度最高的群體中則占17.4%。
![]()
核心觀測指標
有了這些監測措施,接下來的問題就是需要關注哪些方面。研究人員采取了不同的方法。例如,Gimbel 等人(2025年)使用當前人口調查數據來追蹤職業構成的變化。他們的觀點是,任何由人工智能引發的經濟重大結構調整都會體現在工作崗位的分布變化上(他們發現,到目前為止,這些變化并不引人注目);Brynjolfsson等人(2025年)則根據年齡組對就業水平進行分析,使用的是來自薪資處理公司 ADP 的數據;而阿西莫格魯等人(2022 年)以及Hampole等人(2025年)則分別使用了來自Burning Glass(現為Lightcast)和 Revelio 的招聘帖子數據。
我們將失業問題作為首要關注事項,是因為它最直接地反映了經濟可能受到的損害——失業的工人渴望找到工作,但尚未找到。在這種情況下,招聘帖子和就業情況不一定意味著需要采取政策應對措施;例如,某個高暴露度職位的招聘發布量下降,可能會被與之相關的職位增加所抵消。人工智能對勞動力市場造成的不利影響,多數情況似乎都應包括一段時期的失業率上升,因為失業的工人會尋找其他選擇。“當期人口調查”非常適合用于追蹤這一情況,因為失業的受訪者會報告他們之前的職位和行業。
初步結果
本文將職業暴露度與當期人口調查(CPS)匹配,分析失業率趨勢。
在解讀我們的覆蓋度指標時,一個關鍵問題是:哪些勞動者應被視為受 AI 影響的群體?僅僅10%的任務被AI覆蓋,就應該預期就業會發生變化嗎?
Gans and Goldfarb(2025)的研究表明,如果用O環模型(Oring model)來描述工作崗位最為貼切,那么只有當所有任務都在一定程度上被 AI 滲透后,才可能觀察到對就業的影響。
Hampole 等人(2025)則認為,平均暴露度的上升會降低勞動力需求,但如果 AI 影響僅集中在部分任務上,則可能抵消這一效應。此外,Autor and Thompson(2025)強調了崗位中未被 AI 替代的任務所需的專業技能水平的重要性。
為了保持簡潔,并考慮到我們最關注的是大規模影響,我們的分析圍繞一個核心思路展開:受沖擊最明顯的,應該是平均暴露度最高的群體。我們將按時間加權的任務覆蓋度排名前 1/4 的勞動者與排名墊底的勞動者進行對比。
如果人工智能能力快速提升,那么即使是排名百分位較低的群體,其任務覆蓋度也可能處于較高水平,這時使用絕對閾值會更有幫助。但我們依然采用如下假設:沖擊會最先影響暴露度最高的勞動者,并在結果中展示了不同“受影響組” 劃分閾值下的穩健性檢驗。
圖 6 的上圖顯示了 2016 年以來暴露度前 1/4 勞動者與零暴露組的失業率原始趨勢。在新冠疫情期間,AI 暴露度更低的勞動者(更可能從事線下工作)失業率上升幅度要大得多。自那以后,兩組的趨勢大體保持一致。
![]()
圖 6 的下圖在雙重差分(DID)框架下衡量了高暴露組與低暴露組之間的差距大小,結果與原始數據一致。自ChatGPT發布以來,兩組失業率差距的平均變化微小且不顯著,這表明:高暴露組的失業率雖略有上升,但效應幾乎可以忽略不計。
這套分析框架能夠識別出什么樣的情景?根據合并估計值的置信區間,約1個百分點的失業率差異增幅是可以被檢測出來的(隨著新數據的加入,這一數值會發生變化,因此僅為大致估算)。如果暴露度最高的10%勞動者全部被裁員,將導致前" bdsfid="1396">1/4 高暴露群體的失業率從3%上升至43%,并使整體失業率從4%上升至13%。
另一種規模較小但仍值得擔憂的影響,是出現類似“白領大衰退”(Great Recession for white-collar workers)的情景。在2007–2009年金融危機期間,美國失業率從5%翻倍至10%。如果高暴露前" bdsfid="1468">1/4 群體的失業率也出現類似翻倍,將從3%上升至6%——這在我們的分析中同樣應該能被清晰觀測到。
需要注意的是,我們的核心估計是基于高暴露組與低暴露組之間失業率的相對差異變化。如果所有勞動者的失業率同步上升,我們不會將其歸因于人工智能技術的進步,因為仍有大量工作任務并未受到AI 影響。
有一類群體尤其值得關注,那就是年輕勞動者。Brynjolfsson等人的研究顯示,在22至25 歲的勞動者中,高AI暴露度職業的就業率下降6%-16%。他們認為,這一下降主要源于招聘放緩,而非裁員增加。
我們發現,高暴露度職業中年輕勞動者的失業率并未上升(見附錄)。但招聘放緩不一定會表現為失業率上升,因為許多年輕勞動者是首次進入勞動力市場,在CPS數據中沒有登記過職業,他們更可能退出勞動力市場,而非被統計為失業人口。
為了直接衡量招聘情況,我們利用CPS的追蹤數據,統計不同時期在高暴露度與低暴露度職業中開始新工作的年輕勞動者(22-25歲)占比。
圖 7 展示了年輕勞動者的月度入職率(即受訪者報告找到一份上月沒有的工作),并按其入職的是高暴露度職業還是低暴露度職業進行劃分。
![]()
除了2020-2021年期間出現的一些大幅波動外,這些數據序列在2024 年出現明顯分化:年輕人被高AI暴露度職業錄用的概率相對降低。
低暴露度職業的月度入職率穩定在2%,而高暴露度職業的入職率則下降了約0.5 個百分點。ChatGPT推出之后,高暴露度職業的入職率相較 2022 年平均下降了14%,盡管這一結果僅勉強具備統計顯著性(25 歲以上勞動者未出現此類下降)。
這或許能為AI對就業的早期影響提供一些信號,也與Brynjolfsson等人的研究結論相吻合。不過,這一現象還存在其他幾種解釋:未被錄用的年輕人可能繼續留在原有崗位、轉向其他工作,或是重返校園,并且,工作轉換在調查中更容易出現統計誤差。*
— THE END —
紫京講談
財經領域創作者
3481篇原創
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.