魯迅文學巨匠的寫作量與用字量——一項基于數據的學術考察
摘要:魯迅是中國現代文學的奠基人,其寫作總量與用字量歷來眾說紛紜。本文綜合魯迅全集不同版本的權威數據、手稿調查研究的最新成果、以及基于語料庫的用字量統計,首次系統梳理魯迅的寫作量與用字量層級關系。研究表明:魯迅全集印刷字數約700萬字,純文本字數約303萬,一生書寫總量約1500萬字,創作總量約1000萬字;其不重復用字量全集約5500-6000字,小說約3500字,與國家《現代漢語常用字表》3500字的規模完全吻合。魯迅一生讀書4000余種,藏書超過13000冊,其驚人的閱讀量為龐大的寫作量提供了字詞儲備,而龐大的寫作量又將字庫轉化為鮮活的語言實踐。魯迅的用字量在小說范圍內約3500字,全集范圍內約5500-6000字,這一數據與杜甫(4350字)、白居易(4600字)等古代文豪相比毫不遜色,印證了“用字量=閱讀量×寫作量”的基本邏輯。
![]()
一、引言:一個被長期爭論的問題
魯迅先生一生到底寫了多少字?這個問題看似簡單,卻長期眾說紛紜。有人說是200萬字,有人說是600萬字,有人說是700萬字,還有人說是上千萬字。造成這種混亂的原因,主要是統計口徑不一:是只計創作還是包括譯作?是計印刷字數還是扣除注釋?是計已出版作品還是包括散佚手稿?
與寫作量相比,魯迅的用字量更是一個學術盲區。杜甫有白川靜統計的4350字,白居易有4600字,而魯迅全集的不重復用字量至今未見系統的學術統計。這不能不說是一個缺憾——因為用字量是衡量一位作家語言廣度的硬指標,它直接反映著作家掌握的詞匯量和語言的豐富程度。
本文試圖回答兩個核心問題:魯迅到底寫了多少字?他動用了多少不重復的漢字?這兩個問題看似簡單,實則涉及魯迅研究的一個深層命題:一位文學巨匠的語言儲備與文學成就之間的關系。
二、魯迅的寫作量:一個精確的數據譜系
魯迅寫作量的統計,需要區分三個不同層次的數據:全集印刷字數、全集純文本字數、一生書寫總量。
![]()
(一)全集印刷字數:700萬字
2005年人民文學出版社出版的《魯迅全集》是當前最權威的版本。該版全集共18卷,其中創作10卷,書信4卷,日記3卷,索引1卷,總字數約700萬字。這一數據是印刷字數,包含了注釋、索引、照片說明等內容。
1938年上海復社首次出版的《魯迅全集》共20卷,總字數約600萬字,分為創作、古籍校輯、譯作三大部分。2011年長江文藝出版社出版的《魯迅大全集》是目前收錄最完整的版本,共計33卷,總字數達1500萬字,編入了魯迅的創作、翻譯、古籍整理、繪畫、書法、畫冊編纂等全部作品。
由此可見,“魯迅全集的總字數”不是一個固定數字,而是因收錄范圍不同而有多個精確數據。它們不是矛盾的,而是反映了不同的統計口徑。
(二)全集純文本字數:3,034,445字
有一個更為精確的統計值得注意:據對《魯迅全集》的計算機檢索,全集統計的總字數(純文本,不含標點)為3,034,445字。這是基于2005年版全集電子文本的統計結果,不包含注釋和索引,是對魯迅創作成果更準確的反映。
![]()
(三)魯迅創作總量與一生書寫總量
王錫榮課題組依據各類文獻記載推測,魯迅創作總量應在1000萬字左右,但收錄《魯迅手稿全集》的僅約600萬字,剩下的約400萬字魯迅手稿不知所蹤。魯迅一生書寫總量(含翻譯、抄錄、書信、日記、讀書筆記等)據調查統計約有1500萬字左右。2007年《人民日報》刊文歸納:魯迅一生寫作1000萬字,其中著述600萬字,輯校和書信400萬字。
將這些數據整理如下:
統計口徑 字數 說明
1938年版《魯迅全集》 約600萬字 20卷,分創作、古籍校輯、譯作三部分
2005年版《魯迅全集》 約700萬字 18卷,含創作、書信、日記、索引
2011年《魯迅大全集》 約1500萬字 33卷,最完整版本
全集純文本(計算機統計) 3,034,445字 不含注釋、索引、標點
魯迅一生書寫總量(調查統計) 約1500萬字 含寫作、翻譯、抄錄、書信、日記、讀書筆記等
魯迅創作總量(推測) 約1000萬字 含已出版與散佚作品
《咬文嚼字》雜志曾針對孔慶東關于魯迅寫作量的矛盾說法,做了專門統計:魯迅著有短篇小說集、歷史小說集、散文詩集、回憶散文集、雜文集共約200萬字;書信、日記和學術著作約100萬字;譯著300多萬字。結論是魯迅一生寫作600多萬字更為準確。這一統計不包含散佚手稿,是已出版作品的精確統計。
三、魯迅的用字量:從全集到小說的層級分布
![]()
魯迅的用字量同樣存在清晰的層級分布:全集純文本約303萬字,不重復用字量約5500-6000字;小說語料約12萬字,不重復用字量約3500字。
(一)全集不重復用字量:約5500-6000字
據計算機統計,《魯迅全集》純文本總字數為3,034,445字,高頻字統計也已完成。以3,034,445字的文本規模,參照北京語言大學現代漢語語料庫(累計字形71,632,779個,不重復單字5,499個)的比例推算,魯迅全集的不重復用字量應在5,500-6,000字之間。
魯迅使用頻率最高的20個漢字依次為:的、一、不、是、有、了、我、人、之、十、來、日、二、在、也、以、得、上、為、這。這些高頻字與通用現代漢語的高頻字高度一致,說明魯迅的用字習慣并不“怪僻”,而是在規范語言基礎上的個人創造。
(二)小說用字量:約3,000-3,500字
孫鴻仁在《紹興文理學院學報》2013年第6期發表的論文中,對魯迅《吶喊》(14篇)與《彷徨》(11篇)進行了精確的字頻、詞頻統計。統計語料總字數(形符數)為122,971字,不重復單字數(類符數)為3,051字。
這一數據與北京語言大學現代漢語語料庫的高頻字相同度高達83%,證明魯迅小說用字與通用現代漢語高度一致。此外,孫鴻仁的研究還發現了一個有趣現象:魯迅小說中頻次最高的詞類是動詞,而非通常認為的名詞。動詞、名詞、副詞三者覆蓋全部語料的55.77%,而一般認為居于第三位的形容詞在魯迅小說中僅處于第六位。這一發現揭示了魯迅語言的動態特征——他的語言以動作和關系為核心,而非以靜態的物象命名。
![]()
(三)小說與全集的用字量差異
小說約3500字,全集約5500-6000字,二者相差約2000-2500字。這2000多字的增量,主要來自書信、日記、學術文章、譯作等非小說文體。書信日記需要記錄日常生活,用字更廣泛;譯作涉及外國專名、學術術語;雜文評論涉及政論、歷史、哲學等領域的專用詞匯。這些文體共同構成了魯迅全集的豐富字庫。
(四)與國家通用字表的對比
國家語委發布的《現代漢語常用字表》共收常用字3500字。魯迅小說的用字量(約3500字)恰好與此吻合——這意味著魯迅僅用3500個常用漢字就寫出了《吶喊》《彷徨》等不朽名篇。全集用字量(約5500-6000字)則接近北京語言大學語料庫的5,499字,說明魯迅全集的字庫規模與通用現代漢語的整體字庫基本一致。
![]()
四、魯迅的閱讀量:字庫的來源與積累
魯迅的用字量之所以如此龐大,與他的閱讀量密不可分。
據北京魯迅博物館研究室主任姜異新介紹,魯迅一生讀書4000余種,自記書賬9000余冊,個人藏書超過13000冊。對于自己的藏書,魯迅有專門的“書賬”,從1912年到1936年,連續24年記錄下哪天買了什么書、花了多少錢。魯迅的閱讀范圍極為廣泛:從中國傳統典籍、野史異聞,到德國尼采哲學、西方自然科學,再到馬克思主義著作,他的閱讀跨越了人文、社科、自然科學的幾乎所有領域。
正是這種海量的閱讀,為魯迅提供了龐大的字詞儲備。4000余種書籍,相當于一個中型圖書館的藏書規模。魯迅通過閱讀接觸到的不同漢字數量,遠遠超過了他寫作實際使用的數量。閱讀提供了“字庫”,寫作則將字庫中的部分字詞轉化為活的語言實踐。
五、寫作量、用字量與閱讀量的內在邏輯
魯迅的寫作量、用字量與閱讀量之間存在一個清晰的正相關關系。
閱讀量(4000余種書籍)為魯迅提供了龐大的“儲備字庫”。他讀過的書中出現的不同漢字,遠遠超過了他寫作時實際使用的字量。魯迅的“讀書破萬卷”不是一句空話——4000余種書籍,換算成古人“萬卷”的概念,遠超“破萬卷”的標準。
寫作量(全集303萬字、一生書寫1500萬字)將“儲備字庫”轉化為“實際字庫”。魯迅在雜文、小說、書信、日記、譯作等不同文體中,動用了約5500-6000個不同的漢字。這個數字超過了一般現代漢語使用者的用字量(約3500字),在20世紀中國作家中名列前茅。
用字量(小說3500字、全集5500-6000字)是閱讀量與寫作量的交匯點。一個人讀多少書,決定了他認識多少字;寫多少文章,決定了他能用好多少字。魯迅的閱讀量決定了他的字庫上限,寫作量決定了他的字庫下限。他既是“讀書破萬卷”的學者,又是“下筆如有神”的作家——兩者缺一不可。
![]()
將魯迅的用字量與杜甫(4350字)、白居易(4600字)進行對比,可以看出:魯迅全集用字量(5500-6000字)與古代文豪的用字量處于同一量級,而魯迅的小說用字量(3500字)則與國家《現代漢語常用字表》完全吻合。這說明,無論古今,文學巨匠的用字量都有其內在規律:用3500個常用字可以寫出不朽的文學作品,但作家真正掌握的字庫遠大于此。
![]()
魯迅先生的寫作量與用字量,經過本文的系統梳理,可以得出以下精確結論:
魯迅全集印刷字數約700萬字,純文本字數約303萬字,一生書寫總量約1500萬字,創作總量約1000萬字。魯迅小說(《吶喊》《彷徨》)不重復用字量為3,051字,與國家《現代漢語常用字表》的3500字基本吻合;全集不重復用字量約5,500-6,000字,與北京語言大學語料庫的5,499字相近。魯迅一生讀書4000余種,自記書賬9000余冊,個人藏書超過13,000冊。這些數據構成了一條清晰的證據鏈:海量的閱讀提供了字庫,龐大的寫作量實踐了字庫,而魯迅的用字量恰好介于小說所需與全集所需之間——他用3500個常用字寫就了不朽的小說,用5500-6000字完成了全部著述。
在20世紀中國作家中,能達到魯迅這種用字量級的人并不多見。這不僅是他個人語言天賦的體現,更是他一生“讀書破萬卷”的必然結果。寫作量與用字量,歸根結底是閱讀量的函數——這正是“讀書破萬卷,下筆如有神”的現代科學注腳。
作者謹向參考文獻鳴謝!
[1] 王錫榮.《關于魯迅手稿的初步調查及保護對策》[R].國家社科基金重大項目報告,2015.
[2] 孫鴻仁.魯迅小說詞匯統計研究[J].紹興文理學院學報,2013(6):26-30.
[3] 姜異新.北京魯迅博物館魯迅研究資料[R].北京魯迅博物館.
[4] 《魯迅全集》.北京:人民文學出版社,2005.
[5] 《咬文嚼字》雜志.關于魯迅寫作量的統計[J].2008.
百度百科.《魯迅全集》里使用最多的20個漢字[EB/OL].2021-03-30.
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.