網易首頁 > 網易號 > 正文申請入駐

5個神級Python自動化腳本，專治臟數據！3分鐘輕松搞定

2026-03-20 20:41:37　來源: 我不叫阿哏

廣東舉報

分享至

干數據這行的朋友，一定深有體會，我們總說著要訓練模型、挖掘洞察、搭建酷炫的可視化儀表盤，可現實卻是，大部分時間都耗在了和臟數據死磕。還沒開始，就被一堆亂七八糟的原始數據耗干了心情。

手動清洗？那可太要命了，不僅枯燥到讓人懷疑人生，還特別容易漏掉細節、引入新錯誤。而且每次換一個數據集，又得從頭來一遍，根本沒法規模化。

別怕，今天給大家介紹5 個簡單但超實用的神級Python自動化清洗腳本，專治各種臟數據。

1、缺失值處理器

你的數據集到處都是缺失值，有些列的完整度為90%，而有些列的數據則十分稀疏。

你需要決定如何處理每一列的缺失值：刪除行、用均值填充、對時間序列采用前向填充，或是使用更復雜的插補方法。手動處理每一列既繁瑣又容易出現不一致。

腳本功能

自動分析整個數據集中缺失值的分布模式，根據數據類型和缺失模式推薦合適的處理策略，并應用選定的插補方法。生成詳細報告，說明缺失值的位置及處理方式。

工作原理

腳本掃描所有列，計算缺失值比例和分布模式，確定數據類型（數值型、分類型、日期時間型），并應用相應的處理策略：

數值型數據：使用均值、中位數填充

分類型數據：使用眾數填充

時間序列數據：使用插值法填充

該腳本能區分并差異化處理完全隨機缺失（MCAR）、隨機缺失（MAR）和非隨機缺失（MNAR）模式，并記錄所有更改，確保結果可重現。

完整代碼：https://github.com/balapriyac/data-science-tutorials/blob/main/useful-python-scripts-for-data-cleaning/missing_value_handler.py

2.、重復記錄檢測與解決器

數據中存在重復記錄，但并非都是完全匹配的情況。有時是同一客戶的姓名拼寫略有不同，有時是同一筆交易被記錄了兩次但存在細微差異。

要找出這些模糊重復項并決定保留哪條記錄，需要手動檢查數千行數據。

腳本功能

通過可配置的匹配規則識別完全重復和模糊重復記錄。將相似記錄分組，計算相似度得分，并根據你定義的存活規則，如保留最新記錄、保留最完整記錄等。要么標記重復項供人工審核，要么自動合并記錄。

工作原理

腳本首先使用基于哈希的比較快速查找完全重復項，然后利用編輯距離和杰羅 - 溫克勒距離等模糊匹配算法，對關鍵字段進行比對以查找近似重復項。

將記錄聚類為重復組，存活規則決定合并時保留哪些值。生成詳細報告，展示所有找到的重復組及采取的處理措施。

完整代碼：https://github.com/balapriyac/data-science-tutorials/blob/main/useful-python-scripts-for-data-cleaning/duplicate_detector.py

3、數據類型修正與標準化器

導入 CSV 文件后，所有數據都變成了字符串格式；日期存在五種不同的格式；

數值中包含貨幣符號和千位分隔符，同一列中的布爾值有多種表示方式。要獲得一致的數據類型，需要為每個雜亂的列編寫自定義解析邏輯。

腳本功能

自動檢測每列的目標數據類型，標準化格式，并將所有數據轉換為合適的類型。處理多種格式的日期、清理數值型字符串、規范化布爾值表示，并驗證轉換結果。提供轉換報告，說明更改內容。

工作原理

腳本對每列的數值進行抽樣，通過模式匹配和啟發式算法推斷目標數據類型，然后應用相應的解析方法：使用 dateutil 進行靈活的日期解析、使用正則表達式提取數值、使用映射字典規范化布爾值。記錄轉換失敗的情況及問題數值，供人工審核。

完整代碼：https://github.com/balapriyac/data-science-tutorials/blob/main/useful-python-scripts-for-data-cleaning/datatype_fixer.py

4、異常值檢測器

數值型數據中存在會破壞分析結果的異常值。有些是數據錄入錯誤，有些是需要保留的合理極值，還有些則難以界定。

你需要識別這些異常值、了解其影響，并決定處理方式，縮尾處理、封頂處理、刪除或標記供審核。

腳本功能

使用四分位距IQR、Z 分數、孤立森林等多種統計方法檢測異常值，可視化異常值的分布及影響，并應用可配置的處理策略。區分單變量異常值和多變量異常值。生成報告，展示異常值數量、具體數值及處理方式。

工作原理

腳本使用你選擇的一種或多種方法計算異常值邊界，標記超出閾值的數值，并應用處理措施：刪除、按百分位數封頂、縮尾處理，或用邊界值插補。對于多變量異常值，使用孤立森林或馬氏距離進行檢測。記錄所有異常值的原始數值，以便審計。

完整代碼：https://github.com/balapriyac/data-science-tutorials/blob/main/useful-python-scripts-for-data-cleaning/outlier_detector.py

5、文本數據清洗與標準化器

文本字段雜亂無章：姓名大小寫不一致、地址使用不同縮寫、產品描述包含 HTML 標簽和特殊字符、自由文本字段存在大量首尾空格。標準化文本數據需要一致應用數十種正則表達式模式和字符串操作。

腳本功能

自動清洗和標準化文本數據：統一大小寫、移除不需要的字符、擴展或標準化縮寫、剝離 HTML 標簽、規范化空格、處理 Unicode 編碼問題。可配置的清洗流程允許你對不同類型的列姓名、地址、描述等應用不同規則。

工作原理

腳本提供可按列類型配置的文本轉換流程，包括大小寫規范化、空格清理、特殊字符移除、使用查找字典進行縮寫標準化，以及 Unicode 編碼規范化。記錄每個轉換步驟，并提供處理前后的樣本供驗證。

完整代碼地址：https://github.com/balapriyac/data-science-tutorials/blob/main/useful-python-scripts-for-data-cleaning/text_cleaner.py

想系統掌握AI核心技能、獲取行業認可資質？

CAIE注冊人工智能工程師認證

助你拓寬職業賽道，成為AI領域持證實力派

企業、高校及渠道合作

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

大模型公司不搞瀏覽器搞Agent，實測找到原因了

量子位 2025-10-31 16:54:34
0 跟貼 0
編程已死，鍵盤長草！Claude Code之父對談Kaparthy，全程爆金句

新智元 2026-02-04 11:41:01
0 跟貼 0

華為推出軟工代碼智能體SWE-Lego，解鎖SFT訓練極致性能

機器之心Pro 2026-01-13 14:54:45
0 跟貼 0

AWE2026專題總結欄目上線！悟空10分鐘生成，歡迎訪問

雷科技 2026-03-20 11:54:56
0 跟貼 0
Cursor自研模型反超Opus 4.6！價格腳踝斬，氛圍編程沸騰了

量子位 2026-03-20 12:07:45
8 跟貼 8

搞不懂Skills？看看Claude Code內部工程師們是怎么玩的

機器之心Pro 2026-03-20 14:21:04
3 跟貼 3

VinciCoder：多模態統一代碼生成框架和視覺反饋強化學習

機器之心Pro 2025-11-17 14:12:38
0 跟貼 0
一個沒寫過代碼的工程師，用ClaudeCode干掉一個估算團隊的工作量

DeepTech深科技 2026-03-19 18:03:20
1 跟貼 1

從Excel到AI：月薪3W+數據分析師是這樣走通的

51Testing軟件測試網 2026-03-20 16:24:47
0 跟貼 0
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
38 跟貼 38
公司要給三千個新賬號設初始密碼，我用了個笨辦法差點加班到半夜

琪倫的工具庫 2026-03-21 23:58:14
0 跟貼 0
達利歐：霍爾木茲海峽大決戰即將爆發

極目新聞 2026-03-21 16:52:14
30688 跟貼 30688
小狗不小心掉河里了，女子抱著它烤火烘干結果睡著了

南陽日報 2026-03-21 19:45:29
32 跟貼 32
85后花20萬租下農村老宅20年，用50萬打造理想的院子，一家三口從城市搬進鄉村：與其花大價錢買學區房，不如在鄉村給孩子更開闊的成長空間

大風新聞 2026-03-21 11:27:04
4039 跟貼 4039
AI取代程序員還遠！新基準BeyondSWE：頂尖模型通過率暴跌至45%

新智元 2026-03-20 21:23:15
1 跟貼 1
從經歷到知識：UIUC、清華PlugMem如何重構Agent記憶

新智元 2026-03-21 19:19:12
0 跟貼 0
MoGraphGPT：基于模塊化大模型與圖形控制的2D交互場景創作

機器之心Pro 2026-03-20 17:17:16
0 跟貼 0
師傅用棍子撬動底盤底盤，各項數據變綠，可真是妙手回春！

奧力給趣笑堂 2026-03-21 14:38:05
6 跟貼 6
AI編程元年：初級開發者被「團滅」？

新智元 2026-03-21 12:38:36
8 跟貼 8
1000 塊/年的輸入法，我用它習慣了「口噴」，再也回不去打字了 | AI 器物志

愛范兒 2026-02-21 18:39:19
9 跟貼 9
專訪OpenAI首席科學家：我們離“AI自己做研究”有多遠？

DeepTech深科技 2026-03-21 22:57:35
0 跟貼 0
支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
你刷到的視頻是真的么？用物理規律拆穿Sora謊言

機器之心Pro 2025-11-05 16:27:02
0 跟貼 0
“養龍蝦”帶火的token，該如何翻譯？

中國日報 2026-03-19 19:30:41
12 跟貼 12
不完美那就自定義

奶油蜜桃 2026-03-18 14:08:00
203 跟貼 203
王興興跑得快，未必跑得遠

虎嗅APP 2026-03-22 03:11:05
2 跟貼 2
上海百年老店官宣閉店！曾經去吃頓飯可要一大早就排長隊，承載了幾代人的記憶，不少阿姨爺叔的“第一次”

上觀新聞 2026-03-18 17:41:49
919 跟貼 919
三維空間太難懂？2

機器之心Pro 2025-12-31 13:49:19
0 跟貼 0
“你已進入艷遇高發地”，河南項城知名商場內現不雅標語，當地市場監管局回應：商場已自行撤下該廣告牌

哈爾濱日報 2026-03-21 14:17:00
549 跟貼 549
《極限競速：地平線6》新系統情報車輛改裝細節公開

3DM游戲 2026-03-21 11:02:08
2 跟貼 2
SIGGRAPH Asia 2025 | 讓3D場景生成像「寫代碼」一樣靈活可控

機器之心Pro 2025-11-14 19:18:57
0 跟貼 0
發令槍已響！38號文件一聲令下，中國樓市進入新時代

隨風 2026-03-21 03:12:38
16 跟貼 16
上海女排如愿殺入總決賽，為什么提到“魔鬼主場”總沒有上海的一席之地？

上觀新聞 2026-03-21 19:56:15
193 跟貼 193
熱搜第一！山姆回應“冷鮮豬肉數月前屠宰”！網友：今年會費剛續完

北京商報 2026-03-21 12:06:17
2474 跟貼 2474
Rabbit又行了？油管大V改口，將發第二款AI硬件

鈦媒體APP 2026-03-21 15:54:59
0 跟貼 0
3月21日（報道時間），安徽亳州。奶奶出門被一歲寶寶不小心把門關上，奶奶被關外邊著急叫開鎖公司，寶寶

中安在線 2026-03-21 10:30:28
105 跟貼 105
漲價！浙江姑娘腸子悔青，去年沒下單今年貴5000元！老板：可能還要漲

浙江之聲 2026-03-20 13:26:35
444 跟貼 444
羽毛球降價了，年輕人卻跑了

極目新聞 2026-03-21 16:42:28
63 跟貼 63
時尚圈人氣榜單大公布，肖戰以超高數據穩居榜首位置！#肖戰

娛樂在一起668 2026-03-22 06:48:05
0 跟貼 0
“A88888”！貴州一車行銷售幫客戶搖號搖出頂級五連“豹子號”，本人回應：純屬運氣到了

大象新聞 2026-03-21 18:45:02
33 跟貼 33

我不叫阿哏

分享有趣、有用的故事！

294文章數 6570關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

手機

旅游

本地

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
古代的馬真能日行八百里嗎
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

5個神級Python自動化腳本，專治臟數據！3分鐘輕松搞定

庫克在華這四天，一場既定的市場秀

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴 景區回應

誰在決定字母哥未來？

田栩寧終于涼了？出軌風波影響惡劣

睡夢中欠債1.2萬？這只“蝦”殺瘋了

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

張春橋的字藏多少心機？看似簡單卻暗藏玄機！

一加Ace 6至尊版已備案：天璣9500深度特調 性能火力全開

推出四條核心特色線路產品，嶗山風景區2026旅行商大會舉辦

春色滿城關不住｜紹興春日頂流，這片櫻花海藏不住了

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴景區回應

男子在壺口瀑布外拍視頻喊"門口要錢"被投訴景區回應

小鵬汽車2025年Q4盈利凈賺3.8億全年營收767億

一加Ace 6至尊版已備案：天璣9500深度特調性能火力全開