網易首頁 > 網易號 > 正文申請入駐

工業級 LLM 數據工程：北京大學 DCAI 團隊 DataFlow 框架的架構設計與實踐

2026-03-17 07:24:50　來源: InfoQ

北京舉報

分享至

作者 | 北京大學 DCAI 團隊

在大模型（LLM）研發進入深水區的 2026 年，行業共識正經歷從“模型中心（Model-Centric）”向“數據中心（Data-Centric）”的深刻演進。隨著 Scaling Law 進入平臺期，開發者發現：單純堆砌 Token 數量已邊際效應遞減，數據的語義密度（Semantic Density）與工程精度成為了突破模型性能上限的關鍵。

然而，在研發 DataFlow 的過程中，北京大學 DCAI 團隊觀察到一個嚴峻的現實：雖然模型已進入自動駕駛時代，但數據準備（Data Prep）仍處于“手工坊”階段。碎片化的 Python 腳本、不可復用的正則表達式、缺乏觀測性的黑盒流程，已成為大模型落地企業級應用的最大瓶頸。

正是基于對這一工程痛點的精準切入，DataFlow 的技術報告在發布后迅速引發了全球開發者的廣泛共鳴，并成功登頂 Hugging Face Daily Papers 榜首（of the Day）。這一來自開源社區的強烈反饋印證了一個事實：大模型行業急需一套具備系統化抽象與工業級可靠性的數據治理基礎設施。

項目倉庫：https://github.com/OpenDCAI/DataFlow

1 企業級 LLM 數據工程的三大技術挑戰

在討論工具能力之前，我們需要明確大模型數據工程與傳統 ETL 的本質區別：

語義斷層與模型在環（Model-in-the-Loop）：傳統清洗依賴確定性規則，但 LLM 需要處理的是高維語義信息。要生成高質量的數學推理或復雜代碼數據，必須引入模型來評估、過濾甚至生成數據，這要求系統具備極強的模型調用編排能力。
工程碎片化導致的“技術債”：數據處理鏈路長、環節多，缺乏統一的抽象。不同項目間的算子難以復用，導致邏輯散落在各個獨立腳本中，極大地提高了復現成本和維護難度。
黑盒處理與觀測性缺失：動輒 TB 級的文本在流水線中流轉，開發者往往無法實時感知數據分布的變化。如果清洗邏輯存在隱性偏見，往往要等到模型訓練數周后才能被發現，試錯成本極高。

2 DataFlow 架構：像編寫 PyTorch 模型一樣定義數據流

DataFlow 的設計哲學是“系統化抽象，編程化驅動”。它不僅僅是一個庫，而是一套類似于 PyTorch 的數據編程協議。

可觀測性革命：DataFlow-WebUI

針對“黑盒清洗”的痛點，我們正式推出了DataFlow-WebUI。它將復雜的算子庫包裝進圖形化界面，支持：

拖拉拽編排：通過可視化畫布定義數據流向，邏輯鏈路一目了然。
實時數據探針：支持在線預覽算子輸出的中間結果，開發者可以即時調整 Prompt 或過濾策略，實現數據治理的“白盒化”。
任務熱監控：實時更新處理進度與運行日志，讓長周期任務處于完全可控狀態。

存儲與服務層的解耦設計

DataFlow 引入了全局表格化存儲（Global Storage）抽象。通過統一的 read() 和 write() 接口，將算子邏輯與底層存儲格式解耦，每個算子基于統一 run(storage) 接口，通過鍵綁定（key-based I/O）靈活適配任意數據格式。無論后端是本地 JSONL、Parquet 還是分布式數據庫，算子只需關注字段操作。

同時，DataFlow 構建了統一 LLM 服務接口（Serving Interface），兼容 vLLM、SGLang 等本地推理引擎及 GPT-4 等在線 API。系統自動處理批處理（Batching）、重試及限速邏輯，使開發者能專注于 Prompt 策略而非后端工程細節。

模塊化算子生態

DataFlow 將近 200 個內置算子嚴格劃分為四類，建立了標準化的語義命名規范：

算子被設計為具備獨立生命周期的原子轉換單元。在初始化階段，算子通過聲明式配置完成 LLM 服務實例與提示模板的依賴注入；在執行階段，則通過 input_* / output_ 鍵名與全局存儲層進行非侵入式交互。這種設計實現了計算邏輯與數據 Schema 的深度解耦，在確保狀態隔離的同時，大幅提升了復雜 Pipeline 的組合靈活性與復用性。

確定性流水線與靜態檢查

DataFlow 支持將算子組織為有序程序或 DAG。通過 compile() 機制，系統在任務運行前會對字段缺失、類型沖突進行靜態檢查和。配合延遲執行（Lazy Execution）和斷點續傳（Checkpoints），極大地提升了大規模分布式任務的可靠性。

3 DataFlow-Agent：從自然語言到可執行流水線的自動編排

為了解決“專家經驗碎片化”的問題，DataFlow 引入了Agentic 編排機制。用戶只需輸入自然語言指令（如“幫我生成高質量 Python 算法題數據”），Agent 即可完成：拆解意圖 → 檢索 / 合成算子 → 組裝 DAG → 沙箱驗證 → 輸出可執行 pipeline。

這標志著 agent 首次通過“檢索 - 復用 - 合成 - 驗證”閉環，遠超傳統僅參數化配置的 agent，同時數據工程從“代碼編寫”向“邏輯定義”躍遷，顯著降低了構建 SOTA 級領域流水線的門檻。

4 性能驗證：小規模高質量數據的“杠桿效應”

為了驗證 DataFlow 的系統化治理能力，我們在多個領域構建了 SOTA 級流水線。實驗結果表明，通過精準的算子編排，能夠以極小的數據規模實現模型性能的跨越式提升。

文本預訓練與 SFT

在基礎文本治理上，DataFlow 證明了語義提純優于單純的規模堆砌：

預訓練階段：DataFlow-30B 在 6 個通用基準上的均分為 35.69，優于 FineWeb-Edu（35.57）和 Qurating（35.02）。
指令微調 (SFT)：使用 15K 高質量合成樣本，模型在數學上的得分（49.3）顯著高于經過過濾的 Alpaca（39.8）和 WizardLM（44.8）。

對話合成：DataFlow-Chat-15K 將 AlpacaEval 評分從 7.05 提升至 10.11，超越 ShareGPT 和 UltraChat。

數學與代碼推理

在邏輯密集型任務中，DataFlow 的算子閉環展現了強大的邏輯構建能力：

數學推理：使用 DataFlow-Reasoning-10K 微調后，Qwen2.5-32B 在 8 個數學基準上平均得分為 55.7，超越了 Open-R1（54.2）和 Synthetic-1（54.0）。

代碼生成：
- 7B 模型：DataFlow-Code-10K 平均得分 46.2，優于 Code Alpaca-1K 和 SC2-Exec-Filter-1K。
- 14B 模型：DataFlow-Code-10K 平均得分 51.0，LiveCodeBench 從 21.9（Code Alpaca）提升至 33.2。

Text-to-SQL

在 Text-to-SQL 任務中，DataFlow 驗證了高語義密度合成數據在特定工程場景下的極致上限。以 Qwen2.5-Coder-7B 為基座，通過在 DataFlow-Text2SQL-90K 數據集訓練，模型在核心基準上均實現了跨越式增長：

核心性能躍升：Spider-dev 執行準確率從 73.4% 提升至 82.0%（+8.6%）；BIRD-dev 從 50.9% 提升至 59.2%（+8.3%），在 EHRSQL 基準上，準確率由 24.3% 飆升至 56.1%，漲幅高達 31.8%。
數據經濟性驗證：實驗結果顯示，DataFlow-50K 的表現已優于同規模的 SynSQL；而 DataFlow-90K 的微調收益已逼近 SynSQL-2.5M。

Agentic RAG

在分布外（OOD）評估中，DataFlow 產出的 DF-AgenticRAG-10k 具備更強的魯棒性：

超過 HotpotQA-10k（37.4 vs. 36.4）
超過 Musique-20k（43.6 vs. 42.4）

知識抽取（醫學 QA）

模型在 DataFlow-Knowledge 上 sft 后，PubMedQA 和 Covert 性能提升了 15–20 個百分點，PubHealth 提升 11 個百分點，顯著優于傳統的 Zero-shot CoT 方案。

統一多領域微調

我們驗證了“小規模、高質量、領域特化”數據的核心假設：

使用僅 10K 的多領域合成樣本（DataFlow-Instruct-10K），模型在數學和代碼領域的表現已接近官方 Instruct 版本，且通用知識能力（MMLU）未出現退化，證明了高質量合成數據對大規模指令數據的替代潛力。

Agent 自動化性能實測

在文本規范對齊（Pipeline-level）評估中獲得 0.80 的高分。
在代碼實現一致性（code-level）評估中，平均得分 0.49。
在復雜代碼實現（Hard 級任務）上，一致性得分僅為 0.23，這揭示了自動化治理在處理極端模糊描述時仍有技術迭代空間。

5 結語：邁向 Data-Centric AI 的開源生態

AI 研發的職能正在發生轉型：開發者的核心工作將從“代碼邏輯實現”轉向“數據價值發現”與“質量紅線把控”。DataFlow 團隊希望通過這套開源框架，將 DCAI 的工程經驗沉淀為可復用的算子與流水線協議。

目前，DataFlow 及其自動化 Agent 框架已在 GitHub 開源。我們歡迎社區開發者參與貢獻，共同探索數據驅動的無限可能。

關于作者

北京大學 DCAI 團隊，專注于大模型數據系統研究與 Data-Centric AI 基礎設施建設。

開源項目地址：

DataFlow (3k+ Stars): https://github.com/OpenDCAI/DataFlow
技術報告: https://arxiv.org/abs/2512.16676
DataFlow 圖文教程：https://wcny4qa9krto.feishu.cn/wiki/I9tbw2qnBi0lEakmmAGclTysnFd
DataFlow 視頻教程：https://b23.tv/it5sssq
DataFlow-WebUI 用戶文檔（中文）：https://wcny4qa9krto.feishu.cn/wiki/F4PDw76uDiOG42k76gGc6FaBnod

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.