網易首頁 > 網易號 > 正文申請入駐

1.5B模型新SOTA，RL訓練新解法打破「簡單題過擬合、難題學不動」

2025-10-04 20:47:58　來源: 機器之心Pro

河北舉報

分享至

QuestA（問題增強）引入了一種方法，用于提升強化學習中的推理能力。通過在訓練過程中注入部分解題提示，QuestA 實現兩項重大成果：

Pass@1 的 SOTA 性能：在 1.5B 模型上實現了最先進的結果，甚至在關鍵基準測試中超越了早期的 32B 模型。
提升 Pass@k：在提高 Pass@1 的同時，QuestA 不會降低 Pass@k 性能 —— 事實上，它通過讓模型在多次嘗試中進行更有效的推理，從而提升了模型能力。

這一在強化學習訓練中的發現，為開發具有更強推理能力的模型打開了大門。QuestA 使 RL 能夠高效處理不同難度的任務，消除了通常在簡單與困難問題之間存在的權衡。

兩難：簡單任務導致熵坍縮 vs. 難任務減緩學習效率

多年來，RL 訓練一直存在一個需要思考的數據平衡問題：簡單任務導致模型過度自信，而難任務提高推理能力，但由于樣本效率低下，學習速度變慢。

簡單任務傾向于使模型過擬合，使其在特定、更簡單的問題上非常準確。然而，這導致模型變得過度自信，從而妨礙了其泛化能力，難以解決更復雜的任務。
難任務提高了模型的推理能力，但具有低樣本效率，這意味著它需要更長的時間來學習和進展。稀疏的獎勵和任務的難度使得在困難問題上的訓練變得緩慢，限制了整體的學習速度。

這個權衡一直是 RL 模型的挑戰，近日清華大學、上海期智研究院、Amazon 和斯坦福大學等機構提出的QuestA 解決了這個問題。通過在訓練困難任務時引入部分解決方案提示，QuestA 幫助模型更快地學習，同時不犧牲在簡單任務上的表現。這確保了模型能夠從簡單任務和難任務中獲益，提升其推理能力，同時避免過擬合或學習緩慢。

論文標題：QuestA: Expanding Reasoning Capacity in LLMs via Question Augmentation
Arxiv 論文地址：https://www.arxiv.org/abs/2507.13266
HF 模型地址：https://huggingface.co/foreverlasting1202/QuestA-Nemotron-1.5B
GitHub 地址：https://github.com/foreverlasting1202/QuestA

研究者得出的關鍵結果是：強化學習可以提升模型能力。具體而言，QuestA 取得了以下顯著成果：

Pass@1 改進：QuestA 顯著提高了Pass@1。研究者在使用 1.5B 參數模型的數學基準測試中達到了新的最先進結果：在 AIME24 上達到 72.50%（+10.73%），在 AIME25 上達到 62.29%（+12.79%），在 HMMT25 上達到 41.67%（+10.11%），甚至超越了DeepSeek-R1-Distill-32B，盡管它是一個更小的模型。這表明 QuestA 顯著提高了模型在平時使用中的表現。
Pass@k 改進：與傳統的 RL 方法不同，QuestA 還提高了Pass@k，展示了模型的容量隨著 RL 訓練的進行而增加。這是一個關鍵的區別，因為它表明 QuestA 使得模型能夠持續進行探索和推理，而不像其他方法，在優化Pass@1時Pass@k性能會下降。

X上有人評價稱，QuestA 是一種巧妙的數據增強方法，不僅加速了 pass@1 的改進，還保持/增強了pass@k，并且沒有多樣性損失。這是 1.5B 推理模型的新SOTA。

QuestA 方法：提示即所需

QuestA 通過「數據增強 + 迭代課程學習」的組合設計，實現對 RL 訓練的高效改進，核心邏輯如下：

聚焦高難度問題：采用兩階段過濾流程篩選訓練數據 —— 首先以 DeepSeek-R1-Distill-1.5B 為篩選模型，從 OpenR1-Math-220K 數據集中選出僅 0-1 次正確（8 次采樣）的 26K 高難度樣本；再對增強后的提示詞進行二次篩選，保留模型仍難以正確解答（0-4 次正確）的樣本，最終聚焦不超過 10K 的核心困難任務，確保訓練資源用在能力突破點上。
動態調整提示比例：為避免模型依賴提示，QuestA 設計迭代式課程學習 —— 先以 50% 比例的部分解決方案作為提示（p=50%）訓練至性能飽和，再將提示比例降至 25%（p=25%）繼續訓練，逐步引導模型從「依賴提示」過渡到 “自主推理”，實現能力的真實遷移。
輕量化集成 RL：QuestA 無需修改 RL 算法核心或獎勵函數，僅通過替換訓練數據（用增強提示詞替代原始提示詞）即可集成至現有 RL pipeline（如 GRPO、DAPO），具備「即插即用」的靈活性。

QuestA 通過在數據集中每個原始問題前添加部分解決方案提示，對原始問題進行增強處理。

圖 1: QuestA 是一種數據增強方法，通過注入部分解決方案，為強化學習（RL）在復雜推理問題上的訓練提供有效支撐。研究者基于 OpenR1 中的高難度樣本，構建了 2.6 萬個高質量增強提示詞（augmented prompts），并采用 32K 上下文長度的強化學習對模型進行微調。將該方法應用于 Nemotron-1.5B 模型后，QuestA 帶來了顯著的性能提升 —— 在所有數學基準測試中，均為 15 億參數模型創下了新的當前最優（SOTA）結果。

訓練細節

研究者使用AReaLite框架進行 RL 訓練。

具體而言，他們應用了 GRPO 算法，并結合了來自 DAPO 的動態過濾技術，以排除訓練中顯而易見正確或錯誤的樣本。這一優化幫助聚焦于最難的問題，提升了訓練效率。

評估

研究者在競爭級數學基準測試上評估了 Pass@1（32 個樣本的平均值）。QuestA-Nemotron-1.5B 在 1.5B 模型中達到了最先進水平，并在多個基準測試中匹配或超過了DeepSeek-R1-Distill-32B，同時其模型體積小于20×。

核心差異點：實現真實能力提升，而非熵坍縮

實驗結果表明，QuestA 方法在提升模型推理能力的同時，并未損害其多樣性。如圖 2 所示，即便在問題難度持續增加的情況下，Pass@k曲線仍呈現出穩定的上升趨勢。

圖 2：研究者比較了使用 RLVR 訓練的模型在有和沒有 QuestA 的情況下的 pass@k 曲線。作為對照實驗，我們使用易難不同的提示進行 RL 訓練。標準 RL 在易提示下（紅色）隨著 k 值增大，pass@k 顯著下降，而與基準模型（藍色）相比，表現較差。在難提示下訓練（綠色）能夠提高 pass@k，但代價是訓練時間顯著增加。這激發了他們開發 QuestA 的動機，QuestA 通過為困難問題提供框架，提升了訓練效率，并且在所有 k 值下提供了更強的結果：RL+QuestA 模型（橙色）在所有 k 值上都優于標準 RL（紅色），同時在較大的 k 值下相較于使用困難提示訓練的 RL 模型，性能也保持或有所提升。

消融實驗

QuestA 同時也在不同的基礎模型和不同的數據集進行了實驗，都讓模型得到了相應幅度的提升，這證明了 QuestA 這個方法的泛用性。具體細節參考 Arxiv 文章。

結論：QuestA 方法彰顯強化學習在推理任務中的更大應用潛力

QuestA 方法的研究結果表明，強化學習確實能夠助力模型習得新能力。通過同時提升Pass@1與Pass@k指標的性能表現，該方法證實：強化學習可在不犧牲效率與泛化能力的前提下，持續拓展模型的能力邊界。

此外，QuestA 方法有效消除了傳統訓練中簡單任務與復雜任務之間的權衡矛盾，使模型能夠在涵蓋廣泛問題類型的場景下，實現推理能力的極大提升。

這一技術突破對強化學習未來的應用發展具有深遠意義。依托 QuestA 方法，我們期待基于強化學習構建的模型如今可處理更多復雜且多樣的推理任務，其應用場景已從數學問題求解延伸至邏輯推理及創造性思維等領域。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.