![]()
好幾天沒更文章了,最近忙到起飛,在開發一款AI教育類應用,調代碼調得焦頭爛額。
不做不知道,教育領域的一些場景落地是真挺難。比如中學數學題解析,要求推導嚴謹,公式不能解析渲染錯誤。再比如生成幾何題,不僅要保證出題正確,幾何圖形也要與題目嚴格對應。
抓耳撓腮之際,階躍星辰邀請我測評新模型「Step 3.5 Flash 2603」。正好,把它應用到幾個有難度的編程場景,看看表現如何。
![]()
Step 3.5 Flash 2603有以下幾個核心亮點:
更適合高頻編程與Agent工作流:模型非常適合編程任務,尤其是bug修復、patch生成、多輪代碼修改、Agent工作流內結構化輸出與任務執行。
更高響應、更低延遲:增加了Low think模式,并非降低能力,而是避免簡單任務過度思考,減少不必要的token消耗,提高高頻任務的響應效率。
更適配Agent框架與開發工具:使用應用到Agent工作流中,針對OpenClaw、Claude Code等主流Agent框架進行了兼容優化。
下面開始場景實戰!
場景一 | 數學公式處理
說實話,做這個產品,最讓我頭疼的就是數學公式解析錯誤。像這樣:
![]()
大模型生成包含大量復雜公式的文本,要面臨 JSON+LaTeX+HTML 多重解析的考驗。數據流轉過程中,各種轉義,反斜杠要將我淹沒了......
![]()
大家都知道,大模型的輸出本就不穩定,要是公式中有一個細節錯誤,甚至缺少一個 “\”,那就是一串亂碼。
我用 Step 3.5 Flash替換原有模型,用來根據題目,輸出解答過程,并展示在HTML網頁中。下面是兩個示例:
已知橢圓E的中心為坐標原點,對稱軸為x軸、y軸,且過A(0,-2),B(3/2,-1)兩點。 (1)求E的方程; (2)設過點P(1,-2)的直線交E于M,N兩點,過M且平行于x軸的直線與線段AB交于點T,點H滿足向量MT=向量TH。證明:直線HN過定點。
![]()
已知函數f(x)=2ln x -ax2 +1(a∈R)。 (1)討論函數f(x)的單調性; (2)若存在正數x,使f(x)≥0成立,求a的取值范圍; (3)若0
![]()
可以看到,各類數學符號、公式都沒有解析和渲染錯誤,效果還是比較穩定的。
場景二|幾何圖形數據
產品中有一個需求是,根據數學幾何題目,生成對應的幾何圖形。
具體的實現方法是,把題目丟給大模型來生成繪圖數據(如下,包含了2D/3D、點、線、圖形、圖例等),然后據此用Python的 Matplotlib組件生成幾何圖形圖片。
{ "type": "3D", "points": {"A": [0,0,5], "B": [2,0,0], "C": [-2,0,0], "P": [0,3,0]}, "lines": [ {"nodes": ["A","B"], "style": "solid"}, {"nodes": ["B","C"], "style": "dashed"} ], "curves": [{"type": "circle", "center": [0,0], "r": 2}], "labels": {"A": "top", "B": "bottom"} }
但讓大模型理解題目,理解點線之間的關系,理解空間關系,并且生成結構化幾何數據,是很難的。
讓 Step 3.5 Flash試試:
在棱長為2的正方體ABCD-A?B?C?D?中,E為棱AA?的中點,點F滿足A?F=λA?B?(0≤λ≤1),則(多選) A.當λ=0時,AC?⊥平面BDF B.對任意λ∈[0,1],三棱錐F-BDE的體積是定值 C.存在λ∈[0,1],使得AC與平面BDF所成的角為π/3 D.當λ=2/3時,平面BDF截該正方體的外接球所得截面的面積為56/19π
![]()
(2024全國甲理,19,12分,中)如圖,在以A,B,C,D,E,F為頂點的五面體中,四邊形ABCD與四邊形ADEF均為等腰梯形, EF∥AD,BC∥AD,AD=4,AB=BC=EF=2,ED=√10,FB=2√3,M為AD的中點。 (1)證明:BM∥平面CDE; (2)求二面角F-BM-E的正弦值。
![]()
本來沒抱太大希望,沒想到效果還真不錯。
還有個點,試了好幾個模型都做不好,就是被遮擋的線畫成虛線,其他模型要么畫成實線,要么干脆不連線。我用 Step 3.5 Flash測了幾道題,大多數都畫對了。
場景三|數據統計與可視化圖表
這里實現的是一個試卷解析功能,根據多張試卷圖片,生成對試卷的解析報告,包含試卷照片、每道題目、答案解析、知識點,并對整體進行統計,生成可視化圖表。
實現流程是,先用其他大模型進行圖片識別( Step 3.5 Flash目前不支持圖像識別 ),識別出試卷中的題目,然后用 Step 3.5 Flash解答題目,識別知識點,并進行統計。再根據這些數據,生成HTML報告。
這個功能中,需要反復調試的點包括:保證每道題都解答正確,并且公式輸出正確;知識點識別正確;公式解析正確;可視化圖表數據準確、視覺美觀、位置準確。
我用 Step 3.5 Flash去生成HTML代碼,看看效果:
![]()
19道題、這么多公式,幾乎沒有出現渲染錯誤,最后的環狀圖非常直觀,整體UI也是簡潔清新風。
一個小問題是, 環狀圖中內容太多的話,會有圖文重疊。
之前用其他模型,去解答題目,生成HTML代碼,調試了很多很多輪才能達到可用的程度。這次用 Step 3.5 Flash只調試了6輪。
還有個小技巧,在解答題目時,使用 low think模式,減少用戶等待時間。在用 Step 3.5 Flash生成代碼時,用high think模式,獲得更好的效果。
這次將Step 3.5 Flash 2603應用到正在做的產品中,體驗還是很不錯的。
之前折磨我一兩天的Bug, Step 調試幾輪就能出結果。
輸出穩定性也很高,像數學這種對精確度有極高要求的場景,或者要求輸出固定JSON格式的場景,Step表現都不錯。
此外,速度是真挺快,尤其是深度思考模式。之前用的模型,雖然效果不錯,但思考時間太長。一條工作流中有幾個大模型節點,跑一次等的花都謝了。
測評完,看了眼后臺的token消耗,沒花多少,蠻省錢的。
當然, Step 3.5 Flash沒有神到任何編程任務都能一次跑通,但它確實會大大縮短Debug時間。
如果你是純技術小白, Step 3.5 Flash對你可能沒那么驚艷,它還不能無卡點生成復雜軟件 。如果你是一個開發者,真的建議把工作流中的模型,換成 Step 3.5 Flash試一試。
目前有兩種方式使用 Step 3.5 Flash 2603。
方式一:調用API
可以通過OpenAI兼容接口調用 Step 3.5 Flash 2603。Python代碼示例:
print(answer)其中,“ reasoning_effort”的值為“high”,是深度推理模式;值為“low”,是快速模式。
此外,由于模型可能會優先在Step Plan上線,base url可能會變更為:
https://api.stepfun.com/step_plan/v1。
方式二:接入Coding Agent
可以在你的Agent平臺,將Step添加為Custom Provider。如果你的平臺內置了階躍星辰模型列表,例如Cherry Studio,那就可以直接添加“ step-3.5-flash-2603 ”模型。
Key需要在階躍星辰開放平臺獲取:
https://platform.stepfun.com
幾分鐘的嘗試,也許能讓整個項目節省大量時間,趕快去試試吧~
如果你有任何看法,歡迎在評論區一起討論
如果有一點收獲,可以點贊、轉發、推薦文章,關注「AI機器人茶館」
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.