![]()
大模型這兩年的升級太密了。幾乎每隔兩周就有一家廠商宣布所謂重磅發布,自媒體也經常動輒顛覆世界。導致大家多少都有點審美疲勞。長期關注這個領域的朋友,想必已經產生了某種抗體。
但這次豆包大模型 Seed 2.0,確實讓我有點不一樣的感受。
不一樣的點,不在跑分,不在測評,而在我最關心的:能不能真的幫你干活。
之前我寫過一些簡單的 Agent 和編程工具測試( ),回頭看,大模型可以完成一些簡單的編程和創意工作,但離真正的生產力工具還有距離。更像一個聰明但不太靠譜的實習生——你說什么它都能接話,但你沒法把一項完整的工作放心交給它,或者說要達成目的需要的成本并不低。
這次 Seed 2.0 的變化,核心不只是代碼理解能力更強了,更關鍵的是它的 Skills 調用能力。模型不只是「接收指令、給出回復」,而是能拆解一個復雜任務里有哪些步驟、需要調什么工具,然后自己串起來跑完。
聽起來抽象。我拿兩個自己做的東西來說。
第一個是,小紅書長圖文排版生成器。
做自媒體的人都知道,小紅書的長圖文排版是個體力活。一篇長文要切成多張 3:4 的圖片,風格要統一,斷行不能難看,配圖要穿插,最后還得逐張導出。市面上有工具能做,但大多只覆蓋最基礎的需求。
我讓豆包用 Seed 2.0 做了一個排版生成器。
這是我的 Prompt:
幫我做一個工具,小紅書長圖文排版生成器。不僅支持將長文本自動按照段落和高度切分為多張 3:4 或 9:16 的圖片,還具備專業級的排版細節。它內置了智能的「避頭尾法則」,確保數字(如 10,000)、小數點(如 99.9%)、連續英文單詞以及括號等符號不會出現突兀的斷行。在視覺設計上,工具去掉了傳統的封面的大標題,在每一頁頂部加入了具有雜志感的幾何線條和動態頁碼指示器(圓點隨頁數變化并高亮當前頁),同時提供了 10 種精選的護眼莫蘭迪色系(如拿鐵咖、羊皮紙等)供一鍵切換。此外,它還支持智能圖文穿插功能,用戶可以上傳圖片并通過占位符插入正文,圖片會自動應用高級彌散陰影和大圓角,用戶還可以通過滑塊自由控制圖片在排版中的全局縮放大小,并能一鍵開啟“段落垂直居中”功能,完美解決字數較少時的頁面留白問題,最后支持一鍵打包下載所有生成的高清圖片。
![]()
而這是豆包 Seed 2.0 在 3 分鐘內幫我寫好代碼完成的網頁工具。功能相當完整并且準確。
過程里可以看到代碼陸續寫出來。
![]()
這個任務之所以能說明問題,在于它不是一次簡單的問答。模型需要同時處理幾件事:理解文本結構,執行排版規則(數字、百分比、英文單詞不能在中間斷行),管理視覺樣式(我設了十種莫蘭迪色系可以一鍵切換),處理圖文穿插邏輯,最后支持批量導出。
過程中,考察的是文本理解→排版規則→樣式系統→圖片處理→批量導出,一整條 Skills 鏈的協同調用。而它真的做出來了。不是 demo 級別的「做出來」,是經過幾次迭代后,我可以在小紅書實際用上了的那種「做出來」。某種意義上,人人都可以在 3 分鐘內有一個自己隨意微調的錘子便簽了。
![]()
做完排版器我又試了一個挺有意思的:古文翻譯器。
Prompt是:
輸入一段明清小說的原文,預置三種現代漢語翻譯:魯迅風格、曹禺風格、知乎風格。
需求本身不復雜,好玩的是風格遷移的質量。魯迅的冷峻克制、曹禺的戲劇張力、知乎體的「謝邀,人在古代,剛下馬車」,模型要做出有辨識度的區分,加入了一些常用語和翻譯風格。
![]()
這代表了未來的可能性:每個人都可以擁有一套自己定制的出版工作室。你喜歡什么翻譯風格,就讓這個工作室給你怎么翻譯。
以上兩個例子更接近我作為創作者的使用場景。而大模型的升級是全方位的。哪怕不做工具、不寫內容,日常生活里也能感受到區別。
豆包 APP 有「專家模式」,現在大家應該都能體驗到。多模態理解上的表現又上了一個檔次。
我試了一張纜車照片。很普通的旅行照,沒有任何文字標識,只有纜車和白茫茫的一片地。它準確識別出這是日本山形縣的藏王溫泉滑雪場。這不只是圖像識別,它需要結合地形特征、纜車樣式、植被分布做綜合推理。
![]()
另外,前幾天去吃的居酒屋,也能準確翻譯菜單,這倒沒有難度。難點在于,它不光翻譯準確,還能根據當下的位置和季節給出推薦。
相當于有個日本本地的朋友直接幫你推薦點菜。
![]()
另外一個亮點則是,大容量有豐富細節的視頻也能看懂了。豆包目前支持 500MB 以內的視頻分析,這是個新功能。
我拿自己滑雪的視頻試了一下。幾分鐘的視頻,沒有旁白沒有字幕。它不僅看懂了我在做什么動作,還針對姿勢給出了相當專業的改進建議:膝蓋屈曲不足、上半身過直,重心偏高;重心轉移不充分,外側雪板承重不足。并且給出了針對性的建議。
![]()
![]()
![]()
這些判斷需要同時理解運動軌跡、身體姿態和雪道坡度,還要有滑雪運動的專業知識。這相當程度上解決了我們不知道,一些現實世界里的場景,該怎么跟 AI 表述(或者表述很麻煩)的問題。
最后再談兩句額外的觀察。近期圍繞模型蒸餾的討論很多,豆包其實沒有把重點放在蒸餾這條路上,看它的技術風格能感受到一種不太常見的取向。豆包強調的還是指令遵循,強調長尾知識,強調真實世界的復雜工作流。當然,也因為財大氣粗,可以放量并且建立雄厚的用戶群和用戶場景,就有了大量面向真實場景的評測基準,以體驗為驅動而不是以刷分為驅動。
這未必是絕對意義上唯一正確的路,不過這條更慢的路,的確走出了一些不一樣的東西。
說回來,距離大模型能完全替代很多生產力場景,還有距離。高精度、長協作、深經驗的工作,目前還做不到可以放心交付。包括剛剛提到的場景,真正能應用,還需要反復調試和人工的判斷。不過可以說,目前的大模型距離,讓我們走進滿是 AI 的工作室,已經算摸到門把手了。
這次用做的小紅書排版工具,我在日常工作里真的用了起來,每周都會打開。一個能做出可用工具的 AI,相比于 2 年前,又是一次潛移默化但很重要的進化。一個能知道我看到的是什么、我拍到的是什么的 AI,也比只能聊天獲取信息的 AI ,也是進化。這就是為什么說,這次真的有點不一樣。
各位對方舟的 Coding Plan 感興趣的朋友,點擊閱讀原文,可以直接跳轉。
* 本文使用火山方舟體驗中心及豆包 APP (基于 Seed 2.0)進行測試,代碼相關 Demo 基于火山方舟 Coding Plan(集成 Seed 2.0 Code)實現。
* 封面圖由 豆包(Seedream 4.5) 生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.