337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布o3/o4-mini:"最智能"模型,圖片推理、工具調用全都有

0
分享至

本周果然是諸神之戰!

繼 GPT-4.1 發布、可靈2.0 發布、Claude 上線 Research、Gemini 全面上線 Veo 2 等等之后,OpenAI 帶來了 o3 滿血版和 o4-mini。



先來劃重點:

  • 本次發布的模型,分別是 o3 和 o4-mini;
  • 綜合看o4-mini性價比最高,o3能力最為綜合;
  • 兩個模型均為多模態推理模型,在代碼、科學方面表現出色;



*網友實測,認為Benchmark又要更新了

多模態推理也是本次官宣的重點。我們順手拿蘋果手表對o3做了測試:



*識別略有出入,真實型號是S9。不過這幾個型號確實外觀無太大差別,肉眼直接分辨也有難度。

Sam Altman本人也對這次發布劃了重點



ChatGPT 的 Pro、Plus、Teams 用戶將從今天開始能夠使用新模型,免費用戶可以通過打開“深度思考”按鈕來試用 o4-mini。



*ChatGPT更新的頁面

"OpenAI 迄今為止最強大的模型們"

OpenAI 聯創之一 Greg Brockman 主持直播,開場白簡單直接,直接宣布今天的重點:“發布兩款新模型,o3 和 o4-mini”。



首先被拋出的新模型描述就是,o3 和 o4-mini 是 OpenAI 目前為止最智能的模型。相比前代 o 系列模型,這兩款模型在深度思考方面的能力更突出,在回答問題之前會進行更長時間的思考。

另一個特點是,o3 滿血版和 o4-mini 可以使用 OpenAI 已經發布的所有工具能力,包括聯網搜索、永久記憶等等。當然,它們還是多模態的,可以直接對圖片進行推理。

強大的推理能力,以及廣泛的工具調用能力,使得這兩款模型非常適合科學研究、代碼生成或數學問題解答。

分開來看,o3 定位為OpenAI當前最強大、最前沿的推理引擎。尤其是在編程、商業/咨詢和創意構思等領域表現出色。

o4-mini 則更強調性價比,是一款專為快速、成本效率優化的推理模型,它的體量更小,性價比更高,在數學、編程和視覺任務方面有著不錯的表現。

從科學方面的測評結果來看,o3 與 o4-mini 顯著領先于前代 o 系列模型。而在 o3 與 o4-mini 之間來進行比較,得分差距并不是十分明顯,多數情況下,o4-mini 會略微領先于 o3。



現場直播中也給出了一道 AIME 題目的測試結果:





對于這個數學問題,模型在給出了正確的常規解法和答案后,甚至還額外給出了一個相對更“聰明”的解法。

再來看代碼能力



本次發布的兩款新模型在代碼能力上相較前代 o 系列模型提升明顯。在 SWE-Bench Verified 評測集上,o3 與 o4-mini 分別取得了 69.1% 與 68.1% 的分數。可以提供參考的是,剛剛發布的 GPT-4.1 在這項測試上的成績為 54.6%,而 Claude 3.7 Sonnet 一般情況下得分是 62.3%。

OpenAI 發布的模型在代碼生成能力測評上,終于超越了這個領域的王者Claude。

從現場給出的代碼類任務的 case 來看,模型在接到代碼問題后,到最終生成并執行代碼之前,拆解出了一個個核心步驟。











本次發布的 o3 和 o4-mini 也都是多模態模型。



在官方給出的4項多模態測評數據結果中,o3 又一次全部超越了 o4-mini。

值得注意的是,在指令遵循方面,前幾天的 GPT-4.1 發布時,在 Scale MultiChallenge 榜單中得分僅排名第十。但本次發布的 o3 在這項測評中的成績,直接超越了原榜單第一名的 Gemini 2.5 Pro。



不僅在效果上超越了前代的 o 系列模型,在推理成本上也有顯著下降。

官方給出了新模型在 AIME 和 GPQA 兩個評測集上進行的模型效果與預估推理成本之間的對比結果。

在達到相同的推理效果時,新模型所花費的預計推理成本基本均小于前代模型。模型的推理成本優化效果在 o3 與 o1 進行對比時,提升十分的明顯。

OpenAI 稱對于大多數現實世界的使用,o3和o4 mini也將分別比o1和o3-mini更智能、更便宜。







*各模型 API 價格對比,圖源:機器之心

總之,o4-mini是性價比之選,o3是最新的任務效果天花板。o3-mini和o1,似乎都可以被替代了。

除了模型,還有 Agent

在介紹完新模型的信息后,Greg Brockman 還官宣了一個可以直接在命令行工具中運行的、具備推理能力的代碼 Agent——Codex CLI。

Sam Altman對此的解讀是,它可以和擅長Coding的o3和o4-mini搭配。



插播一句,今天OpenAI還被曝出,正在洽談以30億美元收購知名的AI輔助編程工具Windsurf。如果成真,將是OpenAI迄今為止規模最大的一筆收購。

在實際演示中,用戶只上傳了一張網友制作的小項目的帖子截圖。

模型先是對圖像中的內容進行了識別,然后就在沒有任何指令的情況下,開始嘗試猜測用戶關于這張圖片的具體需求。



僅通過自然語言描述需求后,Codex CLI 就直接生成了符合用戶要求的 HTML 文件。

在直播演示中,OpenAI Agent研究團隊成員,僅通過一張“圖像到 ASCII 風格轉換”的截圖,把這個圖拖進終端,Codex 就將此前截圖網友的項目準確完成,成功創建了一個簡單的ASCII風格圖像轉換工具。



在發布會的最后,Greg Brockman 還預告說,o3-pro 預計將在幾周內完成發布。

在萬眾期待的 GPT-5 遲遲未到的情況下,這幾天的接連出新,可能也是OpenAI的“緩兵之計”,希望用戶對 OpenAI 保留一些信心。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“中方要求兩大航運公司立即停止巴拿馬港口運營”

“中方要求兩大航運公司立即停止巴拿馬港口運營”

觀察者網
2026-04-15 16:28:22
今天上海有雨,記得帶傘

今天上海有雨,記得帶傘

魯中晨報
2026-04-16 07:28:07
2-0擊敗中國,日本女足強勢晉級亞洲杯決賽,將VS衛冕冠軍爭冠

2-0擊敗中國,日本女足強勢晉級亞洲杯決賽,將VS衛冕冠軍爭冠

側身凌空斬
2026-04-15 22:54:30
你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

你們都是什么時候對男女之事開竅的?網友:果然還是攔不住有心人

夜深愛雜談
2026-02-21 21:37:02
事鬧大了!李斌喊話 “忘記MPV”,別克直接回懟下戰書

事鬧大了!李斌喊話 “忘記MPV”,別克直接回懟下戰書

新浪財經
2026-04-16 01:55:24
硬核新人!下一個環神!

硬核新人!下一個環神!

貴圈真亂
2026-04-15 13:35:22
鄭秀文首患鼻竇炎求醫5人終痊愈:誤診感冒拖延一個半月,已帶病赴大馬開唱

鄭秀文首患鼻竇炎求醫5人終痊愈:誤診感冒拖延一個半月,已帶病赴大馬開唱

喜歡歷史的阿繁
2026-04-16 09:39:34
張雪峰對當年把他踢出尖子班的教導主任,記了大半輩子,耿耿于懷

張雪峰對當年把他踢出尖子班的教導主任,記了大半輩子,耿耿于懷

情感藝術家
2026-04-13 11:43:48
幼兒園要求兒子帶全班的榴蓮!我買了20箱送到學校,園長直接傻眼

幼兒園要求兒子帶全班的榴蓮!我買了20箱送到學校,園長直接傻眼

千秋文化
2026-04-15 20:22:36
兩性關系:男人拿下女人最快的方法,從古至今從未改變!

兩性關系:男人拿下女人最快的方法,從古至今從未改變!

三農老歷
2026-04-16 08:42:28
復活節的鮮血與教皇的沉默:為何對川普憤怒,卻對屠殺失聲?

復活節的鮮血與教皇的沉默:為何對川普憤怒,卻對屠殺失聲?

斌聞天下
2026-04-16 07:25:03
2013年,王石和前妻同框,參加岳父王寧告別儀式,一張罕見的留影

2013年,王石和前妻同框,參加岳父王寧告別儀式,一張罕見的留影

阿廢冷眼觀察所
2026-04-15 13:20:06
一潤腸,二利尿,三解毒,四強免疫,4月正當季,鮮脆爽口特解饞

一潤腸,二利尿,三解毒,四強免疫,4月正當季,鮮脆爽口特解饞

江江食研社
2026-04-15 22:00:08
字字扎心!王曉晨發文內涵俞灝明,多年付出全被嫌棄,根本看不上

字字扎心!王曉晨發文內涵俞灝明,多年付出全被嫌棄,根本看不上

翰飛觀事
2026-04-14 22:16:41
馬筱梅回京后情緒崩潰,張蘭做出重要決策揭示與玥箖的真實關系

馬筱梅回京后情緒崩潰,張蘭做出重要決策揭示與玥箖的真實關系

趙釔是個熱血青年
2026-04-14 20:12:25
兩年前“預言”美伊開戰的北京高中老師,對局勢有了新判斷

兩年前“預言”美伊開戰的北京高中老師,對局勢有了新判斷

用淚來贖罪
2026-04-01 16:45:43
退休人員要注意:養老金發放時間有變化!這4件事早知道早受益

退休人員要注意:養老金發放時間有變化!這4件事早知道早受益

小談食刻美食
2026-04-16 07:37:43
3年前就戳穿西貝預制菜沒人信,如今被實錘!這個探店博主藏得太深了

3年前就戳穿西貝預制菜沒人信,如今被實錘!這個探店博主藏得太深了

馬蹄燙嘴說美食
2026-04-15 18:29:48
1969年蘇聯要扔原子彈,毛主席:你敢扔我國8億軍民就敢反擊

1969年蘇聯要扔原子彈,毛主席:你敢扔我國8億軍民就敢反擊

老范談史
2026-04-15 09:28:00
西方國家為什么都不喜歡中國?英國專家:中國有一個“老問題”

西方國家為什么都不喜歡中國?英國專家:中國有一個“老問題”

落梅如雪亂飛
2026-04-16 09:13:09
2026-04-16 10:15:00
四木相對論 incentive-icons
四木相對論
嘮嘮科技,看看世界
127文章數 2關注度
往期回顧 全部

科技要聞

39.98萬!小鵬GX預售“純電增程同價”

頭條要聞

牛彈琴:伊朗迎來一位非常特殊客人 全世界大舒一口氣

頭條要聞

牛彈琴:伊朗迎來一位非常特殊客人 全世界大舒一口氣

體育要聞

三球準絕殺戴大金鏈:轟30+10自我救贖

娛樂要聞

謝娜現身環球影城,牽手女兒溫馨有愛

財經要聞

油輪被困波斯灣1個多月 船員飽受煎熬

汽車要聞

空間絲毫不用妥協 小鵬GX首發評測

態度原創

游戲
教育
旅游
時尚
健康

拉跨了!《紅色沙漠》有望在年底超越《星空》總銷量

教育要聞

重磅政策:得州理工將取消所有“性別與性取向”相關專業

旅游要聞

延時開放!鄭州大河村國家考古遺址公園調整開放時間

赫本愛穿的傘裙,好優雅!

干細胞抗衰4大誤區,90%的人都中招

無障礙瀏覽 進入關懷版