2026年3月6日,OpenAI官方正式上線GPT-5.4系列大模型,分為適配日常復雜任務的Thinking版與主打專業場景的Pro版。這一具有里程碑意義的更新,迅速點燃全球開發者社區的熱情,作為OpenAI首次將前沿推理、編碼能力與智能體功能深度融合的核心產品,GPT-5.4憑借多模態能力的突破性提升,重新界定AI與人類的協作邊界,推動人工智能從“被動響應”向“主動執行”加速邁進。
![]()
核心升級:多模態能力突破,多項指標趕超人類水平
GPT-5.4最具突破性的升級,集中在多模態能力的全面升級,尤其在原生計算機操控、視覺感知及專業任務處理三大領域實現關鍵性突破,多項權威基準測試指標成功趕超人類平均水平。該模型無需額外搭載第三方工具,僅通過截圖識別與鍵盤鼠標指令,就能完成跨應用的復雜操作,大幅優化了AI與計算機的交互邏輯。
在多項權威基準測試中,GPT-5.4表現突出:OSWorld-Verified桌面操作基準測試中,其成功率達到75.0%,較前代GPT-5.2提升28個百分點,首次超越人類平均水平(72.4%);Online-Mind2Web網頁操作測試中,成功率高達92.8%,顯著優于ChatGPT Atlas智能體模式的70.9%。此外,其MMMU-Pro視覺理解測試成功率達81.2%,OmniDocBench文檔解析平均錯誤率降至0.109,較前代均有大幅提升。
與此同時,GPT-5.4新增“思考過程預覽”功能,可提前展示自身推理邏輯,方便用戶及時調整需求;支持100萬tokens的上下文窗口(可理解為AI能同時處理的文本長度),助力智能體高效完成長周期任務,進一步拓寬了多模態技術的應用場景。
里程碑價值:AI從“輔助工具”向“數字員工”升級
GPT-5.4的正式發布,不僅是OpenAI發展歷程中的重要節點,更標志著全球AI產業正式邁入“全能協作”的全新階段。與前代模型“能力碎片化”“需外掛工具才能實現復雜操作”的局限不同,該模型將推理、編碼、智能體三大核心能力深度整合,定位為“可獨立完成各類真實工作的AI數字員工”,實現了從“對話交互”到“落地執行”的模式升級。
在專業領域,GPT-5.4的表現已接近人類專家水平:GDPval基準測試中,83.0%的項目達到行業專業標準,較前代提升12個百分點;投行級電子表格建模平均得分87.3%,其生成的演示文稿獲得68.0%評審者的認可。同時,該模型的單個陳述錯誤率下降33%,有效改善了前代模型“幻覺現象突出”的行業痛點。
OpenAI相關負責人表示,GPT-5.4的迭代核心是“讓AI更貼合人類需求、更易落地應用”,其原生集成的多元能力,將推動AI技術在金融、法律、設計等多個領域實現規模化落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.