網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中門對(duì)狙！Claude Opus 4.6和GPT-5.3 Codex同時(shí)發(fā)布，這下真的AI春晚了。

2026-02-06 05:23:18　來源: 數(shù)字生命卡茲克

天津舉報(bào)

分享至

　　在全網(wǎng)翹首以盼的等了兩天之后，在凌晨2點(diǎn)。

　　Anthropic的新模型Cluade Opus 4.6正式更新了。

　　我說實(shí)話，我是真的最近因?yàn)锳I圈這些模型和產(chǎn)品，熬夜熬的有點(diǎn)扛不住了。

　　但其實(shí)最顛最絕望的是，20分鐘之后，OpenAI也發(fā)了新模型。。。

　　GPT 5.3 Codex也來了。

　　這尼瑪，真的是中門對(duì)狙了。

　　要了親命了。。。

　　這兩模型都還是得看，因?yàn)橹癎PT和Claude幾乎就是我最常用的維二最主力的模型，GPT-5.2用來做各種各樣的搜索和事實(shí)核查還有研究還有編程改BUG，Opus 4.5做創(chuàng)作和主力編程。

　　現(xiàn)在，兩個(gè)都來了。

　　太刺激了。

　　一個(gè)一個(gè)說吧。

　　一. Claude Opus 4.6

　　這次 Anthropic其實(shí)不止發(fā)了Claude Opus 4.6，還有一個(gè)很好玩的東西，Agent Teams，還有關(guān)于Excel和PPT插件的更新。

　　先說Claude Opus 4.6。

　　每次有新模型發(fā)布，大家第一反應(yīng)就是看跑分。

　　這次Opus 4.6的跑分確實(shí)很漂亮，我挑幾個(gè)重點(diǎn)說說。

　　首先是Terminal-Bench 2.0，這是一個(gè)測(cè)試AI在終端環(huán)境下編程能力的評(píng)估，Opus 4.6拿了65.4%，是所有模型里最高的（沒看到GPT-5.3 codex之前）。

　　GPT-5.2是64.7%，Gemini 3 Pro是56.2%。

　　讓我比較驚訝的是OSWorld這個(gè)評(píng)估，測(cè)的是AI操作電腦的能力，Opus 4.6拿了72.7%，比Opus 4.5的66.3%高了不少。

　　這就意味著Claude越來越會(huì)用電腦了，它能更好地操作鼠標(biāo)、點(diǎn)擊按鈕、在不同應(yīng)用之間切換，在Coding能力提升的同時(shí)，電腦操作的能力也有大幅提升，這是真的要奔著全面Agent化去了。

　　還有一個(gè)BrowseComp，也是讓我意外的，測(cè)的是Agent在網(wǎng)上搜索信息的能力，Opus 4.6拿了84.0%，遠(yuǎn)超其他模型。

　　第二名GPT-5.2 Pro是77.9%，差了6個(gè)多點(diǎn)。

　　因?yàn)槲易约浩鋵?shí)一直把GPT-5.2 Pro當(dāng)作是我最牛逼的研究報(bào)告生成引擎去用的，他比DeepResearch還要強(qiáng)，精準(zhǔn)度極高幻覺率極低，現(xiàn)在Opus 4.6比它還要搞6個(gè)點(diǎn)，說實(shí)話有點(diǎn)離譜了。

　　然后就是GDPval-AA這個(gè)評(píng)估，這個(gè)評(píng)估測(cè)的是AI在真實(shí)工作任務(wù)中的表現(xiàn)，包括金融、法律等領(lǐng)域的知識(shí)工作。Opus 4.6拿了1606的Elo分，比GPT-5.2高了144分，比自己的前代Opus 4.5高了190分。

　　144分的Elo差距還是挺大的，也就是說，在干活這件事上，Opus 4.6確實(shí)是目前最強(qiáng)的，Cluade是真的把自己的編程能力，開始逐漸泛化到其他的工作場(chǎng)景里面去了。

　　然后最離譜的是這個(gè)，ARC AGI 2，68.8%，吊打一切。。。

　　我之前在GPT-5.2發(fā)布時(shí)候的文章里科普過這玩意，就是下面這種題。

　　這種能力，現(xiàn)在稱為流體智力（Fluid Intelligence），意思就是指不依賴于已有的知識(shí)，在全新情境下進(jìn)行邏輯推理、識(shí)別模式和解決問題的能力。

　　說白了，就是你的悟性和開竅的能力。

　　之前在ARC-AGI-2上，GPT-5.1的得分是17.6%，而GPT-5.2 Pro，直接飆到了50%多。

　　這一次，Claude Opus 4.6，直接干到了68.8%，是有點(diǎn)離譜的，差點(diǎn)摸到7字頭了。

　　從上面這些跑分看，除了一些世界知識(shí)和問答上，Claude Opus 4.6還弱于GPT-5.2，其他的幾乎已經(jīng)全面領(lǐng)先。

　　當(dāng)之無愧的SOTA。

　　說實(shí)話，我對(duì)跑分一直有點(diǎn)復(fù)雜的感情。

　　一方面，跑分確實(shí)能說明一些問題，但另一方面，跑分和實(shí)際使用體驗(yàn)之間，往往有一道很深的鴻溝。

　　很多模型跑分很高，但用起來就是不順手，反過來，有些模型你看著整體跑分一般，但在某些場(chǎng)景下就是還挺好用的。

　　所以我更關(guān)注的，是這次更新在產(chǎn)品層面做了什么。

　　第一個(gè)：1M token的上下文窗口。

　　普天同慶！！！Claude Opus系列，終于有1M上下文啦！！！

　　Opus 4.6終于支持100萬token的上下文了！！！

　　真的，做Coding的朋友們都知道，上下文容量有多重要。。。

　　之前只有200K的小窗口，這次整整翻了5倍！！！現(xiàn)在再也不用擔(dān)心這個(gè)問題了！！！

　　而且我要說一個(gè)很重要的點(diǎn)，就是上下文窗口大，不等于模型能真正用好這么大的上下文。

　　很多模型雖然支持很長的上下文，但你真的塞進(jìn)去很多內(nèi)容之后，模型的表現(xiàn)會(huì)明顯下降，會(huì)變得很蠢。

　　這個(gè)問題在業(yè)內(nèi)叫"context rot"，上下文腐爛，也就是你用的越久，模型能力開始變得越差。

　　而這次，Claude Opus 4.6，在MRCR v2的測(cè)試上做了實(shí)驗(yàn)，這個(gè)測(cè)試是大海撈針類的，就是在一大堆文本里藏幾個(gè)關(guān)鍵信息，看模型能不能找到。

　　在100萬token、藏8根針的測(cè)試?yán)铮琌pus 4.6直接拿了76%，而Sonnet 4.5只有18.5%，太牛逼了！

　　而且上下文推理上，也傲視群雄。

　　這對(duì)很多實(shí)際場(chǎng)景來說真的非常有用，也是我最最最喜歡的升級(jí)點(diǎn)，不只是coding，其實(shí)比如你想讓Claude幫你審查一份幾百頁的法律文件，或者分析一個(gè)大公司的財(cái)報(bào)，現(xiàn)在大概率也是可以一次性搞定了。

　　第二個(gè)：輸出上限提升到128K。

　　以前Claude的輸出上限都是64K，這次直接翻倍了。

　　也算是一個(gè)相當(dāng)不錯(cuò)的利好。

　　這個(gè)改進(jìn)聽起來不起眼，但對(duì)于實(shí)際使用來說真的很重要。

　　第三個(gè)：Context Compaction，上下文壓縮。

　　這個(gè)功能其實(shí)Claude Code已經(jīng)實(shí)現(xiàn)很久了，但我覺得還是很有必要說一下，因?yàn)樗鉀Q了一個(gè)很現(xiàn)實(shí)的問題。

　　當(dāng)你跟AI聊了很久，或者讓AI執(zhí)行一個(gè)很長的任務(wù)，對(duì)話內(nèi)容會(huì)越來越多，最終會(huì)超過上下文窗口的限制。以前遇到這種情況，要么任務(wù)失敗，要么得手動(dòng)清理對(duì)話歷史。

　　現(xiàn)在有了Context Compaction，Claude可以自動(dòng)把舊的對(duì)話內(nèi)容壓縮成摘要，騰出空間給新的內(nèi)容。

　　這樣Claude就能執(zhí)行更長時(shí)間的任務(wù)，而不會(huì)因?yàn)樯舷挛囊绯龆袛唷?/p>

　　這對(duì)于那些需要Claude長時(shí)間自主工作的場(chǎng)景來說，是一個(gè)很實(shí)用的改進(jìn)。

　　以前是在Claude Code里使用工程實(shí)現(xiàn)的，現(xiàn)在直接模型自帶了。

　　第四個(gè)：Adaptive Thinking和Effort控制

　　以前Claude有一個(gè)"extended thinking"功能，就是讓它在回答之前先深度思考一會(huì)兒。

　　這個(gè)功能開啟之后，Claude的回答質(zhì)量會(huì)提升，但速度會(huì)變慢，成本也會(huì)增加。

　　問題是，以前這個(gè)功能是要么開要么關(guān)，沒有中間狀態(tài)。有些簡單問題，你開了深度思考，就有點(diǎn)殺雞用牛刀了。

　　現(xiàn)在有了兩個(gè)新功能來解決這個(gè)問題。

　　一個(gè)是Adaptive Thinking，自適應(yīng)思考。開啟之后，Claude會(huì)自己判斷這個(gè)問題需不需要深度思考。簡單問題就快速回答，復(fù)雜問題就多想一會(huì)兒。

　　另一個(gè)是Effort控制，讓你可以手動(dòng)設(shè)置Claude的思考程度。有四個(gè)檔位：low、medium、high、max，默認(rèn)是high。

　　這兩個(gè)功能加起來，讓Claude的使用變得更靈活了。

　　你可以根據(jù)實(shí)際需求，在速度、成本、質(zhì)量之間找到平衡點(diǎn)。

　　然后還有一個(gè)，是Claude Code里面很重要的更新，叫做Agent Teams。

　　以前你用Claude Code，是一個(gè)Claude在干活，你給它一個(gè)任務(wù)，它自己去做，做完了給你看結(jié)果。

　　現(xiàn)在有了Agent Teams不一樣了，你可以讓一個(gè)會(huì)話充當(dāng)團(tuán)隊(duì)負(fù)責(zé)人，協(xié)調(diào)工作、分配任務(wù)并綜合結(jié)果。

　　然后啟動(dòng)團(tuán)隊(duì)成員獨(dú)立工作，各自在自己的上下文窗口中，并彼此直接通信。

　　比如假設(shè)你要做一個(gè)代碼審查，需要看前端代碼、后端代碼、還有數(shù)據(jù)庫相關(guān)的代碼。以前你可能要分三次讓Claude看，每次看一部分。

　　現(xiàn)在你可以說"幫我審查這個(gè)代碼庫"，然后Claude會(huì)自動(dòng)啟動(dòng)3個(gè)團(tuán)隊(duì)成員，一個(gè)看前端，一個(gè)看后端，一個(gè)看數(shù)據(jù)庫，三個(gè)同時(shí)進(jìn)行，最后把結(jié)果匯總給你。

　　而且這些團(tuán)隊(duì)成員不是完全獨(dú)立的，它們可以相互溝通。比如后端代理發(fā)現(xiàn)一個(gè)API的變更，它可以告訴前端代理，讓前端代理檢查一下調(diào)用這個(gè)API的地方有沒有問題，而且他們也可以互相質(zhì)疑、互相挑戰(zhàn)、互相發(fā)現(xiàn)。

　　跟Claude Code里面之前subagents也就是子代理不同的點(diǎn)在于，子代理在單個(gè)會(huì)話中運(yùn)行，只能向主代理報(bào)告結(jié)果，而Agent Teams是一個(gè)團(tuán)隊(duì)，團(tuán)隊(duì)成員可以直接與各個(gè)團(tuán)隊(duì)成員互動(dòng)，無需通過負(fù)責(zé)人。

　　他們自己也做了一個(gè)非常明確的圖表來進(jìn)行區(qū)分。

　　當(dāng)你需要快速、專注的工作人員進(jìn)行反饋時(shí)，使用子代理。當(dāng)團(tuán)隊(duì)成員需要共享發(fā)現(xiàn)、相互挑戰(zhàn)和自主協(xié)調(diào)時(shí)，使用Agent Teams。

　　然后就是兩個(gè)小的更新，一個(gè)是Claude in Excel這個(gè)插件將Claude Opus 4.6直接集成到了excel里面。

　　現(xiàn)在還支持?jǐn)?shù)據(jù)透視表編輯、圖表修改、條件格式設(shè)置、排序和篩選、數(shù)據(jù)驗(yàn)證以及金融級(jí)格式設(shè)置。

　　還添加了可用性改進(jìn)，包括長對(duì)話的自動(dòng)壓縮和拖放多文件支持等等。

　　然后還發(fā)了一個(gè)Claude in PowerPoint。

　　將Claude集成到了PowerPoint側(cè)邊欄中，讓它在創(chuàng)建新內(nèi)容之前讀取現(xiàn)有的布局、字體和母版。

　　Claude也可以根據(jù)客戶模板構(gòu)建演示文稿、對(duì)現(xiàn)有幻燈片進(jìn)行針對(duì)性編輯。

　　Anthropic真的憑借著Claude，在B端領(lǐng)域，真的開始大殺四方了。

　　GPT說實(shí)話，現(xiàn)在整個(gè)B端和生產(chǎn)力端的體驗(yàn)，稍微落后的有點(diǎn)多了。

　　最后說一下價(jià)格。

　　API價(jià)格保持不變，還是$5/$25每百萬token（輸入/輸出）。

　　如果用超過20萬token的上下文，會(huì)有額外定價(jià)，是$10/$37.50每百萬token。

　　目前，Claude網(wǎng)頁版和Claude Code上，Claude Opus 4.6均以全面上線，已經(jīng)可以快樂的玩耍起來了。

　　二. GPT-5.3 Codex

　　終于聊完了Claude的東西，然后到了GPT這邊。

　　說實(shí)話，我自己對(duì)GPT一直也是有自己的情感的，他依然是我現(xiàn)在在任何時(shí)候想到問題，第一個(gè)去問的模型，想要要驗(yàn)證某一個(gè)事的時(shí)候，第一個(gè)去問的模型。

　　而且，雖然我不是一個(gè)專業(yè)的編程大佬，但是在我有限的Vibe Coding的經(jīng)驗(yàn)里，我覺得GPT-5.2 Codex在解決BUG和難點(diǎn)的問題上，是要強(qiáng)于Claude Opus 4.5的。

　　特別是GPT-5.2 Codex+Codex的改BUG體驗(yàn)，是要比Claude Opus 4.5+Claude Code要更強(qiáng)的。

　　所以我自己經(jīng)常的工作流，經(jīng)常是用Claude code寫一個(gè)大的，然后用codex接手后續(xù)進(jìn)行調(diào)整。

　　所以我剛好，還真是這兩玩意的用戶。。。

　　所以GPT-5.3 Codex的更新，我自然也非常的開心。

　　兩者中門對(duì)狙，開心的自然是我們用戶。

　　這次GPT-5.3 Codex，其實(shí)最讓我驚訝的東西，不是跑分，是他們博客里的一句話：

　　"GPT-5.3 Codex是我們第一個(gè)在創(chuàng)造自己的過程中發(fā)揮重要作用的模型。"

　　OpenAI說，他們的Codex團(tuán)隊(duì)在開發(fā)GPT-5.3的過程中，用早期版本的模型來debug自己的訓(xùn)練過程、管理部署、診斷測(cè)試結(jié)果和評(píng)估。

　　用人話說就是，AI參與了自己的開發(fā)。

　　這個(gè)事情聽起來有點(diǎn)科幻，但其實(shí)邏輯上是通的。

　　AI模型的開發(fā)過程，本質(zhì)上也是一堆代碼，訓(xùn)練腳本是代碼，部署流程是代碼，測(cè)試框架也是代碼。

　　既然AI已經(jīng)coding能力已經(jīng)這么牛逼了，那讓AI來幫忙寫這些代碼，也是順理成章的事。

　　但順理成章和真的做到了說實(shí)話，是兩碼事。

　　OpenAI的團(tuán)隊(duì)說，他們被Codex能夠加速自身開發(fā)的程度震驚了。

　　如果AI能夠越來越多地參與自己的開發(fā)，那AI進(jìn)化的速度會(huì)不會(huì)變得更快？這個(gè)問題，可能比任何跑分都重要。

　　這個(gè)世界，真的都在瘋狂的加速啊。

　　然后老規(guī)矩，再看下跑分。

　　GPT-5.3 Codex在幾個(gè)關(guān)鍵的編程評(píng)測(cè)上都拿到了最高分。

　　這時(shí)候，你肯定會(huì)問了， GPT-5.3 Codex和Claude Opus 4.6，到底哪個(gè)跑分更牛逼一點(diǎn)？？？

　　說實(shí)話，因?yàn)閮杉业脑u(píng)測(cè)基準(zhǔn)，還是有很多細(xì)節(jié)差異，所以，完全沒法直接進(jìn)行對(duì)比。。。

　　唯一一個(gè)對(duì)齊的基準(zhǔn)是Terminal-Bench 2.0，這是一個(gè)由89個(gè)復(fù)雜真實(shí)任務(wù)組成的基準(zhǔn)，這些任務(wù)都在終端環(huán)境中執(zhí)行，每個(gè)任務(wù)運(yùn)行在獨(dú)立Docker容器內(nèi)。

　　2.0版本于2025年11月7日發(fā)布。

　　Claude Opus 4.6得分65.4%，GPT-5.3 Codex得分77.3%，OpenAI領(lǐng)先11.9個(gè)百分點(diǎn)。

　　在這個(gè)唯一相同的基準(zhǔn)里，GPT更勝一籌，而且是大勝，符合我對(duì)Codex系列的認(rèn)知。

　　然后是OSWorld，評(píng)估AI agent操作真實(shí)計(jì)算機(jī)的能力，人類基線為72.36%。

　　關(guān)鍵區(qū)別在于，Claude Opus 4.6報(bào)告的是原版OSWorld（72.7%），而 GPT-5.3 Codex報(bào)告的是OSWorld-Verified（64.7%）。

　　OSWorld-Verified于2025年7月28日發(fā)布，是一次全面重構(gòu)，修復(fù)了原版中300+已識(shí)別問題，包括失效 URL、反爬 CAPTCHA、不穩(wěn)定 HTML 結(jié)構(gòu)、含糊指令，以及過嚴(yán)/過松的評(píng)測(cè)腳本。

　　所以說，別看這個(gè)評(píng)測(cè)看著Claude更強(qiáng)，但是兩個(gè)分?jǐn)?shù)衡量的并不是同一件事。

　　OSWorld-Verified 提供了更嚴(yán)格、更可控的信號(hào)，也一般被認(rèn)為更難，所以嚴(yán)格意義上來說， GPT-5.3 Codex的 64.7% 甚至是要強(qiáng)于 Claude Opus 4.6的 72.7%的。

　　然后是GDPVal，這個(gè)事在美國GDP貢獻(xiàn)最大的9個(gè)行業(yè)中，覆蓋44種職業(yè)、1320個(gè)真實(shí)知識(shí)工作任務(wù)。

　　任務(wù)要求產(chǎn)出真實(shí)職業(yè)交付物，如文檔、表格、演示、圖表，平均相當(dāng)于7小時(shí)專家工作量。

　　可比性問題在這里最明顯。

　　GPT-5.3 Codex的“GDPval wins or ties: 70.9%”，使用的是 OpenAI 自己的方法，由職業(yè)人類評(píng)審盲評(píng) AI 產(chǎn)出與人類專家產(chǎn)出，判斷 AI 版本是否“與人類一樣好或更好”，分母是固定的人類標(biāo)準(zhǔn)。

　　Claude Opus 4.6的“GDPval-AA Elo: 1606”，這是獨(dú)立評(píng)測(cè)機(jī)構(gòu)Artificial Analysis的體系，使用其自有Stirrup agent框架（具備 shell 與網(wǎng)頁瀏覽能力）跑模型，再由Gemini 3 Pro做兩兩比較評(píng)判，最終用Bradley-Terry模型擬合Elo評(píng)分，并以GPT-5.1的1000 為錨點(diǎn)。

　　所以這個(gè)是太難換算了，我也不太清楚兩邊哪個(gè)更牛逼。。。

　　然后就是SWE-bench，SWE-bench測(cè)試AI是否能通過生成代碼補(bǔ)丁修復(fù)真實(shí) GitHub issue。

　　SWE-bench Verified（Claude Opus 4.6使用，80.8%）是500題、人工驗(yàn)證、僅Python的子集，由OpenAI Preparedness團(tuán)隊(duì)在2024年8月發(fā)布。

　　93位職業(yè)開發(fā)者驗(yàn)證了每道題都具備明確問題描述和公平單測(cè)，頂級(jí)模型已超過70%，該基準(zhǔn)接近飽和。

　　SWE-bench Pro Public（GPT-5.3 Codex 使用，56.8%）是731題、多語言基準(zhǔn)，由Scale AI創(chuàng)建。它覆蓋Python、Go、JavaScript、TypeScript等，橫跨41個(gè)倉庫。參考解平均107.4行、4.1個(gè)文件，明顯比 Verified常見的單文件補(bǔ)丁更復(fù)雜。

　　它還納入copyleft與專有代碼庫，專門降低數(shù)據(jù)污染風(fēng)險(xiǎn)。

　　所以說，Claude Opus 4.6在Verified的80.8%與GPT-5.3 codex在Pro Public的56.8%不能直接比較。

　　但說實(shí)話Pro明顯更難，發(fā)布時(shí)GPT-5和Claude Opus 4.1在Pro上都只有約23%，不到其Verified分?jǐn)?shù)的三分之一。

　　所以說，其實(shí)整體跑分上，雖然看著GPT-5.3 Codex的得分好像都低一點(diǎn)。

　　但是含金量更足，如果非要我說的話，結(jié)合著我過去的測(cè)試印象，單開發(fā)這一塊，可能會(huì)是GPT-5.3 Codex會(huì)更強(qiáng)更實(shí)用一點(diǎn)。

　　當(dāng)然，還有一個(gè)最關(guān)鍵的一點(diǎn)是，GPT...他不封號(hào)呀= =

　　然后跑分是一回事，能做什么是另一回事。

　　OpenAI在博客里展示了兩個(gè)用GPT-5.3 Codex做的游戲，一個(gè)賽車游戲和一個(gè)潛水游戲。

　　這兩個(gè)游戲都不只是那種我們隨處可見簡單的demo，而是完整的、可玩的游戲。

　　賽車游戲有不同的賽車、八張地圖、還有道具系統(tǒng)。

　　潛水游戲有不同的珊瑚礁可以探索、有氧氣和壓力管理系統(tǒng)、還有危險(xiǎn)要素。

　　關(guān)鍵是，這些游戲全都是GPT-5.3 Codex自己做的。

　　OpenAI說，他們?cè)贑odex產(chǎn)品了里，用這個(gè)模型和一個(gè)叫develop web game的Skills，加上一些通用的跟進(jìn)提示（比如"修復(fù)這個(gè)bug"或者"改進(jìn)這個(gè)游戲"），讓GPT-5.3 Codex在幾天的時(shí)間里，自主迭代了數(shù)百萬個(gè)token，最終做出了這些游戲。

　　說實(shí)話，有點(diǎn)牛逼的。

　　而且這次有一個(gè)很棒的更新點(diǎn)。

　　就是你可以在GPT-5.3 Codex工作的時(shí)候跟它互動(dòng)，可以隨時(shí)介入，隨時(shí)調(diào)整方向了。。。

　　終于不用先停止了，這個(gè)小能力還挺香的。

　　目前已經(jīng)在Codex上上線，我已經(jīng)開始用起來了。

　　而且直觀感受，在Codex上運(yùn)行GPT-5.3 codex真的快了非常非常多。

　　在博客里沒有這塊數(shù)據(jù)，不過奧特曼自己的X上寫出來了。

　　“完成相同任務(wù)所需的令牌數(shù)不到 5.2-Codex 的一半，且單令牌速度快 25% 以上！”

　　非常推薦大家下載個(gè)Codex試試，真的蠻好用的。

　　這篇稿子又寫了個(gè)通宵，基本上把我對(duì)這兩個(gè)模型的理解都寫進(jìn)去了，應(yīng)該沒啥漏的了，應(yīng)該是最全的一篇了。

　　至于實(shí)際測(cè)試，希望大家見諒，這么一點(diǎn)點(diǎn)時(shí)間實(shí)在測(cè)不出來，可能我得需要一整個(gè)周末的時(shí)候，正兒八經(jīng)的開發(fā)幾個(gè)產(chǎn)品，才能感受到明顯的差異。

　　不過有一點(diǎn)就是，現(xiàn)在的模型幾乎都是奔著Coding和Agent去的，所以這塊的提升基本都很明顯，跟手機(jī)一樣，用新不用舊。

　　直覺上我的工作流還是不太會(huì)變，Claude Opus 4.6 + Claude code打草稿，GPT-5.3 Codex + Codex進(jìn)行后續(xù)精準(zhǔn)開發(fā)。

　　最后。

　　今天真的是AI行業(yè)的大日子。

　　Anthropic發(fā)了Opus 4.6，OpenAI發(fā)了GPT-5.3 Codex。

　　兩家頭部AI公司在同一天放出大招，這在歷史上也是罕見的。

　　Anthropic發(fā)了Opus 4.6，OpenAI發(fā)了GPT-5.3 Codex和Frontier。兩家頭部AI公司在同一天放出大招，這在歷史上也是罕見的。

　　從模型能力上看，兩家都在快速進(jìn)步，差距在縮小。

　　從產(chǎn)品形態(tài)上看，兩家都在押注Agent，但側(cè)重點(diǎn)有所不同。

　　從行業(yè)影響上看，傳統(tǒng)SaaS公司開始感到壓力，軟件行業(yè)絕對(duì)正在經(jīng)歷一場(chǎng)從誕生以來最大的一次范式轉(zhuǎn)變。

　　我不知道一年后這個(gè)行業(yè)會(huì)變成什么樣。

　　但我知道，現(xiàn)在，絕對(duì)是一個(gè)需要密切關(guān)注、積極學(xué)習(xí)的時(shí)期。

　　錯(cuò)過這一波，可能就真的錯(cuò)過了。

　　如果你還沒用過Claude Code，沒用過Codex，現(xiàn)在是一個(gè)很好的開始時(shí)機(jī)。

　　畢竟，未來已經(jīng)來了。

　　只是，還沒均勻分布。

　　以上，既然看到這里了，如果覺得不錯(cuò)，隨手點(diǎn)個(gè)贊、在看、轉(zhuǎn)發(fā)三連吧，如果想第一時(shí)間收到推送，也可以給我個(gè)星標(biāo)?～謝謝你看我的文章，我們，下次再見。

　　>/ 作者：卡茲克

　　>/ 投稿或爆料，請(qǐng)聯(lián)系郵箱：wzglyay@virxact.com

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.