OpenAI正式推出專為長(zhǎng)時(shí)間編碼任務(wù)設(shè)計(jì)的全新Agentic模型——GPT?5.1-Codex-Max。這款模型通過創(chuàng)新的“壓縮技術(shù)”突破了傳統(tǒng)上下文窗口限制,能夠在單次任務(wù)中穩(wěn)定處理百萬量級(jí)的Token,同時(shí)實(shí)現(xiàn)更高效的資源利用率。相較于前代產(chǎn)品,新模型在性能與速度方面均取得顯著提升,尤其適合需要持續(xù)運(yùn)行的復(fù)雜開發(fā)場(chǎng)景。
在訓(xùn)練階段,研發(fā)團(tuán)隊(duì)引入了真實(shí)軟件工程任務(wù)數(shù)據(jù),涵蓋代碼評(píng)審、前端開發(fā)、問題解答及PR創(chuàng)建等核心環(huán)節(jié)。測(cè)試結(jié)果顯示,該模型在多項(xiàng)權(quán)威編程評(píng)測(cè)中表現(xiàn)優(yōu)異:SWE-Bench Verified(500樣本)得分達(dá)77.9%,SWE-Lancer IC SWE測(cè)評(píng)取得79.9%,TerminalBench 2.0測(cè)評(píng)成績(jī)?yōu)?8.1%,三項(xiàng)指標(biāo)均超越前代模型。針對(duì)Windows開發(fā)環(huán)境,團(tuán)隊(duì)進(jìn)行了專項(xiàng)優(yōu)化,使模型在跨平臺(tái)支持方面更具競(jìng)爭(zhēng)力。
針對(duì)長(zhǎng)時(shí)間運(yùn)行任務(wù),GPT?5.1-Codex-Max展現(xiàn)出獨(dú)特優(yōu)勢(shì)。傳統(tǒng)模型常因上下文窗口限制導(dǎo)致任務(wù)中斷,而新模型可在接近窗口容量時(shí)自動(dòng)壓縮會(huì)話內(nèi)容,實(shí)現(xiàn)自主運(yùn)行數(shù)小時(shí)甚至超過24小時(shí)。內(nèi)部測(cè)試表明,在復(fù)雜代碼重構(gòu)和持續(xù)agent循環(huán)場(chǎng)景中,該模型能保持穩(wěn)定輸出,有效解決開發(fā)過程中的上下文丟失問題。
推理效率的提升進(jìn)一步增強(qiáng)了模型實(shí)用性。在SWE-Bench Verified測(cè)試中,新模型完成相同任務(wù)所需的思考Token減少30%,通過“Extra High(xhigh)”模式可針對(duì)復(fù)雜邏輯投入更深度分析。這種優(yōu)化不僅降低了計(jì)算成本,還顯著提升了代碼生成的準(zhǔn)確性,尤其適合處理需要多步驟推理的編程任務(wù)。
目前,該模型已集成至Codex CLI、IDE擴(kuò)展、云端服務(wù)及代碼評(píng)審系統(tǒng),面向ChatGPT高級(jí)訂閱用戶開放使用,涵蓋Plus、Pro、Business、Edu及Enterprise全層級(jí)。OpenAI計(jì)劃近期通過API向開發(fā)者提供服務(wù),并逐步將其設(shè)為Codex平臺(tái)的默認(rèn)模型。此次升級(jí)標(biāo)志著Agentic編碼工具向工業(yè)化應(yīng)用邁出重要一步,為大規(guī)模軟件開發(fā)提供更可靠的自動(dòng)化支持。











