滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

GPT-5.2性能爆表，但紅色警報沒有解除

時間：2025-12-12 17:42:59 來源：直面AI編輯：快訊 IP：北京 發表評論無障礙通道

就在剛剛，ChatGPT-5.2發布了。

這是OpenAI成立以來，首次發布紅色警報（Code Red）后的第一款產品。

雖然在時間上，GPT-5.2只跟5.1相隔了一個月。但是從公布的性能數據來看，GPT-5.2較上一代提升巨大，而且遠超谷歌和Anthropic的同期產品。

然而OpenAI的紅色警報并未因此解除，這家公司仍處于危機之中。

究其原因，現在的市場已經逐漸開始對OpenAI祛魅，而是更冷靜地審視每一分算力背后的投入產出比。在這種前所未有的環境之下，OpenAI不僅需要證明自己是最強的，還需要證明自己不可被替代。

01

首先要說的，就是GPT-5.2的數學能力。

長期以來，業界普遍認為大語言模型雖然能寫代碼、能聊天，但在嚴格的數學推理上總是差強人意。這次GPT-5.2 Thinking在AIME 2025數學競賽中拿到了100%的滿分。

AIME是美國數學邀請賽，題目難度遠超普通高中數學，需要扎實的數學功底和靈活的解題思路。GPT-5.2能在這樣的測試中全部答對，說明它在數學推理上已經達到了相當高的水平。

在更高難度的FrontierMath測試中，GPT-5.2 Thinking解決了40.3%的專家級數學難題。這個測試專門針對前沿數學研究設計，許多題目連專業數學家都需要花費大量時間思考。能解決其中40%的問題，已經展現出在輔助科學研究方面的潛力。

除了推理和數學，GPT-5.2在專業工作領域也表現突出。

在OpenAI新推出的GDPval基準測試中，GPT-5.2 Thinking在涵蓋44種職業的知識工作任務上，有70.9%的情況下擊敗或打平了頂尖行業專家。

這些任務包括制作演示文稿、構建復雜的財務模型、撰寫專業文檔等。OpenAI表示，它完成這些任務的速度是人類專家的11倍以上，成本卻不到1%。

在軟件工程方面，GPT-5.2 Thinking在SWE-Bench Pro上達到55.6%的準確率，在SWE-bench Verified上達到80%。這些測試評估的是模型在真實代碼庫中修復bug、實現新功能的能力。

早期測試者反饋，它在前端開發和復雜UI實現上尤其出色，甚至能夠根據一條提示就生成包含3D效果和物理模擬的完整應用。

GPT-5.2在長文檔理解上也有明顯進步。在OpenAI的MRCRv2測試中，它成為首個在256k token長度下，針對4-needle變體任務達到近乎100%準確率的模型。

這意味著用戶可以上傳數百頁的報告、合同或研究論文，模型仍能準確理解分散在不同位置的相關信息，并進行綜合分析。

在視覺理解方面，GPT-5.2的錯誤率在圖表推理和軟件界面理解任務上幾乎減半。它對圖像中物體的空間位置有了更準確的把握。

OpenAI展示了一個例子：即使輸入一張模糊的主板照片，GPT-5.2也能準確識別出各個組件的位置并標注邊界框，而前代模型只能識別出少數部分且位置偏差較大。

此次發布包含三個版本。GPT-5.2 Instant定位為日常工作的快速助手，適合信息查詢、技術寫作和翻譯等任務。GPT-5.2 Thinking專注于深度推理，在編程、數據分析和復雜文檔處理上表現最佳，是專業工作的首選。GPT-5.2 Pro則是最智能的版本，適合那些"值得等待高質量答案"的高難度問題。

同時這次發布最引人注目的，不僅是模型本身的能力提升，更是一個令人驚訝的效率數據：在ARC-AGI-1測試中，GPT-5.2 Pro實現了約390倍的效率改進。

一年前，OpenAI曾驗證過一個未發布的o3預覽版本，在ARC-AGI-1測試中達到88%的準確率，但每個任務的成本約為4500美元。如今，GPT-5.2 Pro不僅將準確率提升至90.5%，還將單任務成本降至11.64美元。這種量級的效率提升，意味著原本只能在實驗室中演示的能力，現在有可能真正走向實際應用。

ARC-AGI測試被設計用來衡量抽象推理能力，它要求模型在面對從未見過的模式時，仍能找出規律并給出答案。這種能力接近人類所謂的“舉一反三”。

GPT-5.2 Pro在ARC-AGI-1驗證集上的表現，使其成為首個突破90%門檻的模型。在難度更高的ARC-AGI-2上，GPT-5.2 Thinking也達到了52.9%的準確率，創下了鏈式思維模型的新紀錄。

02

GPT-5.2是奧特曼啟動Code Red后的一次強有力證明，但競爭的結果不會由單一基準測試決定。真正的較量在于誰能更好地理解用戶需求，誰能在保持技術領先的同時控制成本，誰能在不同應用場景中提供更可靠的服務。

一個來自GitHub的開源基準測試給出了答案。在lechmazur維護的NYT Connections測試中，GPT-5.2的表現并不如預期。

NYT Connections是《紐約時報》推出的一個文字游戲，要求玩家從16個詞語中找出四組相關的詞匯。這個測試被設計成了一個LLM基準，通過加入額外的干擾詞來增加難度，目前包含759個謎題。這種測試考察的是模型對語言的細微理解、聯想能力和分類推理。

在這個排行榜上，Gemini 3 Pro Preview以96.8%的準確率位居第一。緊隨其后的是xAI的Grok 4.1 Fast Reasoning，準確率為93.5%。OpenAI的模型中，表現最好的是GPT-5 Pro，準確率為83.9%，排在第八位。GPT-5.2在高推理模式下的準確率為77.9%，排名第11位。

這個結果多少有些出人意料。GPT-5.2在數學競賽中能拿滿分，在專業工作任務中能超越人類專家，但在這個看似簡單的文字游戲上，卻落后于競爭對手近20個百分點。

深入分析會發現，這并不是簡單的性能問題。NYT Connections測試的是模型對語言文化背景的理解，對詞語之間隱含關聯的把握，以及在多個可能性中做出合理選擇的能力。

比如BANK、INTEREST、RATE、LOAN可能組成金融類別，也可能BANK與SHORE、BEACH、COAST組成河岸類別。

模型需要同時考慮多個維度的關聯，并找到最合理的分組方式。

Gemini 3 Pro在這個測試上的領先，說明谷歌在語言理解的某些維度上確實有獨到之處。Grok系列模型的表現也值得注意，xAI雖然起步較晚，但在特定任務上已經展現出競爭力。

有趣的是，測試數據還顯示，在最新的100個謎題中，各模型的排名基本保持一致，這說明訓練數據污染的可能性不大。模型之間的差距是實質性的，而非來自對題目的記憶。

這個測試的存在，給AI社區提供了一個更全面的視角。模型能力的評估不應該只看幾個主流基準測試，也需要關注那些看似邊緣但實則反映深層能力的測試。

NYT Connections考察的聯想和分類能力，在實際應用中同樣重要，比如在信息檢索、內容推薦、知識圖譜構建等場景中。

從這個角度看，奧特曼的Code Red警報確實還不能解除。雖然GPT-5.2在很多領域表現出色，但它并沒有在所有維度上都取得領先。競爭對手在某些方向上依然保持著優勢，甚至在擴大差距。

03

技術競爭最終要落到商業層面。OpenAI在市場上的處境，比技術指標的對比要復雜得多。

從定價策略來看，GPT-5.2在API層面的價格定在每百萬輸入token 1.75美元，每百萬輸出token 14美元，比前代GPT-5.1分別貴了40%。

GPT-5.2 Pro價格也提高了，每百萬輸入token 21美元，每百萬輸出token 168美元。

這個漲價幅度不小，OpenAI的解釋是新模型能力更強，性價比實際上更高。但對于大量調用API的開發者來說，成本的增加是實實在在的。

相較之下，Gemini 3 Pro的核心型號為gemini-3-pro-preview，其token定價按上下文窗口長度區分，提示詞≤20 萬 token 時，輸入每百萬token 2美元、輸出每百萬token 12美元，提示詞＞20萬token時，輸入和輸出價格分別翻倍至每百萬token 4美元和18美元。

Claude 方面，最新的 Opus 4.5定價大幅下調，輸入每百萬token 5美元、輸出每百萬token 25美元，相比前代降幅約2/3，上下文窗口為200K token，且無長上下文加價情況。

當競爭對手們如Gemini和Claude都在通過大幅降價，試圖讓AI變成像水電一樣廉價的基礎設施時，OpenAI 卻反其道而行之，不僅沒有參與價格戰，反而坦然地掛出了高昂的價格標簽。這只能說明一件事：奧特曼正在試圖把 GPT 變成一件“奢侈品”。

在商業邏輯中，奢侈品的定義往往不在于“有用”，而在于“稀缺”和“極致”。OpenAI 正在賭，賭這個世界上存在一部分最高端的智力需求，它們對價格不敏感，但對質量有著近乎偏執的要求。

對于這部分用戶，只要能提供那個唯一的、最正確的答案，168美元的價格不僅不貴，反而是一種身份和能力的篩選。

這或許才是“紅色警報”在商業層面的真正回響。它不再是擔心落后，而是擔心平庸。

OpenAI正在進行一場危險的博弈：它試圖通過高價策略，將自己與“普通 AI”徹底區隔開來，建立起類似愛馬仕或蘋果那樣的品牌護城河。

但這也意味著，它從此失去了“差不多就行”的容錯空間。可問題就在于一旦這件昂貴的“奢侈品”在實際體驗中無法提供碾壓式的優越感，那么用戶轉身離開的速度。

況且，能挽救OpenAI的遠不止一個高性能的模型那么簡單，奧特曼現在需要的，是一個足夠動人的新故事。

更多>同類資訊

OpenAI：ChatGPT“成人模式”預計2026年第一季度上線

12-12

紐約時報：OpenAI喪失技術優勢

12-12

Epic與谷歌休戰，《堡壘之夜》重返谷歌Play商店

12-12

小米、格力、美的等廠商簽自律公約：推進空調鋁代銅

12-12

馬斯克為何變卦押注SpaceX上市？

12-12

抖音就全資成立新公司被傳布局充電樁作出回應

12-12

張雪峰復播：宣布和過去劃清界限再說臟話加倍處罰

12-12

小米汽車“現車選購”增準新車上架：修復的原廠新車

12-12

傳京東正在招募端側AI芯片領域人才月薪達40K-100K

12-12

韓媒：京東方董事長將親訪三星討論LCD與OLED供應量

12-12

李楠稱GPT發布后羅永浩產品定義變對了

12-12

反詐重要工具！抖音宣布官方外呼服務熱線統一為95152

12-12

小米汽車「現車選購」新增準新車上架開售

12-12

小米開售準新車，雷軍否認發明新詞：只是沿用同行名字

12-12

迪士尼向谷歌發律師函：AI模型存在大規模版權侵權行為

12-12

點擊查看更多 +

全站最新

新能源售后滿意度逆襲傳統燃油車汽車服務競爭重心加速遷移

智能座艙生態困局：硬件碎片化、適配成本高，如何破局重構體驗？

縱橫G700憑全場景實力出圈，續航、舒適、通信全滿足，成穿越新寵

GDPS 2025探秘：從插花到救援，具身智能機器人應用加速落地

機器人ETF易方達盤中吸金力強獲1700萬份凈申購產業前景受關注

麥克斯韋國際北京設金融創新基地創始人馬鑫將捐百所圖書館助公益

熱門內容

本欄最新

新能源售后滿意度逆襲傳統燃油車汽車服務競爭重心加速遷移

智能座艙生態困局：硬件碎片化、適配成本高，如何破局重構體驗？

縱橫G700憑全場景實力出圈，續航、舒適、通信全滿足，成穿越新寵

GDPS 2025探秘：從插花到救援，具身智能機器人應用加速落地

機器人ETF易方達盤中吸金力強獲1700萬份凈申購產業前景受關注

馬斯克放狠話引關注，特斯拉與Waymo自動駕駛競賽誰能稱雄？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

GPT-5.2性能爆表，但紅色警報沒有解除

日本精品一区二区三区高清久久