滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

GPT-5.2來了！首個「專家級」AI復仇成功，牛馬打工人終于得救了

時間：2025-12-12 17:31:31 來源：新智元編輯：快訊 IP：北京 發表評論無障礙通道

剛剛，OpenAI深夜炸場！

GPT-5.2震撼發布，全球AI王座再次易主。

一共3款模型，今日全部上線：

· GPT?5.2 Instant（即時版）

· GPT?5.2 Thinking（思考版）

· GPT?5.2 Pro（專業版）

作為地表最強通用模型，GPT-5.2專為解決那些讓人頭禿的「高難度知識型工作」而生。

在OpenAI公布的基準測試中，它幾乎對Gemini 3 Pro實現了全方位碾壓！

相比上一代，GPT-5.2在通用智能、超長文本理解、Agent工具調用以及視覺能力上，都實現了無死角的全面進化：

SWE-Bench Pro：狂砍55.6%高分；

LMArena代碼競技場：僅次于Claude Opus 4.5，穩坐全球第二把交椅；

ARC-AGI-2：GPT-5.2 Pro以52.9%的絕對優勢登頂全球第一；

GDPval：覆蓋44種職業知識，表現直接超越人類行業專家。

一句話總結：讓它從頭到尾（端到端）搞定復雜的現實世界任務，目前沒有任何模型比它更強。

除了更強的能力之外，GPT-5.2還有更長的上下文，以及更新的知識！

40萬上下文窗口：輕松吞吐超長文本與復雜對話；

12.8萬最大輸出長度：深度長文生成不再中斷；

知識庫更新至2025年8月31日：掌握最新世界動態；

推理Token支持：專攻復雜邏輯與多步推理。

當然，在性能狂飆的同時，價格也是水漲船高。

相比GPT-5/5.1，GPT-5.2的輸入輸出價格貴了整整40%！

更強的推理、更快的速度，以及更高的價格，這一切似乎都在暗示——

OpenAI這次不僅升級了模型規模，背后的算力成本恐怕也達到了新的量級。

這一次，那叫一個專業！

一個月前，GPT-5.1以「情商智商雙高」的姿態登場，就迎面撞上了谷歌Gemini 3這個強勁對手。

此次更新正值媒體報道OpenAI內部進入「紅色代碼」緊急狀態。

但OpenAI高管向媒體表示，不應將GPT-5.2視為對Gemini 3的回應。OpenAI應用CEO對記者說：

我們宣布進入「紅色代碼」緊急狀態是為了向內部發出一個信號，我們想要集中力量辦大事，這是一個確定優先事項和非優先事項的好辦法。

總的來說，我們用于開發ChatGPT的資源增加了，我認為這有助于該模型的發布，但并不是它在這周發布的唯一原因。

這一次，GPT-5.2主打一個專業知識型AI，正所謂「打工人的最佳工作模型」。

OpenAI華人研究員Yu Bai稱，「別看這只是一個小版本數迭代，那可是能力的一大躍升」。

那些人類專家耗費4-8小時完成的任務，在人類評估中，GPT-5.2的勝率高達70.9%。

GPT?5.2不負眾望，在多項實際任務中表現得都更加出色——

創建電子表格、制作演示文稿、編寫代碼、感知圖像、理解長上下文、使用工具、處理復雜的多步驟項目。

此前OpenAI的一份報告稱，ChatGPT每天能為企業用戶平均節省40–60分鐘，而重度用戶則表示每周能省下超過10小時。

擴展閱讀：OpenAI最新報告曝光！前5%精英效率暴漲16倍，普通人卻被悄悄淘汰

總之，AI搞定「專業工作」才是硬道理！

擊敗人類專家，打工人狂喜

目前，GPT?5.2 Thinking是用于現實世界專業用途的最佳模型。

在GDPval上，GPT?5.2 Thinking創下了新的SOTA，并且是歷史第一個表現超過人類專家水平的模型。

根據人類專家的評判，GPT?5.2 Thinking在GDPval知識工作任務中，70.9%的情況下擊敗或打平了頂尖行業專業人士。

在完成GDPval任務時，其速度比專家專業人士還要快11倍，成本還低于1%。

這表明，當與人類監督相結合時，GPT?5.2可以有效輔助完成專業工作。

換句話說，無論是幫會計整理財報，替產品經理做PPT，還是給程序員當輔助寫碼的小助手，GPT-5.2都更得心應手。

在GDPval中，模型需要完成涵蓋美國GDP貢獻最大的前9個行業的44種職業的定義明確的工作。任務要求提供實際的工作成果，例如銷售演示文稿、會計電子表格、緊急護理時間表、制造圖表或短視頻

在ChatGPT中，GPT?5.2 Thinking擁有GPT?5 Thinking所沒有的新工具。

在針對初級投資銀行分析師電子表格建模的內部測試中，GPT-5.2 Thinking的平均每任務得分比GPT?5.1高出9.3%，從59.1%上升到68.4%。

并排比較顯示，GPT?5.2 Thinking生成的電子表格和PPT在復雜度和格式上都有所改進。

如下所示，一眼望去這種高難度的復雜表，GPT?5.2 Thinking一句話生成，堪稱「人力資源規劃器」。

包括股權結構表，GPT-5.2 Thinking以資深銀行分析師的角色，完成了所有計算，且過程清晰可查。

而GPT-5.1 Thinking不僅錯誤地計算了種子輪、A輪和B輪的清算優先權，且大部分行都留白了，導致最終的股權回報計算出錯；而且還錯誤地在表頭行中插入了計算公式。

針對項目管理，GPT-5.2 Thinking以每項任務、時間為軸，給出了可視化直觀的總結。

相較之下，GPT-5.1 Thinking看著特別粗糙。

編程破紀錄，吞噬全棧開發

當然了，在編程上，GPT-5.2也是王者中的王者！

在對現實世界軟件工程基準SWE-Bench Pro上，GPT?5.2 Thinking創下了55.6%的新紀錄。

與僅測試Python的SWE-bench Verified不同，SWE-Bench Pro測試四種編程語言，具有更強的抗數據污染能力（contamination-resistant），并更具挑戰性、多樣性和工業相關性。

在SWE-Bench Pro中，模型會被給予一個代碼庫，并且必須生成一個補丁來解決一個現實的軟件工程任務

在SWE-bench Verified上，GPT?5.2 Thinking拿下了80%的高分。

這意味著，它可以更可靠地調試生產環境代碼、實現功能請求、重構大型代碼庫，并以更少的人工干預端到端地發布修復。

在前端軟件工程方面，GPT?5.2 Thinking也優于GPT?5.1 Thinking。

早期測試者發現，它是全棧工程師的強大日常伙伴，在前端開發和復雜或非常規UI工作（特別是涉及3D元素的工作）方面明顯更強。

接下來就讓我們看看，僅憑一段提示詞，GPT?5.2都能做出些什么來：

海浪模擬

幻覺少，更清醒

GPT?5.2 Thinking比GPT?5.1 Thinking的幻覺更少。

在一組去標識化的ChatGPT查詢中，前者包含錯誤的回答相對減少了30%。

對于專業人士來說，這意味著在使用新模型進行研究、寫作、分析和決策支持時錯誤更少，在日常知識工作中更加可靠。

數十萬token極限挑戰，準確率100%

在長上下文推理方面，GPT?5.2 Thinking樹立了新的行業標準。

在OpenAI MRCRv2上，新模型取得了領先的性能，基準OpenAI MRCRv2用于測試模型整合分布在長文檔中信息。

諸如深度文檔分析之類的現實世界任務，需要跨越數十萬個Token的相關信息，而在這類任務上，GPT?5.2 Thinking 比GPT?5.1 Thinking準確得多。

特別是，它是OpenAI的第一個在4種MRCR變體（高達256kToken）上達到接近100%準確率的模型。

實際上，這足以讓專業人士用GPT?5.2處理長文檔，如報告、合同、研究論文、成績單和多文件項目，而且同時在數十萬個Token之間保持連貫性和準確性。

也就是說，GPT?5.2特別適合深度分析、綜合和復雜的多源工作流。

針對超出最大上下文窗口思考的任務，GPT?5.2 Thinking兼容OpenAI新的Responses「/compact」端點，這擴展了模型的有效上下文窗口。

這讓GPT?5.2Thinking可以處理原本受限于上下文長度的更多工具密集型、長期運行的工作流。

視覺實力翻倍，秒懂復雜圖

GPT?5.2 Thinking是OpenAI目前最強的視覺模型，在圖表推理和軟件界面理解方面的錯誤率大約減少了一半。

對于日常專業使用，這意味著該模型可以更準確地解讀儀表板、產品截圖、技術圖表和視覺報告，可支持金融、運營、工程、設計和客戶支持等以視覺信息為核心的工作流。

與以前的模型相比，GPT?5.2 Thinking對圖像中元素的位置有更強的掌握，這有助于完成相對布局對解決問題起關鍵作用的任務。

在下面的示例中，模型被要求識別圖像輸入中的組件（在本例中為主板）并返回帶有大致邊界框的標簽。

即使在低質量圖像上，GPT?5.2也能識別主要區域并放置與每個組件的真實位置大致匹配的框，而GPT?5.1僅標記了幾個部分，并且對其空間排列的理解要弱得多。

端到端工作流，重塑了

GPT?5.2 Thinking展示了其在長多輪任務中可靠使用工具的能力，在Tau2-bench Telecom上創造了98.7%的新紀錄。

對于延遲敏感的用例，GPT?5.2 Thinking在reasoning.effort='none'（無推理）下的表現也更好，大幅優于GPT?5.1和GPT?4.1。

對于專業人士來說，這轉化為更強的端到端工作流——例如解決客戶支持案例、從多個系統中提取數據、運行分析以及生成最終輸出，且步驟之間的中斷更少。

比如，當詢問一個需要多步解決的復雜客戶服務問題時，GPT-5.2可以更有效地協調多個智能體之間的完整工作流。

在下面的案例中，一位旅客報告了航班延誤、錯失轉機、需要在紐約過夜以及醫療座位要求。

GPT?5.2管理了整個任務鏈——重新預訂、特殊協助座位和賠償，提供了比GPT?5.1更完整的結果。

Prompt：我的航班從巴黎到紐約延誤了，我錯過了去奧斯汀的轉機。我的托運行李也不見了，我需要在紐約過夜。由于醫療原因，我還需要一個特殊的前排座位。你能幫我嗎？

獨立完成證明，顛覆科研范式

OpenAI的愿景之一是AI加速科學研究，造福所有人。

為此，OpenAI一直與科學家合作并聽取他們的意見，探索AI如何加速他們的工作，已經取得了一些早期的合作實驗。

鏈接：https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf

而GPT?5.2 Pro和GPT?5.2 Thinking堪稱世界上輔助和加速科學家工作的最佳模型。

在研究生水平基準測試GPQA Diamond上，GPT?5.2 Pro達到了93.2%，緊隨其后的是GPT?5.2 Thinking，為92.4%。

在專家級數學評估FrontierMath(Tier 1–3)上，GPT?5.2 Thinking創下了新紀錄，解決了40.3%的問題。

我們開始看到AI模型以切實的方式有意義地加速數學和科學的進步。

例如，在最近使用GPT?5.2 Pro的工作中，研究人員探索了統計學習理論中的一個開放性問題。

這一成果已記錄在新論文《關于最大似然估計量的學習曲線單調性》（On Learning-Curve Monotonicity for Maximum Likelihood Estimators）中。

論文地址：https://cdn.openai.com/pdf/a3f3f76c-98bd-47a5-888f-c52c932a8942/colt-monotonicity-problem.pdf

這篇論文的特別之處在于，AI完成了證明，而人類負責驗證和寫作。

作者并沒有先想好策略再讓模型去填空，也沒有提供中間論點或證明大綱。相反，他們要求GPT-5.2 Pro直接去解決這個開放性問題，然后由人類進行仔細的驗證，包括由外部學科專家進行的審查和確認。

隨后，作者還問了一些簡單的后續問題，看看這個思路能延伸多遠。GPT-5.2 Pro將結果從原始問題擴展到了更高維度的設置以及其他常見的統計模型。

在這個過程中，人類的角色始終聚焦在驗證和清晰的寫作上，而不是負責搭建數學推導的框架。

推理AI涌現出流體智能

在衡量通用推理能力的基準測試ARC-AGI-1（Verified）上，GPT?5.2 Pro是第一個跨越90%門檻的模型。

相比去年o3?preview的87%，GPT?5.2還將實現這一性能的成本降低了約390倍。

在更難的ARC-AGI-2（Verified）上，GPT?5.2 Thinking創下了思維鏈模型的新紀錄，得分52.9%。

GPT?5.2 Pro表現更高，達到54.2%，進一步擴展了模型推理新穎、抽象問題的能力。

這些評估的改進反映了GPT?5.2在復雜技術任務上更強的多步推理能力、更高的定量準確性和更可靠的問題解決能力。

進步之快，讓主辦方驚訝，感嘆推理AI已展示出真正的「流體智力」。

生物醫學工程師及科學家、免疫學家Derya教授驚呼，這就是AGI！

OpenAI不僅發布了多項基準測試分數，還引用了Box、Notion、Windsurf和Zoom等早期測試方的評價。

GPT?5.2全家桶，三大殺手級AI

總的來說，在日常使用中，GPT?5.2給人的感受——更有條理，更可靠，與之交談很愉快。

那么，「全家桶」中三款模型，分別具備怎樣的特點？

GPT?5.2 Instant：專為日常辦公和學習而打造

它就像是全能辦公助理，不僅繼承了GPT-5.1自然溫暖的對話風格，更在速度、實用性上全面升級。

因此，Instant版是日常工作和學習的快速、能干的「主力軍」，具體來說：

更清晰的解釋，突出顯示關鍵信息

改進了操作指南和逐步指導

更強的技術寫作和翻譯能力

更好的學習和職業指導支持

GPT?5.2 Thinking ：專為更深度的工作而設計

GPT?5.2 Thinking就像是深度思考時的「第二大腦」，專為解決那些需要長思考的復雜任務而生。

尤其是，專業攻堅編程、總結長文檔、回答關于上傳文件的問題，還能一步步搞定燒腦數學和邏輯問題。

同時，以更清晰的結構和更有用的細節支持規劃和決策。

業界領先的長上下文推理能力

表格創建、分析、格式化方面有顯著增強

在PPT制作上已有初步成果

GPT-5.2 Pro

當遇到棘手、高難度的問題時，GPT-5.2 Pro是最聰明、最值得信賴的模型。

可以說，它就是那種「慢工出細活」的頂級專家。

早期測試已經發現，它處理起來主要錯誤更少，尤其在編程這類復雜挑戰中，展現出的能力也明顯更強。

在編程等復雜領域表現更強

是幫助科學家加速研究的最佳模型

性價比更高

付費ChatGPT用戶從今天開始優先使用GPT?5.2（Instant、Thinking和Pro），Plus、Pro、Go、Business、Enterprise任意套餐即可。

為了盡可能保持ChatGPT的流暢和可靠，OpenAI決定逐步部署GPT?5.2。

在ChatGPT中，GPT?5.1仍將在舊版模型下供付費用戶使用三個月，之后將被停用。

在API平臺中，GPT?5.2系列新模型可以在Responses API和Chat Completions API中以上圖對應形式使用。

開發者現在可以在GPT?5.2 Pro中設置推理參數，并且GPT?5.2 Pro和GPT?5.2 Thinking現在都支持新的第五種推理強度xhigh，用于質量最重要的任務。

GPT?5.2的定價為1.75美元/百萬輸入Token，14美元/百萬輸出Token，緩存輸入有90%的折扣。

在多個智能體評估中，盡管GPT?5.2的每Token成本更高，但GPT?5.2由于更高的Token效率，性價比反而更高。

One More Thing

今天，OpenAI還搞了一波回憶殺，帶大家回顧了這十年走的路。

十年前的今天，2015年12月11日，OpenAI正式成立。

這十年，他們取得了太多太多突破性的成就——

2016年，開源強化學習平臺OpenAI Gym，成為學界、工業界RL研究的基礎工具；

2017年，發表了Transformer核心理念的先驅研究：Learning to Remember Rare Events；

2018年，預訓練語言模型GPT誕生，標志著大模型革命的開始；

2019年，1.5B參數GPT-2出世，自然語言爆發式迭代；

2020年，175B參數GPT-3引爆全網，超大規模模型時代來臨；

2021年，Codex & DALL·E相繼發布，代碼與圖像生成開啟；

2022年，ChatGPT（GPT-3.5）真正引爆了全世界大模型革命，再之后的大事記大家都知道了。

奧特曼表示，「過去的十年非常精彩，OpenAI的工作比我想象的還要特別」。

更多>同類資訊

迪士尼向OpenAI投資10億美元，并允許Sora使用米老鼠等IP

12-12

OpenAI：ChatGPT「成人模式」預計 2026 年第一季度上線

12-12

Meta版「甄嬛傳」，28歲天才上位，掌管6千億命脈，AI教父憤然出走

12-12

蘋果 AI 眼鏡深度爆料匯總：重量低至 40g，2026 發布，

12-12

機構：Q3全球拍攝眼鏡出貨量299.4萬臺，同比增長287.5%

12-12

OpenAI 奧特曼：谷歌 Gemini 3未達預期威脅，明年1月解除 “紅色警報”

12-12

電商進入效率競爭時代，千川能否成為商家的降本增收解法？

12-12

村支書網上賣谷物小米，被小米法務以「關聯雷氏營銷」「丑化小米高管形象」為由投訴下架視頻

12-12

《時代》周刊年度人物授予「AI構建者」：馬斯克、黃仁勛、蘇姿豐、李飛飛等在列

12-12

抖音李亮辟謠「紅樓夢悼明說」等話題：拒絕盲目跟風

12-12

《時代》周刊2025年度人物揭曉包括李飛飛黃仁勛馬斯克等7名AI人物

12-12

OpenAI：ChatGPT“成人模式”預計2026年第一季度上線

12-12

小米汽車“現車選購”新增準新車上架：因運輸等問題修復的原廠新車

12-12

小米開售準新車！雷軍：都是經過官方修復及附加檢驗放心買

12-12

抖音就全資成立新公司被傳布局充電樁作出回應

12-12

點擊查看更多 +

全站最新

新能源售后滿意度逆襲傳統燃油車汽車服務競爭重心加速遷移

智能座艙生態困局：硬件碎片化、適配成本高，如何破局重構體驗？

縱橫G700憑全場景實力出圈，續航、舒適、通信全滿足，成穿越新寵

GDPS 2025探秘：從插花到救援，具身智能機器人應用加速落地

機器人ETF易方達盤中吸金力強獲1700萬份凈申購產業前景受關注

麥克斯韋國際北京設金融創新基地創始人馬鑫將捐百所圖書館助公益

熱門內容

本欄最新

新能源售后滿意度逆襲傳統燃油車汽車服務競爭重心加速遷移

智能座艙生態困局：硬件碎片化、適配成本高，如何破局重構體驗？

縱橫G700憑全場景實力出圈，續航、舒適、通信全滿足，成穿越新寵

GDPS 2025探秘：從插花到救援，具身智能機器人應用加速落地

機器人ETF易方達盤中吸金力強獲1700萬份凈申購產業前景受關注

馬斯克放狠話引關注，特斯拉與Waymo自動駕駛競賽誰能稱雄？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

GPT-5.2來了！首個「專家級」AI復仇成功，牛馬打工人終于得救了

日本精品一区二区三区高清久久