欧美一区二区三区四区夜夜大片,色一情一乱一伦一区二区三区丨,波多野结衣中文字幕一区二区三区

新智元報道

編輯：桃子 KingHZ

年終AI大戲，OpenAI敗給了谷歌？GPT-5.2上線48小時，全網(wǎng)吐槽一大片。第三方數(shù)據(jù)實證，Gemini 3 Pro才是真正的王者。

OpenAI打出了GPT-5.2這張「年度王牌」，卻沒有打贏谷歌...

Epoch AI最新報告，GPT-5.2的能力指數(shù)（ECI）得分152，僅次于Gemini 3 Pro。

在多項基準測試中，GPT-5.2的實力并沒有「全線霸榜」。

在由陶哲軒聯(lián)手百位數(shù)學(xué)家出的考題——FrontierMath中，GPT-5.2僅在T1-3級中霸榜，T4還是Gemini 3的高地。

另外，在國際象棋Chess Puzzles中，GPT-5.2拿下了第一的成績。

唯一例外的是，在SimpleQA Verified上，GPT-5.2都不及GPT-5.1，意味著迭代后的可信度更差了。

不僅如此，多個第三方基準評測顯示，GPT-5.2遠不及預(yù)期，沒有打敗Gemini 3。

包括OCR-Arena、simple-bench、Live-Bench上，GPT-5.2甚至都排在了Claude Opus 4.5之后。

發(fā)布僅兩天，GPT-5.2水花不大，反而圈子里開發(fā)者吐槽的不少。

為了打贏這場硬仗，OpenAI拉響「紅色警報」，把改進ChatGPT事項提到了優(yōu)先級。

更極端的是，內(nèi)部直接停掉了AGI的研發(fā)，Sora也暫停了八周，顯然擺出了破釜沉舟的姿態(tài)。

可是呢，在業(yè)界來看，OpenAI至今仍未擺脫被動的局面。

GPT-5重度用戶站出來發(fā)聲，「GPT-5.2距離成為一塊石頭也不遠了」。

年終之戰(zhàn)，OpenAI敗了？

三年前，谷歌因錯失先機，被OpenAI ChatGPT搶盡了風頭。

昨天，谷歌創(chuàng)始人謝爾蓋·布林重返斯坦福演講，現(xiàn)場公開承認曾經(jīng)的「最大失誤」：

我們搞砸了——太怕AI說錯話，結(jié)果輸?shù)粢粋€時代。

自動播放

如今，憑借Gemini 3 Pro+Nano Banana Pro，谷歌已重回AI浪潮之巔。

風水輪流轉(zhuǎn)。這一次，輪到了OpenAI，卻在2025年這場關(guān)鍵戰(zhàn)役中自亂陣腳。

上線首日，奧特曼激動宣稱，API調(diào)用量就超過了萬億token，且增長速度極快

此前Information爆料，GPT-5.2，代號大蒜（Garlic），原計劃在明年初亮相。

整個硅谷，曾透露了一種風聲——OpenAI預(yù)訓(xùn)練終結(jié)了，甚至GPT-5.1可能基于4o后訓(xùn)練而來，由此提升不大。

確實如此，在預(yù)訓(xùn)練上，OpenAI遇到了Scaling瓶頸。

預(yù)訓(xùn)練Scaling，或許不大

在GPT-5.2（大蒜）研發(fā)上，原爆料稱，OpenAI解決了預(yù)訓(xùn)練環(huán)節(jié)遇到的一些關(guān)鍵問題——

改進之前「最好的」且「體量大得多」的預(yù)訓(xùn)練模型。

在內(nèi)部，OpenAI整合了在開發(fā)「Shallotpeat」期間修復(fù)的Bug，積累了許多預(yù)訓(xùn)練的經(jīng)驗。

正如Information所言，最關(guān)鍵的突破發(fā)生在「預(yù)訓(xùn)練階段」。

但以上的一切信息，都是新聞報道。OpenAI究竟在預(yù)訓(xùn)練上，是否實現(xiàn)了重大突破，難以得知。

但從官方全線擊敗Gemini 3基準上可以猜測，GPT-5.2在預(yù)訓(xùn)練方面取得了一定的改進。

但是從第三方評測和網(wǎng)友反饋中，GPT-5.2在底層技術(shù)迭代上，沒有實現(xiàn)突破式的進展。

Epoch AI另一項評估中，頂尖AI大模型在長程任務(wù)的性能，Gemini 3依舊是最強的——

Gemini 3 Pro：4.9小時

GPT-5.2：3.5小時

Opus 4.5：2.6小時

正如工程師Dan Mac所言，Gemini 3 Pro之所以擁有更深入的智能，是因為谷歌預(yù)訓(xùn)練最強。

而GPT-5.2擁有最好的專用智能，是OpenAI在后訓(xùn)練上優(yōu)化的結(jié)果。

明年初，還有更大的

紐約時報最新爆料稱，接下來幾周，OpenAI將繼續(xù)把重點放在ChatGPT優(yōu)化上。

他們正在籌備明年初的一次更大規(guī)模發(fā)布。

在內(nèi)部，OpenAI的2B和2C方向的「雙線作戰(zhàn)」模式并行。

OpenAI也在推進其他項目，包括廣告和電商相關(guān)嘗試。

盡管被吐槽，他們?nèi)栽谔剿鳌父酥啤沟姆绞剑热缤ㄟ^ChatGPT聊天完成購物，并從交易中抽成。

在企業(yè)市場方面，OpenAI正將支撐ChatGPT的同一套AI技術(shù)引入企業(yè)軟件領(lǐng)域。

數(shù)據(jù)顯示，每周使用ChatGPT的用戶超過8億人，市場份額約為76%。

一位AI大佬說，「消費級AI幾乎就等同于OpenAI，如果失去了這一點，這家公司就不會有現(xiàn)在這樣的價值」。

然而，在過去12個月里，全世界多家AI初創(chuàng)已開發(fā)出能夠匹敵，甚至在某些方面超越OpenAI領(lǐng)先模型的技術(shù)。

谷歌Gemini 3 Pro的出世，對OpenAI業(yè)務(wù)來說著實是一次不小的打擊。

Gemini 3力壓GPT-5.2，

OpenAI只是虛晃一槍？

就從網(wǎng)友實測角度來說，GPT-5.2還有很大的改進空間。

有網(wǎng)友忍無可忍，直言O(shè)penAI完全沒腦子：

GPT-5.2語氣冰冷，堪比北極，完全無視用戶體驗，「一味地不斷倒退，把原本正常、自然的語言越改越離譜，最后變成一堆辱罵和說教，然后還把這當成某種勝利來兜售。」

OpenAI活該被Gemini 3嚇得夠嗆。

比如，在視覺推理上，Gemini 3 Pro完全碾壓GPT-5.2。

在3D模型生成上，GPT-5.2速度更慢、成本更高，總體表現(xiàn)不如Gemini 3。

在越界小說生成上，GPT-5.2墊底，不如Gemini 3 Pro、Claude 4.5 Opus、Grok 4：

越界小說是一種文學(xué)類型，以渴望沖破社會桎梏與基本規(guī)范的角色為核心。

這類作品通常涉及一系列禁忌主題、黑暗題材與極端議題。

在前端代碼生成上，Gemini 3大幅領(lǐng)先，GPT-5.2仍望塵莫及。

在相同提示下，在健身儀表盤首頁設(shè)計上，53萬多人討論了Gemini 3 、GPT-5.2和Claude Opus 4.5的設(shè)計，

提示詞：健身儀表盤首頁。頂部為每周活動概覽（緊湊型），今日消耗卡路里及環(huán)形進度條（緊湊卡片），卡路里卡片下方為連續(xù)鍛煉計數(shù)器，底部為周度鍛煉柱狀圖。移動端應(yīng)用，單屏顯示。視覺風格：淺色模式，柔和的乳白色背景，圓角卡片帶有細微陰影，珊瑚色作為主要強調(diào)色，電子藍用于圖表和高亮部分。簡潔的無襯線字體排版，現(xiàn)代卡片式布局。情緒：激勵人心且充滿活力。清新、純凈且平易近人。現(xiàn)代健康美學(xué)，令人感到鼓舞和振奮。

GPT 5.2幾乎次次墊底：

開發(fā)者Mattia用AI搜索模型Perplexity查看了全部評論，Gemini 3是最后的贏家！

如果以上只是個例，那下列的數(shù)據(jù)不會撒謊：GPT-5.2不及Gemini 3 Pro。

GPT-5.2慘遭滑鐵盧

在博彩網(wǎng)站Ploymarket上，大部分網(wǎng)友認為谷歌在今年年底擁有最好的AI模型。

在網(wǎng)友Lisan al Gaib的小型手動性能對比基準Dubesors上，Gemini 3 Pro排名第一，而GPT-5.2排到了16名。

致力于推動AI安全研究和提升公共討論關(guān)注度的CAIS（Center for AI Safety，人工智能安全中心），發(fā)布了最新的CAIS AI Dashboard，結(jié)果還是Gemini 3 Pro在文本和視覺能力指數(shù)上勝出，就在風險指數(shù)上落后GPT-5.2。

在文本能力指數(shù)測試中，Gemini 3 Pro只在ARC-AGI-2中落后，GPT-5.2幾乎全線潰敗！

在視覺能力指數(shù)測試中，Gemini 3 Pro再次幾乎全勝，比GPT-5.2平均得分高出了4.5分！

在風險指數(shù)測試中，GPT-5.2領(lǐng)先Gemini 3 Pro，但落后于Claude Opus 4.5和Claude Sonnet 4.5.

在評估語言模型在終端環(huán)境中驅(qū)動自主智能體能力的測試平臺Terminus上，Gemini 3.0 Pro和GPT-5.2幾乎不分上下，但Gemini 3.0 Pro與GPT-5.2的高推理模式相比，仍平均多了0.2%。

網(wǎng)友也驗證其他基準測試，比如SWE-Bench、IUMB：

總之，GPT-5.2疑似翻車，在多個重要的基準測試中似乎落后于Gemini 3：

奧特曼圣誕驚喜

GPT-5.2發(fā)布當天，奧特曼還預(yù)告了，下一周還有「圣誕禮物」。

至于新品，可能就是下一代GPT Image v2模型了。

幾天前，兩款神秘AI圖像模型「栗子」和「榛子」在LM Arena平臺上展開測試。

但是，開發(fā)者實測后表示，目測OpenAI圖像模型不太樂觀。

在圖像生成/編輯方面，GPT圖像模型遠落后于Gemini 3加持的Nano Banana Pro。