滾動資訊

當前位置：首頁 > 資訊 > 業界動態 > 正文內容

6位前DeepMind老將打造“AI指揮官”，一半成本刷新SOTA

時間：2025-12-14 18:45:57 來源：新智元編輯：快訊 IP：北京 發表評論無障礙通道

編輯：元宇

6位前DeepMind成員以元系統重塑大模型調用方式，該系統推出的Gemini 3 Pro優化技術在ARC-AGI-2上以54%的成績奪得榜首，而成本僅為此前最優方法的一半。

最近，6名前Google DeepMind研究員、工程師又搞大事了。

他們的新初創公司Poetiq沒去研發更大、更聰明的模型，而是搭建了一個元系統，該系統可以讓前沿大模型自動生成解決特定任務的策略和模型組合。

這樣不僅解決了前沿模型難以單獨解決復雜真實世界問題的痛點，還將整體推理成本降低了一半。

12月8日，ARC Prize官宣驗證了該團隊的成果。

由Poetiq推出的Gemini 3 Pro優化技術，在ARC-AGI-2 leaderboard上創下新SOTA，得分高達54%，每任務計算成本僅31美元。

這一突破遠超此前模型的最優表現，在leaderboard上力壓群雄。

Poetiq團隊揭秘

Poetiq初創團隊均來自Google DeepMind

Poetiq是一個精干且高度技術型的團隊，由6名來自Google DeepMind的研究員與工程師組成。

該創始團隊成員一共擁有53年的專業經驗，他們在Poetiq的目標是「以更優的推理，鋪就通過安全超級智能的最快路徑」。

12月5日，這家成立不到一年的公司自豪地宣布：

「Poetiq系統已經大幅超越現有方法，并樹立了新的行業最佳表現。」

如上圖所示，Poetiq系統在ARC-AGI-2半私有評估集上創下新紀錄。

11月20日，Poetiq已經公布了自己在ARC-AGI-2上的強勁表現，此次ARC Prize對Poetiq公布的成績進行了官方驗證。

Poetiq開發的一套純Gemini配置參與了ARC Prize的官方評估。

該系統以每題30.57美元的成本取得了54%的成績，打破了此前Gemini 3 Deep Think創下的每題成本77.16美元、45%的最佳成績。

Poetiq團隊表示，在ARC-AGI-2公共數據集上，Poetiq系統建立了全新的帕累托前沿，不僅超越以往成果，還進一步推動了成本效益推理的邊界。

Poetiq團隊將這一成績，歸結為它的元系統。

元系統

在任意模型上構建智能

Poetiq的方法是在任意模型之上構建智能。

其元系統旨在利用任何現成的前沿模型，自動生成能解決特定任務的完整系統，無需構建甚至不需要微調自己的大前沿模型。

這也是為什么Poetiq能在Gemini 3與GPT-5.1發布后數小時內，就將它們快速接入并取得SOTA表現的原因。

如上圖所示，Poetiq元系統在ARC-AGI-1和ARC-AGI-2上不僅全面刷新了以往成績，也再次推進了低成本推理的邊界。

相比之下，Gemini 3 Deep Think（預覽版）成本明顯更高，準確率卻更低。Poetiq（Gemini-3-a、b、c）展示了Poetiq如何利用多個大語言模型，在任意成本目標下實現最大化性能。

Poetiq系統可以通過多次調用Gemini-3來程序化地處理ARC-AGI-1和ARC-AGI-2的問題，從而在廣泛的計算區間內實現帕累托最優。

Poetiq（Grok-4-Fast）主打極致成本效率，構建于Grok-4-Fast Reasoning模型之上。不僅比原模型報告的結果更便宜、準確率更高，還能達到與價格高兩個數量級的模型相當的準確度。

Poetiq（GPT-OSS-b）基于開源權重模型GPT-OSS-120B，在單題不到1美分的成本下仍取得了非常亮眼的準確率。

Poetiq（GPT-OSS-a）基于GPT-OSS-120B的低思考版本，用來展示極限成本條件下的系統表現。

以上這些方案雖然各自都能獨立運行，但它們共同的底層是Poetiq靈活的元系統。

這個元系統的核心優勢之一即能自動選擇模型組合與策略，甚至會自行判斷何時要寫代碼、又該由哪個模型負責寫代碼。

Poetiq的遞歸、自我改進系統完全不依賴特定大模型，在接入最新模型時也能充分展現其能力。

使用Poetiq元系統強化主流模型

為了進一步展示Poetiq元系統的能力，研究人員將其應用到多個來自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次，Poetiq都實現了「更高準確率+更低成本」的組合。

上圖中展示了12個模型（包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS）在ARC-AGI-1上經過Poetiq處理后的表現。

Poetiq是如何做到的？秘訣其實只有一句話：

從上到下，全靠大語言模型。

Poetiq使用大模型來構建系統、改進系統、也讓系統本身運行起來。

正是這種靈活、強大且遞歸的系統架構，讓Poetiq能快速取得如此一系列SOTA成果。

Poetiq選擇開源的具體配置，主要為了展示2個重要理念：

提示詞只是接口層，并非智能本體

系統在一個循環式的解題流程中運行：它不會只問一次，而是先讓大模型生成一個可能的答案（有時包括代碼），根據反饋進行分析，然后再繼續利用模型改進答案。

這種多步驟、自我完善的方式，讓系統能逐步構建并打磨最終解答。

自我檢查

系統會自主檢查自己的進展，決定什么時候信息足夠、結果可靠，從而自動結束流程。

這種自我監控機制能有效避免浪費算力，讓整體成本更低。

為什么選擇ARC-AGI？

Poetiq認為ARC-AGI是驗證自身核心理念的理想測試場。

大模型蘊含了大量人類知識，但在復雜推理任務上經常出現不穩定的情況。

一個原因是模型表現高度依賴提示詞，而其隨機性會讓知識提取變得不夠可靠，從而使推理步驟難以預測。

真正的挑戰在于：如何發現一種推理策略，既能找出需要的信息，又能在找到信息時順利將其組合起來，并智能判斷下一步該做什么。

Poetiq的核心目標，就是為了讓這一過程能夠自動化并不斷優化。

Poetiq所構建的系統并不預設推理策略，而是讓模型自主發現最適配的推理方式，并能在現實限制（預算、Token或算力）內工作。

這將釋放生成式AI在復雜推理方面的真正潛力。

Poetiq的系統能在短時間內適配任務特性與模型特性，而ARC-AGI測試的是模型抽象推理、歸納、邏輯、生成策略能力，這和Poetiq系統的優勢也是相互匹配的。

為了使Poetiq的元系統能夠隨著每次解決新任務而持續進化，任務的多樣性也非常關鍵。

為此，Poetiq的團隊正在讓系統攻克更多基準任務，涵蓋多種推理與檢索需求。

Poetiq系統的優點是擅長與其他系統協作。

該系統可以用來優化現有大型系統內部的AI組件。

如果能夠在不修改模型本身的前提下，利用前沿模型中豐富的世界知識來解決長時序任務，如果能讓底層知識提取機制更適配大模型，也許就不需要進行模型調優，這些正是Poetiq下一步努力的方向之一。

更多>同類資訊

GPT-5.2降智遭全網差評！奧特曼慌了

12-14

哈佛最新調查：59%感到被AI威脅，超半數離不開

12-14

6位前DeepMind成員創立Poetiq，以元系統重塑大模型，低成本刷新SOTA紀錄

12-14

李澤湘：大灣區獨特供應鏈賦能科創，新工科教育打通技術產品閉環

12-14

茅臺價格跳水背后：消費邏輯生變，回歸百姓餐桌或是新出路

茅臺價格雪崩、庫存高企、金融屬性褪色，從神壇到凡塵的墜落，不僅是一瓶酒的價格波動，更是國內經濟周期、消費邏輯與投資生態發生深刻變革的縮影。國家統計局數據顯示，2025年國內居民人均可支配收入實際增速為3.2…

12-14

2025零食行業新趨勢：健康社交雙驅動，地域特色與場景創新引領消費新潮流

這些案例表明，在成熟市場中，精準的產品創新和場景深耕是贏得消費者的關鍵。品牌若想贏得市場，不僅需夯實產品力，關注健康與口味平衡，更需深入理解不同圈層消費者的情感訴求與生活場景，通過有價值的內容溝通和創新的產品…

12-14

三星Galaxy S26系列或搭載“高斯”本地AI模型舊款手機恐難適配

12-14

谷歌Gemini 2.5原生音頻模型：實時翻譯還能保留情緒，開啟擬人交互新篇

12-14

理想汽車段吉超：借鑒胖東來模式，以“選育研”打造材料品質護城河

12-14

春節前數碼新品扎堆亮相：小米17 Ultra領銜多款天璣芯片機型登場

【CNMO科技消息】12月14日，數碼博主“數碼閑聊站”爆料稱，一批數碼新品將在春節前集中登場，包含搭載第五代驍龍8至尊版移動平臺的影像旗艦機型（×1）、搭載天璣8系芯片中端機（×1）、搭載天璣9系芯片中端機…

12-14

2025旗艦手機大比拼：Magic8憑全能實力問鼎年度旗艦之巔

縱觀四大旗艦，小米17的徠卡影像傳承、X300的蔡司光學解析、FindX9的創新交互設計各具特色。但Magic8標配憑借6000nits頂級屏幕、7000mAh超長續航、三防認證與全場景影像系統，以無短板的…

12-14

鉆布材質手機殼怎么選？行業優勢解析與高性價比靠譜廠家推薦

另外，鉆布材質手機殼還可以結合UV打印技術，在手機殼表面打印出各種精美的圖案，進一步提升其美觀度和獨特性。性價比高的鉆布材質手機殼不僅要價格合理，還要在質量和外觀上表現出色。相信在該公司的專業服務下，您一定能…

12-14

小折疊手機怎么選？聯想華為三星三款熱門機型橫評，幫你精準避坑

靈動外屏無縫銜接、輕量化機身適配多場景，這些小折疊手機的核心訴求，在本次推薦的機型中各有側重。 1.追求高性價比與全能體驗：優先選擇聯想moto razr 60，外屏實用、耐用性強、價格親民，無論是學生黨…

12-14

旗艦手機巔峰對決：Magic8憑六大核心優勢問鼎年度機皇

6400萬超夜神長焦+5000萬OIS主攝構建影像雙旗艦，7000mAh電池+90W超級快充+北斗衛星通信成就全能體驗。》經過多維對比，Magic8標準版在顯示素質（6000nits亮度）、影像系統（640…

12-14

2025廣州車展：長安啟源Q05以7.99萬起售激光雷達加身續航超500km

智能座艙：4nm芯片加持，交互絲滑如旗艦全新啟源Q05的智能座艙堪稱“10萬級最強大腦”，核心硬件直接拉滿。智能輔助駕駛：10萬級首款激光雷達車型，安全感拉滿長安啟源Q05的上市，7.99萬起的售價，卻能享受…

12-14

點擊查看更多 +

全站最新

11月比亞迪銷量再攀高峰，高端與海外齊發力沖刺全年目標

2025廣州車展：長安啟源Q05以7.99萬起售激光雷達加身續航超500km

純電行政轎車困局：技術雖強難撼傳統豪華“身份符號”地位

輿情漩渦中的啟示：雷軍應學村支書馮玉寬，以真誠貼近用戶破困局

小米春節前新品陣容揭曉！驍龍8E5影像旗艦等多款新品蓄勢待發

深藍S07華為乾崑630長續航版來襲，15.39萬起享豐富配置與智能體驗

熱門內容

本欄最新

2025廣州車展：長安啟源Q05以7.99萬起售激光雷達加身續航超500km

純電行政轎車困局：技術雖強難撼傳統豪華“身份符號”地位

輿情漩渦中的啟示：雷軍應學村支書馮玉寬，以真誠貼近用戶破困局

小米春節前新品陣容揭曉！驍龍8E5影像旗艦等多款新品蓄勢待發

馬克西莫夫油畫訓練班：以技藝為筆，繪就中國油畫新體系新篇章

國際投行與長線資金齊加碼，比亞迪憑何成資本“心頭好”？

本網站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經ITBEAR官方許可，嚴禁使用。
聲明：本網站是公益性科普網站，為網友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區魯ICP備11015305號-1 聯系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

6位前DeepMind老將打造“AI指揮官”，一半成本刷新SOTA

日本精品一区二区三区高清久久