日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

6位前DeepMind老將打造“AI指揮官”,一半成本刷新SOTA

   時間:2025-12-14 18:45:57 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

編輯:元宇

6位前DeepMind成員以元系統重塑大模型調用方式,該系統推出的Gemini 3 Pro優化技術在ARC-AGI-2上以54%的成績奪得榜首,而成本僅為此前最優方法的一半。

最近,6名前Google DeepMind研究員、工程師又搞大事了。

他們的新初創公司Poetiq沒去研發更大、更聰明的模型,而是搭建了一個元系統,該系統可以讓前沿大模型自動生成解決特定任務的策略和模型組合。

這樣不僅解決了前沿模型難以單獨解決復雜真實世界問題的痛點,還將整體推理成本降低了一半。

12月8日,ARC Prize官宣驗證了該團隊的成果。

由Poetiq推出的Gemini 3 Pro優化技術,在ARC-AGI-2 leaderboard上創下新SOTA,得分高達54%,每任務計算成本僅31美元。

這一突破遠超此前模型的最優表現,在leaderboard上力壓群雄。

Poetiq團隊揭秘

Poetiq初創團隊均來自Google DeepMind

Poetiq是一個精干且高度技術型的團隊,由6名來自Google DeepMind的研究員與工程師組成。

該創始團隊成員一共擁有53年的專業經驗,他們在Poetiq的目標是「以更優的推理,鋪就通過安全超級智能的最快路徑」。

12月5日,這家成立不到一年的公司自豪地宣布:

「Poetiq系統已經大幅超越現有方法,并樹立了新的行業最佳表現。」

如上圖所示,Poetiq系統在ARC-AGI-2半私有評估集上創下新紀錄。

11月20日,Poetiq已經公布了自己在ARC-AGI-2上的強勁表現,此次ARC Prize對Poetiq公布的成績進行了官方驗證。

Poetiq開發的一套純Gemini配置參與了ARC Prize的官方評估。

該系統以每題30.57美元的成本取得了54%的成績,打破了此前Gemini 3 Deep Think創下的每題成本77.16美元、45%的最佳成績。

Poetiq團隊表示,在ARC-AGI-2公共數據集上,Poetiq系統建立了全新的帕累托前沿,不僅超越以往成果,還進一步推動了成本效益推理的邊界。

Poetiq團隊將這一成績,歸結為它的元系統。

元系統

在任意模型上構建智能

Poetiq的方法是在任意模型之上構建智能。

其元系統旨在利用任何現成的前沿模型,自動生成能解決特定任務的完整系統,無需構建甚至不需要微調自己的大前沿模型。

這也是為什么Poetiq能在Gemini 3與GPT-5.1發布后數小時內,就將它們快速接入并取得SOTA表現的原因。

如上圖所示,Poetiq元系統在ARC-AGI-1和ARC-AGI-2上不僅全面刷新了以往成績,也再次推進了低成本推理的邊界。

相比之下,Gemini 3 Deep Think(預覽版)成本明顯更高,準確率卻更低。Poetiq(Gemini-3-a、b、c)展示了Poetiq如何利用多個大語言模型,在任意成本目標下實現最大化性能。

Poetiq系統可以通過多次調用Gemini-3來程序化地處理ARC-AGI-1和ARC-AGI-2的問題,從而在廣泛的計算區間內實現帕累托最優。

Poetiq(Grok-4-Fast)主打極致成本效率,構建于Grok-4-Fast Reasoning模型之上。不僅比原模型報告的結果更便宜、準確率更高,還能達到與價格高兩個數量級的模型相當的準確度。

Poetiq(GPT-OSS-b)基于開源權重模型GPT-OSS-120B,在單題不到1美分的成本下仍取得了非常亮眼的準確率。

Poetiq(GPT-OSS-a)基于GPT-OSS-120B的低思考版本,用來展示極限成本條件下的系統表現。

以上這些方案雖然各自都能獨立運行,但它們共同的底層是Poetiq靈活的元系統。

這個元系統的核心優勢之一即能自動選擇模型組合與策略,甚至會自行判斷何時要寫代碼、又該由哪個模型負責寫代碼。

Poetiq的遞歸、自我改進系統完全不依賴特定大模型,在接入最新模型時也能充分展現其能力。

使用Poetiq元系統強化主流模型

為了進一步展示Poetiq元系統的能力,研究人員將其應用到多個來自Google DeepMind、OpenAI、Anthropic和xAI的最新模型上。

每一次,Poetiq都實現了「更高準確率+更低成本」的組合。

上圖中展示了12個模型(包括ChatGPT、Claude Haiku、Gemini、Grok 4、GPT-OSS)在ARC-AGI-1上經過Poetiq處理后的表現。

Poetiq是如何做到的?秘訣其實只有一句話:

從上到下,全靠大語言模型。

Poetiq使用大模型來構建系統、改進系統、也讓系統本身運行起來。

正是這種靈活、強大且遞歸的系統架構,讓Poetiq能快速取得如此一系列SOTA成果。

Poetiq選擇開源的具體配置,主要為了展示2個重要理念:

提示詞只是接口層,并非智能本體

系統在一個循環式的解題流程中運行:它不會只問一次,而是先讓大模型生成一個可能的答案(有時包括代碼),根據反饋進行分析,然后再繼續利用模型改進答案。

這種多步驟、自我完善的方式,讓系統能逐步構建并打磨最終解答。

自我檢查

系統會自主檢查自己的進展,決定什么時候信息足夠、結果可靠,從而自動結束流程。

這種自我監控機制能有效避免浪費算力,讓整體成本更低。

為什么選擇ARC-AGI?

Poetiq認為ARC-AGI是驗證自身核心理念的理想測試場。

大模型蘊含了大量人類知識,但在復雜推理任務上經常出現不穩定的情況。

一個原因是模型表現高度依賴提示詞,而其隨機性會讓知識提取變得不夠可靠,從而使推理步驟難以預測。

真正的挑戰在于:如何發現一種推理策略,既能找出需要的信息,又能在找到信息時順利將其組合起來,并智能判斷下一步該做什么。

Poetiq的核心目標,就是為了讓這一過程能夠自動化并不斷優化。

Poetiq所構建的系統并不預設推理策略,而是讓模型自主發現最適配的推理方式,并能在現實限制(預算、Token或算力)內工作。

這將釋放生成式AI在復雜推理方面的真正潛力。

Poetiq的系統能在短時間內適配任務特性與模型特性,而ARC-AGI測試的是模型抽象推理、歸納、邏輯、生成策略能力,這和Poetiq系統的優勢也是相互匹配的。

為了使Poetiq的元系統能夠隨著每次解決新任務而持續進化,任務的多樣性也非常關鍵。

為此,Poetiq的團隊正在讓系統攻克更多基準任務,涵蓋多種推理與檢索需求。

Poetiq系統的優點是擅長與其他系統協作。

該系統可以用來優化現有大型系統內部的AI組件。

如果能夠在不修改模型本身的前提下,利用前沿模型中豐富的世界知識來解決長時序任務,如果能讓底層知識提取機制更適配大模型,也許就不需要進行模型調優,這些正是Poetiq下一步努力的方向之一。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
国产精品二三区| 欧美亚洲图片小说| 老司机精品视频线观看86| 亚洲精品乱码久久久久久久久| 精品国产乱子伦一区| 日韩欧美国产三级| 欧美成人精品1314www| 日韩一区二区三区视频在线| 欧美日韩一区二区三区四区 | 欧美日韩精品一区二区三区四区| 不卡的av电影| 91亚洲国产成人精品一区二三 | 欧美视频一区在线观看| 欧美怡红院视频| 在线91免费看| 日韩一区二区精品| 欧美一级生活片| 欧美电影免费观看完整版| 精品成人一区二区| 国产精品女同互慰在线看| 国产精品久线观看视频| 伊人开心综合网| 日本不卡的三区四区五区| 国内久久婷婷综合| 成人av在线资源网| 欧美日韩亚洲综合一区二区三区 | 国产一区二区免费看| 韩国精品久久久| 色综合天天综合在线视频| 欧美日韩激情一区二区| 久久先锋资源网| 亚洲欧美日韩久久| 美女在线观看视频一区二区| 国产不卡免费视频| 欧美最新大片在线看| 欧美xxxxx牲另类人与| 国产精品久久久久aaaa樱花| 亚洲一区在线观看免费观看电影高清| 日本午夜一区二区| 91色视频在线| 精品久久久久久久久久久院品网 | 欧洲在线/亚洲| 久久影院视频免费| 亚洲影视资源网| 成人免费视频一区| 宅男噜噜噜66一区二区66| 国产精品网站在线| 免费在线观看一区| 91色九色蝌蚪| 久久久久久免费| 日日摸夜夜添夜夜添精品视频| 国产成人av福利| 在线成人av影院| 亚洲一区二区在线视频| 成人免费毛片嘿嘿连载视频| 欧美一区二区三区婷婷月色| 一区在线观看视频| 国产福利视频一区二区三区| 在线综合+亚洲+欧美中文字幕| 中文字幕一区二区不卡 | 国产精品久久午夜夜伦鲁鲁| 美女任你摸久久| 欧美日韩中文字幕精品| 中文字幕一区二区三区在线不卡| 久久99国产精品久久99果冻传媒| 欧美老肥妇做.爰bbww视频| 亚洲丝袜另类动漫二区| 成人激情小说网站| 久久精品水蜜桃av综合天堂| 免费观看成人av| 欧美一级精品在线| 捆绑变态av一区二区三区| 制服视频三区第一页精品| 爽好多水快深点欧美视频| 欧美绝品在线观看成人午夜影视| 水野朝阳av一区二区三区| 欧美体内she精高潮| 一区二区三区在线影院| 日本韩国欧美一区二区三区| 自拍偷在线精品自拍偷无码专区 | 日韩中文字幕一区二区三区| 欧美日韩一区在线观看| 亚洲国产欧美另类丝袜| 欧美视频精品在线| 亚洲电影第三页| 欧美视频完全免费看| 天堂精品中文字幕在线| 欧美成人精品二区三区99精品| 狠狠色丁香婷综合久久| 国产欧美日韩精品一区| 国产精品1024| 有码一区二区三区| 欧美电影一区二区三区| 国产美女精品在线| 国产精品三级av| 欧美吞精做爰啪啪高潮| 久久精品99国产精品| 欧美国产一区二区在线观看| av在线这里只有精品| 亚洲国产你懂的| 精品1区2区在线观看| 成人免费视频免费观看| 午夜久久久久久电影| 久久午夜羞羞影院免费观看| 97久久超碰国产精品| 婷婷六月综合亚洲| 国产人成一区二区三区影院| 欧美性生活影院| 国产成人综合在线播放| 亚洲风情在线资源站| 国产日韩视频一区二区三区| 91黄色激情网站| 成人一区二区在线观看| 性做久久久久久久免费看| 欧美国产日韩亚洲一区| 91精品国产入口| 在线看一区二区| 成人深夜福利app| 另类成人小视频在线| 亚洲一区在线播放| 国产精品久久久久久久岛一牛影视 | 午夜精彩视频在线观看不卡| 亚洲高清视频在线| 久久色在线视频| 不卡的看片网站| 麻豆91在线观看| 亚洲一区二区视频在线| 国产欧美一区二区三区网站| 在线成人av影院| 欧美在线观看18| 国产麻豆精品theporn| 亚洲一区二区精品久久av| 国产日韩三级在线| 欧美日韩你懂的| 色婷婷综合久久久中文字幕| 亚洲精品中文字幕在线观看| 日韩一区二区三区av| 色婷婷久久久综合中文字幕| 免费成人深夜小野草| 亚洲一区在线视频观看| 日韩西西人体444www| 成人福利视频网站| 久久不见久久见中文字幕免费| 亚洲视频精选在线| 久久影音资源网| 欧美日韩另类国产亚洲欧美一级| 不卡av在线免费观看| 美女视频免费一区| 蜜桃久久久久久| 久久精品久久精品| 婷婷夜色潮精品综合在线| 五月婷婷综合网| 亚洲高清中文字幕| 日本不卡视频在线| 美脚の诱脚舐め脚责91 | 成人网页在线观看| 国产老女人精品毛片久久| 日韩国产精品久久| 日本大胆欧美人术艺术动态| 一区二区三区四区不卡在线| 亚洲在线免费播放| 午夜视频一区二区三区| 亚洲国产精品久久不卡毛片| 亚洲成人tv网| 亚洲国产日韩av| 免费观看30秒视频久久| 亚洲成人免费观看| 久久精品久久99精品久久| 国产一区二区在线电影| 久久成人久久爱| 成人精品一区二区三区中文字幕| 国产一区欧美一区| 99精品国产视频| 91视频你懂的| 欧美亚洲国产bt| 日韩欧美电影在线| 精品日韩一区二区三区免费视频| 久久亚洲捆绑美女| 国产欧美日韩在线视频| 亚洲一区二区三区爽爽爽爽爽 | 五月激情丁香一区二区三区| 亚洲国产美女搞黄色| 精油按摩中文字幕久久| 国产一区二区三区视频在线播放| 成人国产精品免费观看动漫| 91丝袜美腿高跟国产极品老师| 538在线一区二区精品国产| 国产亚洲精品福利| **性色生活片久久毛片| 天天操天天综合网| 国模套图日韩精品一区二区 | 亚洲欧洲美洲综合色网| 亚洲图片激情小说| 久久9热精品视频| a4yy欧美一区二区三区| 日韩精品一区二区三区视频| 欧美成人乱码一区二区三区| 亚洲精品视频在线看| 国产精品1区2区3区在线观看| 91亚洲精品久久久蜜桃网站|