六位前Google DeepMind的核心成員近日成立了一家名為Poetiq的初創公司,他們沒有選擇研發更大規模的模型,而是專注于構建一個能夠優化現有前沿大模型調用方式的元系統。這一創新方法在解決復雜真實世界問題時展現出顯著優勢,同時將整體推理成本降低了一半。
在ARC-AGI-2的最新評估中,Poetiq推出的Gemini 3 Pro優化技術以54%的成績登頂排行榜,每任務計算成本僅31美元。這一表現不僅遠超此前模型的最佳水平,更在成本效益方面樹立了新的行業標桿。該成果已通過ARC Prize官方驗證,確認其突破性價值。
Poetiq團隊由六名具有53年集體專業經驗的前DeepMind研究員與工程師組成。他們提出的核心理念是:通過構建一個靈活的元系統,讓任何現成的前沿模型能夠自動生成針對特定任務的完整解決方案。這種架構無需開發或微調新的大型模型,而是通過智能組合現有模型資源實現性能突破。
該系統的獨特之處在于其遞歸自我改進能力。當接入Gemini 3或GPT-5.1等新模型時,元系統能在數小時內自動生成最優策略組合。例如在ARC-AGI-1和ARC-AGI-2測試中,系統通過多次調用Gemini-3模型,在廣泛計算區間內實現了帕累托最優解,既保證了準確性又控制了成本。
實驗數據顯示,基于Grok-4-Fast Reasoning模型構建的Poetiq方案,在成本降低兩個數量級的情況下仍保持了相當的準確率。而采用開源GPT-OSS-120B模型的配置,單題處理成本甚至不到1美分,卻展現出令人矚目的性能表現。這些成果驗證了元系統在不同成本目標下的強大適應能力。
技術實現層面,Poetiq完全依賴大語言模型構建系統架構。其運行流程呈現循環式特征:系統首先生成初步答案(可能包含代碼),通過反饋分析后持續優化解答。這種多步驟自我完善機制,使最終答案經過反復打磨達到最佳狀態。同時內置的自我監控功能可自動判斷結果可靠性,避免無效計算浪費資源。
選擇ARC-AGI作為測試平臺,源于該基準對抽象推理、歸納邏輯和策略生成能力的綜合考察。Poetiq團隊認為,這種測試環境能充分驗證系統在現實約束條件下的自動化優化能力。測試結果顯示,系統不僅能自主發現最優推理路徑,還能根據預算、算力等限制條件動態調整策略。
目前研究團隊正在擴展系統的應用場景,通過攻克更多基準任務來提升系統多樣性。該技術已展現出與現有大型系統協作的潛力,特別是在優化AI組件方面具有獨特優勢。未來研究將聚焦于如何利用前沿模型的知識儲備解決長時序任務,探索在不修改模型本身的前提下提升知識提取效率的新路徑。








