六位前Google DeepMind核心成員組建的初創公司Poetiq,近日憑借其開發的元系統在人工智能領域引發關注。該系統通過動態組合前沿大模型,在抽象推理基準測試ARC-AGI-2中以54%的準確率刷新紀錄,同時將單任務推理成本壓縮至31美元,僅為前紀錄保持者的一半。這一突破性成果已通過第三方機構ARC Prize的官方驗證。
與傳統大模型研發路徑不同,Poetiq團隊選擇構建智能調度層。其核心元系統不依賴單一模型,而是通過分析任務特性自動生成解決方案,動態調用多個大模型形成協同網絡。這種架構使系統在Gemini 3 Pro發布后24小時內即完成適配,并迅速取得領先成績。測試數據顯示,該系統在相同計算預算下可調用模型次數較傳統方法提升3倍,在復雜任務中展現出顯著優勢。
技術實現層面,Poetiq采用遞歸強化機制。系統首先生成初步解決方案,通過多輪自我驗證持續優化,最終輸出經多模型交叉檢驗的結果。這種設計使系統在處理ARC-AGI測試集時,能自動識別需要編寫代碼輔助推理的場景,并精準分配任務給擅長代碼生成的模型。實驗表明,該系統在需要多步驟邏輯推導的題目中,準確率較單模型提升27個百分點。
成本優化方面,Poetiq開發了多層級解決方案矩陣。基礎版基于開源模型GPT-OSS-120B,單題處理成本低于1美分;企業版整合Gemini 3與Grok 4等商業模型,在保持50%以上準確率的同時,將成本控制在主流方法的40%以下。特別值得關注的是,其Grok-4-Fast配置在成本降低兩個數量級的情況下,仍達到與高價模型相當的推理精度。
ARC Prize官方報告顯示,Poetiq系統在測試中展現出獨特的自適應能力。面對不同復雜度的任務,系統會自動調整模型組合策略:簡單任務優先調用輕量級模型,復雜任務則啟動多模型協同推理。這種動態調度機制使系統在保持高效的同時,避免資源浪費。測試數據表明,該系統在80%的任務中實現了計算資源的最優分配。
技術團隊透露,Poetiq的研發靈感源于對現有大模型局限性的觀察。傳統模型在處理需要多領域知識整合的復雜問題時,常因提示詞敏感性導致表現波動。為此,系統特別強化了自主策略發現能力,通過讓模型在模擬環境中試錯,逐步演化出最優推理路徑。這種進化式學習機制,使系統在未經微調的情況下即可適配新模型架構。
目前,Poetiq已開放部分技術配置的源代碼,重點展示其循環驗證框架和自我監控機制。開發者文檔顯示,系統通過內置的置信度評估模塊,可實時判斷推理進度,在結果可靠性達標時自動終止計算。這種設計使系統在保持高準確率的同時,將無效計算占比控制在5%以下,顯著提升資源利用率。
行業分析認為,Poetiq的技術路徑可能重塑AI應用開發范式。其元系統架構為解決大模型落地難題提供了新思路,特別是在需要跨模型協作的復雜場景中展現出獨特價值。據悉,該團隊正將技術拓展至醫療診斷、金融分析等領域,測試系統在真實世界任務中的表現。首批合作企業反饋顯示,系統在處理多源異構數據時,推理效率較傳統方法提升60%以上。









