Epoch AI近期發(fā)布的一系列研究報告,揭示了人工智能領域多個維度的最新進展。在數學能力測試方面,開源中文大模型在FrontierMath基準測試中表現欠佳,1-3級得分落后全球頂尖模型約七個月,第四級更是幾乎全軍覆沒,僅有DeepSeek-V3.2 (Thinking)取得1/48的分數。相比之下,GPT、Gemini等模型雖在傳統數學測試中表現優(yōu)異,但在FrontierMath上同樣表現平平,不過仍優(yōu)于中文開源模型。
FrontierMath的特殊性在于其由60余位數學界頂尖專家聯合出題,并得到菲爾茲獎得主背書,涵蓋數論、實分析、代數幾何等高難度領域,甚至包含科研級別的原創(chuàng)難題。這種測試方式表明,當前AI在真正復雜的數學問題上仍顯不足,更像是偶爾能翻到答案的小學生,而非成熟的解題機器。
在能力增長趨勢方面,Epoch AI通過Epoch Capabilities Index(ECI)指標追蹤發(fā)現,自2024年4月起,AI能力增長速度顯著加快,近乎翻倍。這一變化主要得益于推理模型的強化和強化學習技術的廣泛應用。盡管有人認為GPT-4之后AI進展放緩,但數據顯示,AI的進步方向已轉向核心技能如推理能力的加速提升,而非單純依賴模型規(guī)模和參數數量的擴張。
Epoch AI的年終盤點還揭示了多個值得關注的趨勢。在成本方面,LLM推理價格在2023年4月至2025年3月期間下降超過10倍,使得AI應用更加普及化。同時,前沿AI性能已能在消費級硬件上實現,頂級開源模型與頂尖AI的差距縮短至一年以內,預示著個人電腦運行AI大模型的時代即將到來。
在研發(fā)資源分配上,OpenAI 2024年的大部分算力用于實驗而非訓練或推理,顯示出AI研發(fā)仍高度依賴大量試錯和探索。芯片領域,英偉達的AI計算量自2020年以來每年增長超過一倍,每款旗艦芯片發(fā)布后三年內即占據大部分計算資源,凸顯GPU在AI運算中的核心地位。GPT-4和GPT-5在基準測試中均實現重大飛躍,表明AI能力正在經歷真正的躍遷,而非微創(chuàng)新的堆疊。
在技術細節(jié)方面,DeepSeek v3通過多頭潛在注意力(MLA)、混合專家(MoE)架構改進和多token預測機制等三項核心技巧,在算力更低的情況下成為當時最強開源模型。其后續(xù)發(fā)布的R1模型性能與OpenAI o1相當,但開發(fā)成本顯著降低,展示了架構創(chuàng)新在降低研發(fā)成本和加速落地方面的重要性。
關于推理模型的局限性,分析指出,盡管推理能力在數學和軟件工程領域帶來顯著效果,但其增長存在明顯邊界。OpenAI和Anthropic預計,當前RL擴展速度最多維持1-2年,之后將觸及算力基礎設施上限。這一判斷為研發(fā)規(guī)劃提供了重要參考。











