在人工智能模型性能比拼的賽場上,英偉達推出的4B小模型NVARC在ARC-AGI 2測試中脫穎而出,以27.64%的公開榜成績超越GPT-5 Pro的18.3%,成功登頂榜首。這一成績不僅展現了小模型的強大潛力,也引發了業界對模型發展方向的新思考。
NVARC的顯著優勢不僅體現在成績上,更在于其成本控制。該模型每任務成本僅20美分,而GPT-5 Pro單任務成本超過7美元,NVARC的成本僅為前者的1/36。這種低成本特性使其在實際應用中更具競爭力,尤其是在資源有限的場景下。
NVARC的成功得益于其獨特的零預訓練深度學習方法。與依賴大規模通用數據集進行前期預訓練的模型不同,NVARC規避了預訓練模型可能存在的領域偏見和數據依賴問題。這種方法使其在ARC-AGI 2測試中表現出色,該測試旨在評估模型能否高效獲取超出其訓練數據的新技能,且測試數據與公共訓練數據無重疊。
為了實現這一突破,英偉達團隊采取了創新的策略。他們將復雜推理轉移至離線的合成數據管道,通過大規模合成高質量數據來優化現有模型。具體而言,團隊利用GPT-OSS-120B生成了320萬多個增強樣本的合成數據集,每個樣本最多包含7對輸入/輸出。這一過程通過拆分推理管線為多個獨立驗證的階段,確保了數據質量。
在模型選擇上,NVARC以改進版ARChitects方法為基礎,選用小參數模型Qwen3-4B,并通過對話式模板簡化謎題理解。訓練過程中,團隊借助NeMo RL框架和Megatron后端進行監督微調。而真正讓模型取得優異成績的關鍵在于測試時微調(TTFT)技術。針對ARC-AGI-2“每個任務都是全新規則”的特點,NVARC引入了LoRA微調技術,對每個問題單獨微調,使模型能快速適應新任務。
團隊對ARChitects方法的解碼階段進行了優化,通過批處理DFS算法修復結果非確定性問題,并統一了8種數據增強操作評估候選解。這些改進共同助力NVARC在公開榜上獲得27.64%的分數。
在競賽后期,團隊還嘗試了“少即是多”的TRM方法,與Qwen3-4B集成以進一步提升分數。盡管這一方法帶來了一定提升,但受限于多種因素,并未實現大幅優化。
有人質疑,這樣訓練出來的小模型是否只是“做題機器”,難以與全面發展的超級大模型相提并論。然而,NVARC的成功表明,在特定領域任務中,經過針對性優化的小模型性能并不遜色。其低成本、高速度、強適配性和領域聚焦等優勢,使其在諸多場景中展現出巨大潛力。
這一成果提醒我們,在模型開發中,將正確的方法應用于正確的場景,往往能實現更大的價值。小模型的崛起,或許將為人工智能的發展開辟新的路徑。











