AMD公司近日宣布,與IBM及AI初創企業Zyphra聯合完成了一項重大技術突破——成功基于AMD硬件生態訓練出全球首個大型混合專家(MoE)基礎模型ZAYA1。該模型從架構設計到訓練過程均深度適配AMD技術棧,標志著AMD在AI算力領域邁出關鍵一步。
為支撐這一超大規模模型訓練,三方共同構建了專用計算集群。該集群由128個計算節點組成,每個節點搭載8塊AMD Instinct MI300X GPU,通過InfinityFabric高速互聯技術實現1024塊GPU的協同運算。集群峰值算力突破750PFLOPs(每秒75億億次浮點運算),配合Pensando網絡架構與ROCm軟件平臺,形成從硬件到算法的全棧優化體系。Zyphra特別針對AMD平臺開發了定制化訓練框架,確保集群在長達數月的訓練過程中保持99.9%以上的可用性。
ZAYA1的預訓練數據規模達14萬億tokens,采用漸進式課程學習策略:初期使用非結構化網絡文本構建基礎能力,中期引入數學公式、代碼庫等結構化數據強化邏輯推理,后期通過科學文獻提升專業領域理解。這種分階段訓練方式使模型在保持通用性的同時,在數學、編程等垂直領域形成差異化優勢。基準測試顯示,其綜合性能已比肩行業標桿Qwen3系列,在未經過指令微調的情況下,推理版本在STEM復雜任務上的表現接近Qwen3專業版,顯著優于SmolLM3、Phi4等開源模型。
模型架構層面的兩項創新是其性能突破的核心。研發團隊提出的CCA注意力機制(Compressive Convolutional Attention),通過在傳統注意力模塊中嵌入卷積操作,將計算復雜度降低40%,顯存占用減少35%。針對MoE模型普遍存在的專家負載不均問題,團隊重新設計了路由分配算法,使專家模塊的專業化程度提升60%,模型整體表達能力獲得質的飛躍。這些改進有效解決了Transformer架構在長序列處理中的計算瓶頸問題。
目前公布的ZAYA1為基礎模型預覽版,Zyphra團隊正在進行后訓練優化,計劃未來三個月內發布完整版本。該版本將增加多模態處理能力,并開放更詳細的訓練日志與性能分析報告。此次合作不僅驗證了AMD硬件在AI大模型訓練中的可行性,更為異構計算生態提供了新的技術范式,預計將推動AI基礎設施向更高效、更專業的方向發展。










