全球人工智能領(lǐng)域迎來一項(xiàng)重要突破——AMD聯(lián)合IBM與AI初創(chuàng)企業(yè)Zyphra共同推出名為ZAYA1的混合專家(MoE)基礎(chǔ)模型。該模型成為首個(gè)完全基于AMD硬件架構(gòu)完成訓(xùn)練的同類產(chǎn)品,在數(shù)學(xué)、科學(xué)推理等核心能力上展現(xiàn)出與頭部模型競爭的實(shí)力,標(biāo)志著AMD在AI訓(xùn)練生態(tài)中的技術(shù)突破。
訓(xùn)練集群采用IBM Cloud部署的128個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)配備8張AMD Instinct MI300X加速器,總計(jì)1024張GPU通過InfinityFabric互聯(lián)技術(shù)構(gòu)建。該集群依托ROCm軟件棧實(shí)現(xiàn)高效協(xié)同,峰值算力達(dá)750PFLOPs。訓(xùn)練過程消耗14萬億tokens數(shù)據(jù),采用漸進(jìn)式課程學(xué)習(xí)策略,從通用網(wǎng)頁數(shù)據(jù)逐步過渡到數(shù)學(xué)、代碼及推理專項(xiàng)數(shù)據(jù)集。Zyphra團(tuán)隊(duì)表示,當(dāng)前版本為預(yù)訓(xùn)練基礎(chǔ)模型,后續(xù)將發(fā)布經(jīng)過指令微調(diào)的增強(qiáng)版本。
模型架構(gòu)包含兩項(xiàng)關(guān)鍵創(chuàng)新:其一為卷積壓縮注意力(CCA)機(jī)制,通過將卷積操作與注意力頭壓縮技術(shù)結(jié)合,在保持性能的同時(shí)降低32%顯存占用,長序列處理吞吐量提升18%;其二為線性路由混合專家系統(tǒng),通過細(xì)化專家粒度并引入負(fù)載均衡正則化,在Top-2路由策略下實(shí)現(xiàn)2.3個(gè)百分點(diǎn)的精度提升,即使在70%稀疏度條件下仍能維持90%以上的硬件利用率。
基準(zhǔn)測試顯示,ZAYA1-Base版本在MMLU-Redux、GSM-8K、MATH、ScienceQA等綜合評估中與Qwen3-Base持平,在CMATH數(shù)學(xué)推理和OCW-Math專業(yè)測試中表現(xiàn)顯著優(yōu)于對比模型。值得注意的是,該模型未經(jīng)指令微調(diào)即在STEM領(lǐng)域展現(xiàn)出接近專業(yè)版本的推理能力,驗(yàn)證了架構(gòu)設(shè)計(jì)的有效性。Zyphra計(jì)劃于2026年第一季度推出指令微調(diào)版本和強(qiáng)化學(xué)習(xí)對齊(RLHF)版本,屆時(shí)將開放API接口及模型權(quán)重下載。
AMD方面透露,此次合作驗(yàn)證了MI300X加速器與ROCm軟件棧在大規(guī)模MoE模型訓(xùn)練中的可行性。公司正與多家云服務(wù)提供商推進(jìn)"純AMD"訓(xùn)練集群的標(biāo)準(zhǔn)化部署,目標(biāo)在2026年訓(xùn)練超千億參數(shù)模型時(shí),使總擁有成本(TCO)達(dá)到與NVIDIA方案相當(dāng)?shù)乃健_@項(xiàng)進(jìn)展為AI訓(xùn)練硬件生態(tài)的多元化發(fā)展提供了新的技術(shù)路徑選擇。











