小米今日正式發布并開源了最新一代MoE架構大模型MiMo-V2-Flash,該模型總參數規模達3090億,激活參數150億,在推理、編碼及智能體應用場景中展現出顯著優勢。模型支持混合思維模式,用戶可自由切換深度思考與即時響應模式,并具備一鍵生成完整HTML網頁的能力,可與Claude Code、Cursor等主流編碼框架無縫協作。
在性能測試中,MiMo-V2-Flash與DeepSeek-V3.2形成直接競爭態勢。基準數據顯示,該模型在數學競賽AIME 2025和科學知識GPQA-Diamond測試中位列開源模型前二,軟件工程能力SWE驗證及多語言測試中更超越所有開源競品,性能表現與全球頂尖閉源模型持平。特別在長上下文處理方面,其性能已超越K2 Thinking模型,在SWE-Bench Verified測試中解決率達71.7%,BrowseComp搜索評估得分45.4,配合上下文管理后提升至58.3。
技術架構層面,模型采用全局注意力(GA)與滑動窗口注意力(SWA)的1:5混合結構,既保持了線性注意力的計算效率,又顯著提升了長文本處理能力。創新引入的多詞元預測(MTP)訓練技術,通過同步生成多個候選token并并行驗證的方式,使解碼吞吐量提升2-2.6倍。后訓練階段采用的多教師在線策略蒸餾(MOPD)方法,僅需傳統方法1/50的計算資源即可達成同等優化效果,形成"教學-學習"閉環迭代機制。
實際場景測試驗證了模型的多樣化能力:在網頁開發任務中,可生成包含商品輪播、規格選擇等功能的電商頁面,以及支持手勢交互的3D圣誕樹應用;在創意生成方面,能創作憂郁愛情故事和非虛構社會觀察作品;智能體交互測試中,既可解答"是否服用長生不老藥"等哲學問題,也能編寫科幻懸疑劇本。不過實測發現,部分復雜交互場景(如教育類太陽系探索器)仍存在穩定性問題,需多次生成才能達到預期效果。
該模型已實現全面開源,推理代碼完整貢獻至開發者社區SGLang,API服務開啟限時免費體驗。技術文檔顯示,在Prefill單機吞吐50000 toks/s條件下,16K上下文長度的解碼吞吐量達5000-15000 toks/s,單請求吞吐量151-115 toks/s。價格策略方面,輸入token單價0.7元/百萬,輸出token單價2.1元/百萬,顯著低于行業平均水平。
此次發布標志著小米大模型研發進入快車道。集團近期宣布將AI與現實世界深度結合列為未來十年核心戰略,AI業務投入連續四個季度環比增長超50%。為加速技術突破,小米同步啟動全球人才招募計劃,設立千萬元級崗位薪酬,重點引進大模型領域頂尖人才。技術團隊近三個月已密集發布多篇學術論文,并陸續開源多個預訓練模型,構建起完整的技術生態體系。






