在智能駕駛技術(shù)快速迭代的背景下,小米近日通過其最新發(fā)布的Xiaomi HAD增強(qiáng)版,向行業(yè)展示了在輔助駕駛領(lǐng)域的突破性進(jìn)展。這款系統(tǒng)不僅實(shí)現(xiàn)了從傳統(tǒng)端到端模仿學(xué)習(xí)向“模仿學(xué)習(xí)+強(qiáng)化學(xué)習(xí)”模式的范式升級(jí),更通過引入VLA(視覺-語言-行為模型)技術(shù),為解決長尾場景下的決策難題提供了新思路。
據(jù)小米智能駕駛VLA技術(shù)負(fù)責(zé)人陳龍介紹,此次增強(qiáng)版的核心突破在于學(xué)習(xí)機(jī)制的迭代。傳統(tǒng)端到端系統(tǒng)依賴千萬級(jí)駕駛視頻數(shù)據(jù)進(jìn)行模仿訓(xùn)練,而新版本通過世界模型構(gòu)建的虛擬環(huán)境,讓模型在反復(fù)試錯(cuò)中掌握最優(yōu)駕駛策略。這種“正向獎(jiǎng)勵(lì)+負(fù)向懲罰”的機(jī)制,使系統(tǒng)在面對(duì)突發(fā)加塞、施工占道等極端場景時(shí),能更貼合人類防御性駕駛的邏輯,決策可靠性與安全性顯著提升。
強(qiáng)化學(xué)習(xí)的應(yīng)用并非孤立存在。小米同步推進(jìn)的世界模型技術(shù),通過“道路環(huán)境數(shù)據(jù)+語言描述”的雙輸入模式,生成適配中國復(fù)雜路況的虛擬訓(xùn)練場景。例如,系統(tǒng)能通過語言描述理解不同城市的交通標(biāo)識(shí)差異,進(jìn)而在虛擬環(huán)境中模擬北京胡同的窄路會(huì)車、上海高架的匝道匯流等特色場景。這種“數(shù)據(jù)驅(qū)動(dòng)+語言增強(qiáng)”的方案,有效解決了仿真環(huán)境與真實(shí)道路的差距問題,為強(qiáng)化學(xué)習(xí)提供了更貼近實(shí)際的訓(xùn)練場。
VLA技術(shù)的引入,則直指端到端模型的“黑盒”痛點(diǎn)。陳龍以“寶寶學(xué)說話”類比:傳統(tǒng)端到端如同幼兒模仿發(fā)音卻不知含義,而VLA通過語言模態(tài)的加持,使系統(tǒng)具備“讀書認(rèn)字”的推理能力。當(dāng)遇到未在訓(xùn)練數(shù)據(jù)中出現(xiàn)的場景時(shí),VLA可借助互聯(lián)網(wǎng)通識(shí)數(shù)據(jù)(如交通規(guī)則、物理常識(shí))進(jìn)行邏輯推導(dǎo),例如通過識(shí)別“圓形紅底標(biāo)識(shí)”判斷禁止通行,或根據(jù)“右轉(zhuǎn)必停”的地方規(guī)則調(diào)整動(dòng)作。這種“理解式?jīng)Q策”能力,被認(rèn)為是通往L3/L4級(jí)自動(dòng)駕駛的必要條件。
在技術(shù)路徑選擇上,小米拒絕了開源模型的快速移植方案,轉(zhuǎn)而投入資源自研具身基座模型。該模型從大語言模型(LLM)階段即開始數(shù)據(jù)篩選,融入駕駛場景與機(jī)器人任務(wù)的專項(xiàng)訓(xùn)練,強(qiáng)化3D空間感知與推理能力。陳龍透露,這種“通用能力為基礎(chǔ)、駕駛場景為重點(diǎn)”的設(shè)計(jì),使模型既能適配車輛駕駛,也可擴(kuò)展至機(jī)器人、家居等跨場景應(yīng)用,形成“人車家全生態(tài)”的技術(shù)協(xié)同優(yōu)勢。
針對(duì)VLA可能帶來的時(shí)延問題,小米通過算力強(qiáng)化與模型優(yōu)化雙管齊下:一方面升級(jí)硬件基礎(chǔ)設(shè)施保障推理速度,另一方面在語言模態(tài)輸出端精簡token,移除口語化表述,僅保留關(guān)鍵決策信息。這種“效率優(yōu)先”的調(diào)整,使系統(tǒng)在增加認(rèn)知能力的同時(shí),仍能保持流暢的交互體驗(yàn)。
技術(shù)落地的優(yōu)先級(jí)排序中,小米明確將算法置于首位。陳龍引用特斯拉前AI負(fù)責(zé)人觀點(diǎn)指出,當(dāng)前輔助駕駛的核心矛盾仍在軟件層面,硬件與算力僅作為彌補(bǔ)算法短板的補(bǔ)充手段。例如,當(dāng)算法無法通過純視覺方案實(shí)現(xiàn)高精度感知時(shí),可增加激光雷達(dá)提升可靠性;當(dāng)VLA推理需要更復(fù)雜計(jì)算時(shí),再通過算力升級(jí)保障響應(yīng)速度。這種“軟件定義硬件”的思路,體現(xiàn)了小米對(duì)技術(shù)本質(zhì)的深刻理解。
作為較早參與端到端與VLA研發(fā)的科學(xué)家,陳龍的職業(yè)軌跡折射出中國智能駕駛領(lǐng)域的人才聚集趨勢。這位35歲的前英國Wayve核心成員,在對(duì)比國內(nèi)外駕駛場景后發(fā)現(xiàn),國內(nèi)道路中電瓶車橫穿、突發(fā)加塞等不可預(yù)測場景更多,對(duì)系統(tǒng)靈活性與安全性的要求更高。這種本土化需求,加上小米“人車家全生態(tài)”的愿景吸引,最終促成其回國加入小米。他透露,小米1用戶身份與雷軍親自溝通的經(jīng)歷,強(qiáng)化了自身對(duì)品牌價(jià)值觀的認(rèn)同——這種“做感動(dòng)人心的好產(chǎn)品”的理念,與VLA技術(shù)“讓AI落地物理世界”的追求高度契合。
隨著Xiaomi HAD增強(qiáng)版隨HyperOS 1.11系列推送至用戶,小米的智能駕駛技術(shù)進(jìn)入全新階段。從端到端到強(qiáng)化學(xué)習(xí),從世界模型到VLA,這家以手機(jī)起家的科技企業(yè),正通過持續(xù)的技術(shù)深耕,在智能駕駛賽道上構(gòu)建差異化競爭力。而陳龍帶領(lǐng)的團(tuán)隊(duì),能否憑借“難但正確”的技術(shù)路線,在L3/L4級(jí)自動(dòng)駕駛的終極目標(biāo)上實(shí)現(xiàn)突破,將成為行業(yè)后續(xù)關(guān)注的焦點(diǎn)。









