在科技行業的激烈競爭中,一家曾占據領先地位的科技巨頭,曾一度面臨被時代快速發展的浪潮甩在身后的困境。DeepMind首席技術官、Google首席AI架構師Koray Kavukcuoglu在一次訪談中,罕見地揭開了Google在過去兩年里真實的追趕歷程,這一過程并非聚焦于參數的堆砌或模型“神跡”的展示,而是深入探討了如何在龐大的企業架構中重新激發創新能力、優化工程流程、強化組織協作,并將技術切實轉化為具有市場競爭力的產品。
訪談中,Koray坦言,Gemini項目的啟動,源于一個令人警醒的認知——Google在大型語言模型(LLM)的起跑線上,已經遠遠落后于競爭對手。這一認知并非輕描淡寫的自我評價,而是基于對行業現狀的深刻洞察。它促使DeepMind摒棄了過去十年的自信,轉而從最基礎的用戶使用場景出發,重新構建訓練方式、產品開發策略、工程實施路徑以及組織協作模式。
Gemini 3在中國用戶中獲得的積極反饋,成為了一個引人注目的案例。用戶形容其“像Windows XP一樣穩定好使”,這一評價背后,是Google在模型、用戶界面(UI)和任務鏈路整合上的重大突破。過去,大模型雖展現出高智商,但在實際應用中卻顯得不夠“好用”。Gemini 3則通過優化用戶界面、穩定任務拆解、提升模型對人類意圖的理解能力,以及讓產品團隊從訓練階段就深度參與模型設計,實現了模型與真實用戶數據的直接反饋循環,從而顯著提升了用戶體驗。
面對外界對Google在基準測試(benchmark)中成績起伏不定的批評,Koray指出,主流基準測試正逐漸接近其自然上限,無法全面反映模型在真實世界中的表現。學生寫作、科學研究、專業翻譯、復雜跨語境對話等場景,遠非一個固定測試集所能涵蓋。因此,Google將模型的最終價值評估標準,從“得分”轉向了“能否有效幫助用戶完成任務”,這一轉變標志著Gemini的第一性原理發生了根本性變化。
從Gemini 3開始,Google明確了三個核心能力方向:指令遵從、國際化能力和工具調用與代碼執行。指令遵從要求模型能夠無歧義地理解和執行用戶的真實意圖,這對提升用戶體驗至關重要;國際化能力則強調模型需理解全球不同文化語境,而非僅限于翻譯能力的延伸;工具調用與代碼執行則是未來智能體的基礎,要求模型不僅能理解問題,還能執行任務、運行工具鏈,處理工程環境中的真實任務。這三者共同構成了Google的“Gemini設計哲學”——智能源于“可靠的執行”,而非“更聰明的對話”。
在多模態模型領域,Google雖擁有強大實力,但其智能體(Agent)的初期表現卻不盡如人意。Koray解釋稱,實驗室中的視覺理解研究,與真實用戶需求驅動的Agent場景存在巨大差異。真正的Agent能力,源于創作者的任務鏈路、學生的寫作流程、工程師的工具調用模式以及商業用戶的復雜需求。Google選擇了一條與OpenAI不同的路徑——以真實用戶需求為優先,而非依賴酷炫的演示來驅動Agent能力的發展。
Gemini 3的成功,得益于模型、產品、工程和安全團隊的首次全面整合。過去,這些團隊往往各自為戰,模型訓練完成后才由產品團隊接手,安全審核和工程部署則分別在后續階段進行。而今,產品團隊從訓練初期就深度參與,安全成為訓練目標而非后置規則,真實用戶數據直接反哺模型,使用成本、延遲和推理路徑在訓練階段就得到優化。這一統一體系的構建,為Google在2024至2025年的反超奠定了結構性基礎。
在圖像模型領域,Nano Banana Pro的突破并非體現在“畫圖變好看”,而在于其“理解世界結構”的能力。該模型能夠理解PDF、表格、圖表等復雜文檔結構,具備結構化的視覺推理能力,并能生成“概念一致的信息圖”。這一突破標志著多模態模型向真正理解世界邁出了重要一步,也為Agent的未來發展提供了有力支撐。
Koray強調,多模態模型不僅是功能的簡單疊加,更是通往“世界模型”的入口。文本、視覺和音頻分別代表了線性、空間和時序的感知維度,真實世界需要模型同時具備這三種感知能力。因此,Google在推進統一多模態模型上的堅持,源于對理解世界基礎的深刻認識。
統一模型的構建并非簡單地將視覺功能融入語言模型,而是一場深刻的架構革命。文本和圖像的輸出結構截然不同,訓練方式、損失函數、優化器和token化方式均需重新發明。這一工程極限的突破,體現了Google在技術創新上的不懈追求。
DeepMind的文化基因,由科學心態、謙遜和協作能力三部分組成。科學心態強調所有問題應回歸實驗與學習,而非依賴既有路徑;謙遜則體現在對未知領域的敬畏和持續探索的勇氣;協作能力則使團隊能夠從撰寫論文的小規模合作,擴展到推進單一模型的大規模協作。這一文化結構,在Google從科研向工程、從工程向產品轉型的過程中發揮了至關重要的作用。
規模既是Google面臨的挑戰,也是其最大的武器。隨著規模的擴大,保持一致性變得愈發困難,但規模本身也構成了強大的推進力。Google能夠同時推進統一模型、多產品落地、跨部門協作、全球化數據管線以及超大規模訓練與部署,得益于其世界上最成熟的基礎設施鏈路。這一鏈路的重啟,為Google的攻勢注入了新的活力。
在安全策略上,Google與OpenAI的最大差異在于方式而非嚴格程度。Google將安全視為訓練能力的一部分,而非訓練后添加的過濾器。這一策略天然適配Google的基礎設施規模,為模型的可靠性提供了有力保障。
面對統一模型與專用模型的路線選擇,Koray表示,這不是意識形態問題,而是效率問題。未來,統一模型與專用模型將并存,Google的策略是使用合適的工具完成合適的任務,而非堅持單一范式。這種務實態度,體現了Google對市場需求的深刻理解。
Google的真正底氣,源于其基礎設施的重新激活。Koray指出,智能規模化并非依賴天才算法,而是依靠強大的管線支持。能夠訓練、部署、迭代、處理全球數據并保持安全一致性的,是基礎設施而非算法本身。這一認識,為Google在大模型時代的競爭中提供了堅實支撐。
對于未來模型的路線,Google保持著開放和不確定的態度。Koray坦言,“我們不知道最終配方”,擴參、統一模型和多模態均非終局答案。這種“帶著不確定性繼續前行”的姿態,使Google在追求AGI的道路上顯得更加穩健和長遠。
Google的下一階段目標,將聚焦于深層推理、多步任務執行和復雜場景中的魯棒性。從“會回答”到“會行動”,這是整個行業的共同方向,而Google則給出了相對清晰的內部路徑。這一轉變,標志著Google在AI領域的探索正邁向新的高度。
在Gemini的誕生過程中,Google展現出了全公司規模的“科學工程項目”實力。訓練、數據、工程、產品、安全和協作等環節的重新對齊,構成了Gemini成功的基石。過去兩年,Google并未尋找捷徑,而是致力于恢復一個體系應有的速度和一致性。隨著這些基礎的穩固,一個屬于Google的節奏也重新顯現。





