在人工智能領域,大模型之間的競爭愈發激烈,用戶對模型的期待也水漲船高。如今,僅憑單一優勢已難以脫穎而出,要么在性能上實現斷層領先,要么能帶來前所未有的創新體驗。近期,豆包手機助手的發布便引發了廣泛關注,其多功能性與出色表現,讓不少人對“AI手機”的設想有了更真切的感受。
趁熱打鐵,豆包在火山引擎的FORCE大會上,推出了全新的基礎模型——豆包大模型1.8。這一新模型的優化方向十分明確,其目標不止于打造更強的聊天模型,而是致力于成為通用且面向真實世界的Agent代理。
豆包團隊在技術報告中展現出了難得的坦誠。在基礎跑分環節,對于表現不及競爭對手的項目,他們如實呈現,不夸大、不回避。在編程(LiveCodeBench)、高難數學(AIME)以及硬核科學推理等領域,Google的Gemini 3-Pro目前仍是行業標桿,豆包大模型1.8在這些方面確實稍顯遜色。然而,這種“遜色”并非毫無亮點,其含金量不容小覷。
在Agent能力測試中,豆包實現了對Gemini的反超。在GAIA測試(模擬日常任務執行)和BrowseComp測試(網上資料搜集)中,豆包新模型均取得了優異成績。尤其值得一提的是,在搜集英文資料(BrowseComp-en)方面,作為中國公司推出的大模型,豆包的表現遠超GPT、Gemini、Claude等外國公司的產品,這一成績令人矚目。
為了更直觀地感受豆包新模型的實際能力,我們進行了一系列測試。借助字節今年開源的Agent TARS框架,我們將豆包1.8新模型的API接入其中,嘗試讓其完成一些實際任務。例如,我們讓豆包協助完成多鄰國的打卡任務。只需簡單描述需求,豆包便能在瀏覽器中自動找到多鄰國網址,在手動登錄賬號后,它開始識別屏幕,逐步思考并完成任務。整個過程中,我們可以實時看到豆包的思考路徑,如在完成選擇后,它會主動尋找下一步的任務按鈕。
盡管任務執行耗時約16分鐘,速度不算快,但由于其在后臺運行,不影響其他操作,因此這一缺點并不影響其實用性。我們還讓豆包自動總結與具身智能相關的新聞并保存到本地,甚至詢問電腦型號和存儲空間剩余情況,它都能通過命令行查詢基礎信息,并以通俗易懂的語言反饋給我們。
豆包新模型的能力提升,源于多方面的技術優化。一方面,它不斷強化對圖像的理解能力。Seed1.8在同一接口中支持搜索、代碼生成與執行以及GUI交互,檢索到的信息、代碼運行結果和界面狀態都會納入下一步決策,形成閉環。團隊深知,真實環境中Agent能獲取的信息多為截圖、文字、圖標和按鈕,因此模型對屏幕的理解能力直接決定了任務完成度。
另一方面,豆包的“記性”也得到了顯著增強。視覺理解能力提升后,模型一次性理解的幀數翻倍。假設每六秒截一次屏幕,豆包能一口氣理解一小時內的電腦操作記錄。它還能邊看視頻邊調用工具,實現視頻的反復回看。例如,官網展示的例子中,模型先快速瀏覽整個視頻,再通過VIDEOCUT工具仔細回看關鍵片段,以加深理解。我們測試時,上傳了一段高速公路上車輛行駛的視頻,讓豆包統計黃色車輛數量,它不僅準確找到了黃車,還標記了出現時間。
豆包團隊還特別關注模型“聽人話”的能力。針對大模型有時難以理解復雜指令的問題,他們進行了針對性優化。例如,在Inverse IFeval測試集中,設計了許多“反直覺”題目。以一道類似雞兔同籠的問題為例,題目問籠子里有幾種動物,答案顯然是兩種,但這一簡單問題卻難倒了GPT,而豆包經過思考后給出了正確答案。
豆包1.8的模型兼容性也表現出色。近年來,通過命令行控制電腦的AI工具層出不窮,其效果取決于任務拆解能力和模型實力。豆包在不同框架下的代碼通過率穩定在64.8%至72.9%之間,顯示出其不挑工作環境的強大適應性。
隨著模型基礎能力的不斷提升,各AI廠商對AI發展的理解差異也逐漸顯現。Anthropic認為代碼即智能,DeepSeek堅持數學即智能,谷歌則強調理解即智能,而豆包的思路十分明確——Agent即智能。模型能力越強,越能操縱現實世界中的互聯網,便越接近AGI的目標。
在豆包大模型的發布會上,一組數據引發了熱議:目前,豆包大模型的日均使用量已達50萬億tokens,較去年剛發布時增長了417倍。這一數字不僅體現了AI發展的迅猛勢頭,也反映出各行業對AI的旺盛需求。在AI浪潮中,誰能更好地滿足實際需求,誰便能在競爭中占據先機。










