谷歌云AI研究團隊聯(lián)合谷歌DeepMind和俄亥俄州立大學(xué)的研究者,開發(fā)出一款名為"Watch & Learn"(簡稱W&L)的智能系統(tǒng),該系統(tǒng)通過觀看網(wǎng)絡(luò)教程視頻即可自動掌握各類軟件操作技能。這項突破性成果發(fā)表于學(xué)術(shù)平臺arXiv,論文編號為2510.04673v1,研究團隊由來自三所機構(gòu)的十余位專家組成,涵蓋人工智能、計算機視覺和人機交互等多個領(lǐng)域。
傳統(tǒng)AI學(xué)習(xí)軟件操作主要依賴人工標(biāo)注數(shù)據(jù)或復(fù)雜編程指令,而W&L系統(tǒng)開創(chuàng)了全新的學(xué)習(xí)范式。該系統(tǒng)無需任何人工干預(yù),僅通過分析視頻中連續(xù)的屏幕截圖變化,就能逆向推導(dǎo)出用戶執(zhí)行的操作步驟。這種"逆向動力學(xué)建模"方法將計算機操作學(xué)習(xí)轉(zhuǎn)化為視覺狀態(tài)轉(zhuǎn)換識別問題,就像通過觀察拼圖前后變化來還原操作過程,有效避免了傳統(tǒng)方法中多步驟處理帶來的誤差累積。
研究團隊構(gòu)建了包含53000個高質(zhì)量操作軌跡的龐大數(shù)據(jù)庫,覆蓋辦公軟件、編程工具、設(shè)計軟件等69種應(yīng)用程序。每個軌跡都詳細(xì)記錄了從鼠標(biāo)點擊到文本輸入的完整操作序列,相當(dāng)于為AI提供了數(shù)字化的"操作說明書"。這些數(shù)據(jù)通過自動化流水線收集,結(jié)合人工標(biāo)注的13.2萬個樣本,形成了超過63萬個狀態(tài)-動作-狀態(tài)三元組的訓(xùn)練語料庫。
系統(tǒng)核心架構(gòu)包含三個關(guān)鍵組件:動作分類器、坐標(biāo)預(yù)測器和語言生成器。動作分類器能識別點擊、滾動等五種基本操作;坐標(biāo)預(yù)測器將屏幕位置離散化為1000個整數(shù)區(qū)間,提升位置預(yù)測穩(wěn)定性;語言生成器則專門處理文本輸入任務(wù)。這種模塊化設(shè)計使系統(tǒng)能夠精準(zhǔn)解析各類復(fù)雜操作,在測試中達到91.6%的動作識別準(zhǔn)確率和96.4%的動作類型識別準(zhǔn)確率。
在實際應(yīng)用中,W&L系統(tǒng)展現(xiàn)出強大的泛化能力。當(dāng)需要執(zhí)行新任務(wù)時,系統(tǒng)會從視頻平臺檢索相關(guān)教程,通過過濾機制篩選高質(zhì)量內(nèi)容后,利用逆向動力學(xué)模型將視頻轉(zhuǎn)換為可執(zhí)行軌跡。這種自動化流程不僅適用于推理時的即時學(xué)習(xí),還能通過監(jiān)督微調(diào)持續(xù)提升模型性能。實驗表明,經(jīng)過視頻軌跡訓(xùn)練的開源模型Qwen 2.5-VL,在計算機操作任務(wù)上的成功率從1.9%躍升至13.0%。
基準(zhǔn)測試顯示,W&L系統(tǒng)在多個領(lǐng)域表現(xiàn)優(yōu)異。在Chrome瀏覽器配置、GIMP圖像處理等標(biāo)準(zhǔn)化操作場景中,系統(tǒng)能準(zhǔn)確復(fù)現(xiàn)人類操作步驟;但在VS Code編程、系統(tǒng)級配置等需要復(fù)雜文本輸入或精細(xì)交互的任務(wù)中,性能仍有提升空間。研究團隊特別指出,當(dāng)前系統(tǒng)尚不支持拖放操作,這主要受限于訓(xùn)練數(shù)據(jù)中此類交互的稀缺性。
這項技術(shù)為軟件自動化領(lǐng)域帶來革命性突破。未來用戶可能只需演示操作過程,AI助手就能自動完成重復(fù)性任務(wù),如數(shù)據(jù)整理、報表生成等。企業(yè)可通過分析專家操作視頻,構(gòu)建智能知識庫實現(xiàn)經(jīng)驗傳承;教育機構(gòu)能開發(fā)自適應(yīng)教學(xué)系統(tǒng),根據(jù)學(xué)習(xí)者進度提供個性化指導(dǎo)。研究團隊正在探索將強化學(xué)習(xí)與視頻學(xué)習(xí)相結(jié)合,進一步提升系統(tǒng)的自適應(yīng)能力。
盡管取得顯著進展,研究者坦言系統(tǒng)仍面臨多重挑戰(zhàn)。擴展動作空間以支持拖放等復(fù)雜操作、優(yōu)化軌跡粒度以適應(yīng)子任務(wù)學(xué)習(xí)、提升文本解碼準(zhǔn)確性等,都是需要突破的技術(shù)瓶頸。如何確保系統(tǒng)學(xué)習(xí)到安全規(guī)范的操作模式,避免傳播錯誤行為,也是實際應(yīng)用中必須解決的問題。這些挑戰(zhàn)為后續(xù)研究指明了方向,預(yù)示著人機協(xié)作將進入更加智能的新階段。












