近日,針對網(wǎng)絡(luò)上關(guān)于豆包手機助手技術(shù)實現(xiàn)方式的質(zhì)疑,豆包官方發(fā)布了一份詳細的技術(shù)說明,對相關(guān)誤解進行了澄清。此前,有網(wǎng)友發(fā)布視頻聲稱,豆包手機助手通過特定權(quán)限繞過系統(tǒng)限制,獲取了銀行安全鍵盤等受保護界面的內(nèi)容。對此,豆包明確表示,這些說法是對其技術(shù)原理的錯誤解讀。
豆包手機助手在說明中指出,其采用的是系統(tǒng)原生截屏接口(WindowManagerService.captureDisplay),并嚴格遵循應(yīng)用聲明的Secure標記規(guī)則。這意味著,對于銀行等應(yīng)用中標記為受保護的界面內(nèi)容,豆包手機助手無法進行截屏操作。為了驗證這一點,豆包鼓勵用戶自行測試,通過編寫帶有受保護頁面的APK,觀察AI是否能夠“看到”這些內(nèi)容。測試結(jié)果顯示,AI無法獲取這些受保護的信息。
針對網(wǎng)友提到的READ_frame_BUFFER權(quán)限,豆包解釋稱,這一權(quán)限的申請是為了支持AI在后臺完成操作。具體而言,豆包手機助手將第三方應(yīng)用運行在虛擬屏空間中,并通過該權(quán)限獲取虛擬屏中的截圖內(nèi)容,以供豆包大模型進行推理分析。然而,這一過程并不會突破Secure標記的限制,無法讀取到包括銀行App在內(nèi)的任何第三方應(yīng)用設(shè)置為Secure的內(nèi)容。
關(guān)于CAPTURE_SECURE_VIDEO_OUTPUT權(quán)限的使用,豆包進一步說明,這是為了解決受保護頁面在虛擬屏投影中顯示為黑屏的問題。由于用戶無法查看和操作黑屏界面,因此需要此權(quán)限將受保護內(nèi)容正常展示給用戶。盡管如此,投影后的頁面仍會保留Secure標記,僅允許用戶查看,而無法被截屏或進一步獲取。
豆包手機助手的操作流程基于用戶指令展開:用戶下達指令后,系統(tǒng)會截屏并發(fā)送至云端豆包大模型;模型理解指令后返回具體操作,手機端再執(zhí)行這些指令。這一過程需要不斷重復(fù),直至任務(wù)完成。由于每一步操作后都需要重新截圖上傳分析,因此操作間隔約為3秒鐘。豆包強調(diào),這一設(shè)計是為了確保AI能夠準確理解用戶意圖,而截圖上傳僅用于視覺理解和推理,不會存儲在云端。
針對技術(shù)實現(xiàn)的限制,豆包解釋稱,由于分析界面所需的大模型參數(shù)規(guī)模較大,受限于當前手機芯片性能,暫時無法在端側(cè)運行。因此,截圖上傳云端處理成為必要選擇。據(jù)了解,國內(nèi)多家手機廠商的AI操作助手產(chǎn)品也采用類似原理,并同樣需要申請READ_frame_BUFFER等系統(tǒng)權(quán)限。
豆包在說明中重申,用戶隱私安全是其核心關(guān)注點。豆包手機助手僅在用戶主動下達指令時啟動截屏功能,且無法截取第三方應(yīng)用的Secure標記頁面。所有上傳至云端的截圖均用于任務(wù)執(zhí)行,完成后即被刪除,不會留存。豆包表示,將繼續(xù)以負責任的態(tài)度回應(yīng)技術(shù)質(zhì)疑,并歡迎社會各界提出改進建議。










