OpenAI 近日公開承認,具備代理(Agent)能力的 AI 瀏覽器在架構上存在天然的安全漏洞,目前很難徹底消除“提示注入”(Prompt Injection)攻擊的風險。這意味著,即便安全防護不斷升級,這種攻擊方式仍將是 AI 領域面臨的一項長期技術挑戰,而非一個可以被短期“修復”的 Bug。
自 OpenAI 于今年10月推出內置在 ChatGPT 中的 Atlas AI 瀏覽器 以來,安全隱患便備受關注。研究人員發現,攻擊者只需在網頁或文檔中植入特定指令,就能在用戶不知情的情況下操控瀏覽器的底層行為。由于 AI 代理擁有訪問郵箱、執行支付等高權限,一旦遭受攻擊,極易導致敏感數據泄露或誤操作。
為了應對這一頑疾,OpenAI 正在嘗試一種差異化的防御路徑。他們開發了一個基于大模型的“自動化攻擊者”系統。該系統利用強化學習技術,模擬黑客行為對 AI 代理進行高頻攻防演練。通過深入洞察模型內部的推理過程,這個“機器人黑客”能發掘出人類測試者難以察覺的新型攻擊路徑,從而幫助開發團隊在真實威脅發生前完成補丁修復。
行業專家指出,AI 瀏覽器的風險在于其“自主權”與“訪問權限”的乘積。目前,包括 Google 和 Brave 在內的廠商也在尋求多層防御策略。OpenAI 建議用戶,在現階段應避免賦予 AI 代理過于寬泛的權限,例如在涉及發送郵件或發起支付等關鍵動作時,必須保留人工確認環節。






