在清華大學交叉信息學院的實驗室里,助理教授吳翼正帶領團隊攻克強化學習領域的前沿課題。這位90后學者與螞蟻集團研究院合作開發的異步強化學習訓練框架AReaL-lite,于今年5月正式開源后,已在AI訓練效率提升方面展現出顯著優勢。該框架通過優化GPU資源調度,成功將訓練過程中的資源浪費率降低40%,這項突破源于吳翼團隊對傳統訓練模式的顛覆性思考。
吳翼的科研軌跡呈現出獨特的探索路徑。2023年創立的邊塞科技作為AReaL項目的前身,雖經歷創業初期的團隊磨合陣痛,卻為后續技術突破積累了寶貴經驗。"真正的創新者要敢于到無人區開拓",這位清華博導在指導學生時反復強調。他獨創的"快速決策法"頗具趣味:當面臨艱難選擇時,拋硬幣的瞬間往往能讓人看清內心真實傾向,這種將直覺與理性結合的方式,幫助他在科研方向上多次做出關鍵抉擇。
在具身智能領域,吳翼描繪出令人振奮的未來圖景。他預測智能體將突破數字世界界限,通過多模態交互成為物理世界的"智慧大腦"。以家庭場景為例,用戶只需發出"整理房間"的模糊指令,機器人就能自主規劃數小時的清潔任務,甚至預判主人未明說的需求。這種能力源于強化學習特有的探索機制——讓AI在實踐反饋中持續優化行為策略,而非依賴人類預設的固定程序。
技術落地的挑戰同樣不容忽視。吳翼坦言,從數字智能體到物理具身化的跨越面臨雙重考驗:數字世界的指令執行成功率可達99%,而現實場景中機器人完成開門、抓取等動作的成功率仍不足60%。他提出的解決方案是構建分層架構:將運動控制等底層能力比作"小腦",負責即時反應;將預訓練大模型作為"大腦",處理復雜推理。這種設計既保留了強化學習在動態環境中的適應性,又借助大模型的先驗知識提升任務規劃能力。
在組織管理方面,吳翼正在螞蟻集團內部推行極簡團隊模式。他打造的6人核心團隊打破傳統分工壁壘,算法工程師同時承擔系統架構與數據處理工作。"當團隊規模超過200人,溝通效率就會成為瓶頸",這位崇尚"小而美"的學者解釋道。他要求成員每天使用AI工具處理至少30%的工作,這種"以AI養AI"的模式不僅提升效率,更催生出新的產品靈感。
社交媒體上的吳翼展現出與實驗室截然不同的面貌。這位自稱"高能量I人"的教授在小紅書平臺擁有數萬粉絲,他分享的科研日常常配以奶茶打卡照片,招聘啟事也巧妙融入生活元素。這種親和力背后,是對技術傳播的深刻理解:"酒香也怕巷子深,AI時代更要主動展示創新成果"。從字節跳動實習生成長為學術帶頭人,吳翼用十年時間走出了一條獨特的AI創新之路。
對于技術倫理的思考貫穿吳翼的科研生涯。當被問及是否愿意為理想隱姓埋名時,他給出肯定答復:"如果能建立從0到1的突破,我愿意在后續階段退居幕后。"這種務實態度體現在他對獎勵機制的研究中——相比追求海量數據,他更關注如何設計"恰到好處"的提示詞,就像教師為學生布置難度適中的習題,這種精細化的訓練方法正在重塑AI的能力邊界。











