一場發生在社交媒體平臺上的學術爭論,意外催生出一項重要的計算機視覺研究成果。研究人員謝賽寧近日公開表示,其團隊新提出的iREPA方法靈感源于四個多月前與網友的線上辯論,這項成果不僅顛覆了傳統認知,更通過極簡的代碼實現顯著提升了模型性能。
爭論的起點源于一位網友對自監督學習模型的質疑。該網友指出,當前研究過度依賴ImageNet-1K分類分數作為評價指標,而真正影響稠密任務(如目標檢測、語義分割)性能的關鍵在于patch tokens中的空間局部信息,而非[CLS]token代表的全局分類能力。這一觀點立即引發了謝賽寧的反駁,他堅持認為高層語義信息與低層像素特征同樣重要,模型性能與ImageNet得分存在強關聯。
隨著討論深入,更多研究者加入這場學術交鋒。有參與者提出通過對比PEspatial與PEcore兩種架構來驗證假設,這種將Gram-anchor對齊到早期網絡層的設計思路得到了謝賽寧的認可。團隊迅速展開實驗,使用G/14架構在448分辨率下進行測試,為后續研究奠定了基礎。
三個月后,實驗結果徹底改變了謝賽寧的立場。新論文通過大規模定量分析覆蓋27種視覺編碼器(包括DINO系列、SigLIP等)和三種模型規模,得出顛覆性結論:表征生成性能的關鍵驅動因素并非全局語義信息,而是空間結構特征。具體表現為:線性檢測準確率僅20%的編碼器,其生成效果反而優于準確率超80%的模型;強行通過CLS token注入全局語義會導致性能下降。
研究團隊進一步發現,具有更強空間自相似性的表征(即圖像局部區域間的關注模式)能顯著提升生成質量。令人驚訝的是,傳統空間特征提取方法(如SIFT、HOG)的表現與現代大規模視覺編碼器相當,這重新定義了空間信息在計算機視覺中的價值權重。
基于這些發現,研究團隊對現有表征對齊框架(REPA)進行關鍵改進:用卷積層替代標準MLP投影層,并引入空間規范化層。這些修改形成的iREPA方法僅需三行代碼即可集成到現有模型中,在REPA、REPA-E、Meanflow等多種訓練方案中均實現更快收斂速度。實驗數據顯示,改進后的方法在稠密任務中的性能提升具有顯著優勢。
這場始于社交媒體的學術爭論,最終演變為推動領域進步的重要突破。論文特別在致謝部分標注了參與討論的網友ID,這種開放包容的學術態度獲得廣泛贊譽。有參與者回應稱:"被致謝感到受寵若驚,這種即時糾錯的討論模式值得推廣。"謝賽寧將此次經歷形容為"線上茶水間效應"的實驗,強調從分歧到共識的轉化過程對科學發現的重要性。目前,相關代碼已開源,研究團隊期待更多研究者在此基礎上繼續探索空間信息的潛力邊界。











