最近,謝賽寧團隊的新作 “iREPA” 便是源于一場持續了四個月的推特辯論。這場論戰雖以謝賽寧的讓步為結局,卻意外催生了一篇重要論文,展示了新穎的研究思路。
事件的起源可以追溯到八月份。當時,一位網友在推特上提出了關于自監督學習(SSL)模型的看法,認為它們應該專注于稠密任務,因為這些任務依賴于圖像的空間和局部信息,而不僅僅是全局分類性能。謝賽寧對此提出了反駁,認為全局性能與稠密任務并沒有直接關系。
網友們展開了熱烈的討論,其中一位網友還分享了可以與 REPA 進行比較的方案。這個討論激發了謝賽寧的興趣,并促使他深入探索這一問題。幾個月后,謝賽寧表示,自己之前的看法被修正,并且這篇論文的研究為理解視覺編碼器的生成能力提供了新視角。
在這篇論文中,研究者們探討了在預訓練視覺編碼器中,究竟是哪些部分決定了生成模型的表現。結果顯示,空間結構的信息,而非全局語義,才是驅動生成質量的關鍵因素。傳統觀點認為更好的全局語義信息能提升生成效果,但研究表明,實際上較低準確率的視覺編碼器往往能實現更好的生成性能。
為了解決這一問題,研究者們提出了 iREPA,這一新框架僅需三行代碼即可整合到任何表示對齊方法中。通過對 PA 的改,如用卷層替換傳統的 MLP 投影層,研究者們成功強化了空間結構信息,顯著提升了生成性能。
這次學術討論不僅展示了開放和的科研氛,更強調了通過交流和實驗獲取知識的重要性。










