合成孔徑雷達(SAR)因其獨特的主動式微波成像機制,在遙感領域占據重要地位。然而,傳統視覺模型多基于光學圖像開發,難以直接適配SAR圖像的特殊性質。哈工大團隊近日提出名為SUMMIT的SAR基礎模型,通過融合多輔助任務的自監督學習框架,在分類、檢測和分割等任務中取得突破性進展,相關論文發表于國際學術期刊。
SAR圖像的生成依賴于回波矢量疊加,導致其存在斑點噪聲和幾何畸變等光學圖像中不存在的特性。SAR圖像為單通道幅度信息,目標表征主要依賴強散射點和邊緣結構,而非光學圖像中的顏色與紋理。這些差異使得直接遷移光學模型至SAR領域效果不佳,且現有SAR預訓練數據集規模有限、質量參差不齊,進一步限制了模型性能。
針對上述挑戰,研究團隊以視覺Transformer(ViT)的掩碼自編碼器(MAE)架構為基礎,創新性地引入輔助任務協調模塊(ATCM)。該模塊將三個物理驅動的自監督任務——自監督去噪、邊緣特征增強和散射點特征提取——無縫集成至預訓練流程。例如,在去噪任務中,模型通過對數變換和模擬高斯噪聲注入,學習從含噪數據中恢復純凈信號;在散射點提取任務中,利用Harris角點檢測定位強后向散射中心,強化模型對目標關鍵結構的感知能力。
實驗結果表明,SUMMIT在多個主流數據集上顯著優于傳統方法。在目標檢測任務中,模型在SARDet-100K數據集上的平均精度(mAP)較直接微調的ViTDet提升至少5%,尤其在港口和停機坪等密集場景下,能有效區分重疊目標,減少漏檢與誤檢。目標分類任務中,模型在MSTAR數據集上展現卓越的小樣本學習能力:僅使用30%訓練數據時準確率達98.39%,全量數據下準確率高達99.89%,超越ResNet和Swin-Transformer等主流模型。
通過注意力熱力圖分析可進一步驗證模型對SAR物理機制的理解。對比普通ViT模型,SUMMIT的注意力高度集中在目標的強散射中心(如艦船甲板、飛機機身),而非受斑點噪聲干擾的背景區域。這一特性表明,輔助任務的設計成功引導模型聚焦于信號本質,而非噪聲干擾。
該研究證明,在垂直領域AI開發中,領域知識的深度融合至關重要。單純依賴數據規模難以解決SAR等復雜物理背景下的視覺問題,唯有將散射機制、噪聲分布等物理特性嵌入模型設計,才能實現真正意義上的性能突破。目前,團隊已開源相關代碼,為SAR遙感領域的智能化發展提供新工具。











