meta近日宣布推出第三代“分割一切”模型Segment Anything Models(SAM)——SAM 3,在圖像與視頻分割領(lǐng)域?qū)崿F(xiàn)關(guān)鍵技術(shù)突破。該模型首次支持用戶通過自然語言描述和圖像示例,精準(zhǔn)識(shí)別、分割及追蹤視頻中的任意物體,同時(shí)發(fā)布開源的3D重建模型SAM 3D,并計(jì)劃將其整合至Instagram視頻創(chuàng)作工具Edits和meta AI應(yīng)用中。
SAM 3的核心創(chuàng)新在于引入“可提示概念分割”(Promptable Concept Segmentation,簡(jiǎn)稱PCS)能力。用戶僅需輸入“條紋紅色雨傘”等自然語言提示,模型即可自動(dòng)識(shí)別并分割圖像或視頻中所有符合條件的實(shí)例,突破傳統(tǒng)模型依賴固定標(biāo)簽集的限制。這一技術(shù)使模型能夠處理更復(fù)雜的語義描述,例如“坐著但沒有拿禮物盒的人”,顯著提升分割的靈活性與實(shí)用性。
在性能測(cè)試中,SAM 3展現(xiàn)出顯著優(yōu)勢(shì)。其處理速度在單張包含超百個(gè)物體的圖像時(shí)僅需30毫秒,在五路并發(fā)目標(biāo)的視頻場(chǎng)景中仍能保持接近實(shí)時(shí)性能。SA-Co基準(zhǔn)測(cè)試顯示,其性能較現(xiàn)有系統(tǒng)提升一倍,在LVIS數(shù)據(jù)集的零樣本分割任務(wù)中準(zhǔn)確率達(dá)47.0,超越此前38.5的紀(jì)錄。用戶偏好測(cè)試中,其輸出效果以三比一的比例優(yōu)于基準(zhǔn)模型OWLv2。
為解決傳統(tǒng)模型在自然語言與視覺元素關(guān)聯(lián)上的局限,meta構(gòu)建了SA-Co基準(zhǔn)數(shù)據(jù)集,包含21.4萬個(gè)獨(dú)特概念、12.4萬張圖像及1700個(gè)視頻,概念覆蓋范圍是現(xiàn)有基準(zhǔn)的50倍以上。SAM 3支持多種提示方式,除文本提示外,還可通過點(diǎn)、框、掩碼等視覺提示進(jìn)行分割,尤其適用于罕見或難以用文字描述的場(chǎng)景。當(dāng)與多模態(tài)大語言模型結(jié)合時(shí),其在ReasonSeg和OmniLabel等復(fù)雜推理分割任務(wù)中表現(xiàn)優(yōu)異,且無需額外訓(xùn)練數(shù)據(jù)。
數(shù)據(jù)標(biāo)注方面,meta開發(fā)了創(chuàng)新的人機(jī)協(xié)作引擎,將模型、人類標(biāo)注者與AI系統(tǒng)結(jié)合,標(biāo)注速度提升顯著。對(duì)于負(fù)提示(圖像中不存在的概念),標(biāo)注效率較純?nèi)斯ぬ嵘灞叮辉诩?xì)粒度領(lǐng)域,正提示標(biāo)注速度提高36%。該系統(tǒng)已生成包含超400萬個(gè)獨(dú)特概念的訓(xùn)練集,AI標(biāo)注者基于Llama 3.2v模型,在掩碼質(zhì)量驗(yàn)證等任務(wù)中達(dá)到或超越人類水平,使整體吞吐量翻倍。
同步發(fā)布的SAM 3D包含兩個(gè)前沿模型:SAM 3D Objects與SAM 3D Body。前者可從單張自然圖像重建3D形狀、紋理及物體布局,突破物理世界3D數(shù)據(jù)瓶頸。通過多階段訓(xùn)練方案,該模型標(biāo)注近百萬張圖像,生成314萬個(gè)網(wǎng)格模型,在人類偏好測(cè)試中以五比一的優(yōu)勢(shì)領(lǐng)先其他模型,并支持機(jī)器人等近實(shí)時(shí)3D感知應(yīng)用。后者專注于人體姿勢(shì)與形狀估計(jì),即使面對(duì)遮擋或異常姿勢(shì)仍能保持高精度,支持交互式輸入如分割掩碼,訓(xùn)練數(shù)據(jù)集規(guī)模達(dá)800萬張圖像。
實(shí)際應(yīng)用層面,SAM 3已拓展至科研領(lǐng)域。meta與Conservation X Labs合作推出SA-FARI數(shù)據(jù)集,包含超萬個(gè)相機(jī)陷阱視頻,覆蓋100余種野生動(dòng)物,每幀均標(biāo)注邊界框與分割掩碼。海洋研究方面,F(xiàn)athomNet數(shù)據(jù)庫開放水下圖像分割掩碼與實(shí)例分割基準(zhǔn),助力AI驅(qū)動(dòng)的海洋探索。meta與Roboflow合作提供模型微調(diào)工具,用戶可標(biāo)注數(shù)據(jù)并定制SAM 3以滿足特定需求。
盡管技術(shù)領(lǐng)先,SAM 3仍存在局限。在細(xì)粒度領(lǐng)域外概念(如醫(yī)學(xué)術(shù)語“血小板”)的零樣本泛化能力較弱,視頻追蹤成本隨物體數(shù)量線性增長(zhǎng),且物體間缺乏通信機(jī)制。這些挑戰(zhàn)為后續(xù)研究指明方向,推動(dòng)分割技術(shù)向更精細(xì)化、場(chǎng)景化發(fā)展。











