meta近日宣布推出第三代“分割一切”模型Segment Anything Models(SAM)的升級(jí)版本SAM 3,同時(shí)發(fā)布面向3D重建的開(kāi)源模型SAM 3D。這款新模型在圖像與視頻分割領(lǐng)域?qū)崿F(xiàn)重大突破,首次支持通過(guò)自然語(yǔ)言描述和圖像示例實(shí)現(xiàn)動(dòng)態(tài)物體識(shí)別、分割與追蹤。相關(guān)技術(shù)將率先整合至Instagram視頻創(chuàng)作工具Edits及meta AI應(yīng)用中,并計(jì)劃通過(guò)Segment Anything Playground平臺(tái)向公眾開(kāi)放體驗(yàn)。
SAM 3的核心創(chuàng)新在于引入“可提示概念分割”(Promptable Concept Segmentation)能力,用戶僅需輸入“條紋紅色雨傘”等自然語(yǔ)言描述,模型即可自動(dòng)識(shí)別并分割圖像或視頻中所有符合條件的實(shí)例。這一技術(shù)突破擺脫了傳統(tǒng)模型依賴固定標(biāo)簽集的局限,支持開(kāi)放詞匯分割。在性能測(cè)試中,該模型在英偉達(dá)H200 GPU上處理單張含百余物體的圖像僅需30毫秒,在五目標(biāo)并發(fā)視頻場(chǎng)景中可維持接近實(shí)時(shí)處理速度。基準(zhǔn)測(cè)試顯示,其性能較現(xiàn)有系統(tǒng)提升一倍,在LVIS數(shù)據(jù)集零樣本分割任務(wù)中準(zhǔn)確率達(dá)47.0,用戶偏好測(cè)試中以三比一優(yōu)勢(shì)超越OWLv2模型。
為解決自然語(yǔ)言與視覺(jué)元素關(guān)聯(lián)難題,meta構(gòu)建了包含21.4萬(wàn)個(gè)獨(dú)特概念的SA-Co基準(zhǔn)數(shù)據(jù)集,覆蓋12.4萬(wàn)張圖像和1700個(gè)視頻,概念范圍達(dá)現(xiàn)有基準(zhǔn)的50倍以上。SAM 3支持多種提示方式,除文本描述外,還可接受點(diǎn)、框、掩碼等視覺(jué)提示,甚至能處理“坐著但沒(méi)有拿禮物盒的人”等復(fù)雜推理型指令。當(dāng)與多模態(tài)大語(yǔ)言模型配合時(shí),其在ReasonSeg和OmniLabel等需要推理的分割任務(wù)中表現(xiàn)優(yōu)異,且無(wú)需額外訓(xùn)練數(shù)據(jù)。
在數(shù)據(jù)處理層面,meta開(kāi)發(fā)了創(chuàng)新型人機(jī)協(xié)作數(shù)據(jù)引擎。該系統(tǒng)將SAM 3、人類(lèi)標(biāo)注者與AI模型結(jié)合,形成自動(dòng)化標(biāo)注流水線:AI模型首先挖掘圖像視頻并生成初始分割掩碼,人類(lèi)與AI標(biāo)注者共同驗(yàn)證修正,形成反饋循環(huán)。其中AI標(biāo)注器基于Llama 3.2v模型訓(xùn)練,在掩碼質(zhì)量驗(yàn)證等任務(wù)中達(dá)到或超越人類(lèi)水平。這一方案使負(fù)提示標(biāo)注速度較純?nèi)斯ぬ嵘?倍,細(xì)粒度領(lǐng)域正提示標(biāo)注效率提高36%,最終構(gòu)建出包含超400萬(wàn)個(gè)獨(dú)特概念的訓(xùn)練集。
同步推出的SAM 3D包含兩個(gè)子模型:SAM 3D Objects實(shí)現(xiàn)單張自然圖像的3D形狀、紋理與物體布局重建,通過(guò)新訓(xùn)練方案標(biāo)注近百萬(wàn)張圖像,生成314萬(wàn)個(gè)網(wǎng)格模型,在人類(lèi)偏好測(cè)試中以五比一優(yōu)勢(shì)領(lǐng)先;SAM 3D Body則專(zhuān)注于復(fù)雜場(chǎng)景下的3D人體姿態(tài)估計(jì),支持分割掩碼等交互式輸入。該模型訓(xùn)練數(shù)據(jù)集包含800萬(wàn)張圖像,涵蓋異常姿勢(shì)、遮擋及多人場(chǎng)景,在多個(gè)基準(zhǔn)測(cè)試中準(zhǔn)確性顯著提升。
實(shí)際應(yīng)用方面,SAM 3已拓展至科研領(lǐng)域。與Conservation X Labs合作構(gòu)建的SA-FARI數(shù)據(jù)集包含超1萬(wàn)個(gè)相機(jī)陷阱視頻,覆蓋100余物種,每幀動(dòng)物均標(biāo)注邊界框與分割掩碼;蒙特雷灣水族館研究所主導(dǎo)的FathomNet項(xiàng)目則開(kāi)放了水下圖像分割掩碼與實(shí)例分割基準(zhǔn)。這兩個(gè)數(shù)據(jù)集將助力全球AI社區(qū)開(kāi)發(fā)野生動(dòng)物監(jiān)測(cè)與海洋保護(hù)創(chuàng)新方案。
meta同步宣布,上述技術(shù)將率先應(yīng)用于Facebook Marketplace的“房間預(yù)覽”功能,幫助用戶可視化家居裝飾品的擺放效果。Segment Anything Playground平臺(tái)則提供零技術(shù)門(mén)檻的交互體驗(yàn),用戶可上傳圖像視頻并嘗試不同提示方式,直觀感受AI分割技術(shù)的實(shí)際應(yīng)用場(chǎng)景。











