計(jì)算機(jī)視覺(jué)領(lǐng)域迎來(lái)一項(xiàng)突破性進(jìn)展——由國(guó)際科研團(tuán)隊(duì)開(kāi)發(fā)的“球形利奇量化”技術(shù),成功將AI圖像生成的視覺(jué)詞匯量提升至近20萬(wàn)個(gè),使模型生成的圖像質(zhì)量達(dá)到接近人類專業(yè)評(píng)估標(biāo)準(zhǔn)的水平。該研究由跨機(jī)構(gòu)團(tuán)隊(duì)聯(lián)合完成,其核心創(chuàng)新在于運(yùn)用高維幾何理論重構(gòu)了AI處理視覺(jué)信息的基礎(chǔ)框架,為視覺(jué)AI的發(fā)展開(kāi)辟了全新路徑。
傳統(tǒng)AI圖像生成模型長(zhǎng)期受限于“視覺(jué)詞匯”的規(guī)模。現(xiàn)有技術(shù)通常依賴1000至1.6萬(wàn)個(gè)視覺(jué)單元描述圖像,如同用有限色板創(chuàng)作復(fù)雜畫作,難以精準(zhǔn)捕捉細(xì)節(jié)與層次。研究團(tuán)隊(duì)通過(guò)類比指出,這種限制類似于人類僅掌握幾十個(gè)單詞進(jìn)行交流,表達(dá)能力嚴(yán)重受限。突破這一瓶頸的關(guān)鍵,在于解決高維空間中視覺(jué)單元的最優(yōu)排列問(wèn)題。
科研人員從數(shù)學(xué)領(lǐng)域的“格子編碼理論”中汲取靈感,發(fā)現(xiàn)傳統(tǒng)量化方法本質(zhì)上是不同維度的“座椅排列方案”,但均存在分布不均的缺陷。經(jīng)過(guò)統(tǒng)一理論分析,團(tuán)隊(duì)鎖定24維空間中的“利奇格子”作為解決方案。這種由數(shù)學(xué)家約翰·利奇于1967年發(fā)現(xiàn)的特殊點(diǎn)陣結(jié)構(gòu),在理論層面實(shí)現(xiàn)了24維空間的最優(yōu)球面堆積,其第一層殼層包含196,560個(gè)精確排列的點(diǎn),為構(gòu)建大規(guī)模視覺(jué)詞匯表提供了數(shù)學(xué)基礎(chǔ)。
技術(shù)實(shí)現(xiàn)層面,研究團(tuán)隊(duì)將利奇格子的點(diǎn)投影至單位球面,形成分布均勻的視覺(jué)單元集合。每個(gè)單元間的距離達(dá)到理論最優(yōu)值,確保模型能以數(shù)學(xué)上的完美結(jié)構(gòu)處理視覺(jué)信息。這種設(shè)計(jì)帶來(lái)三大核心優(yōu)勢(shì):訓(xùn)練過(guò)程無(wú)需復(fù)雜參數(shù)調(diào)節(jié),計(jì)算效率顯著提升;固定詞匯表結(jié)構(gòu)降低內(nèi)存占用;圖像重建質(zhì)量評(píng)估指標(biāo)從1.14優(yōu)化至0.83,提升幅度達(dá)27%。
在權(quán)威數(shù)據(jù)集ImageNet-1k的測(cè)試中,采用新技術(shù)的模型展現(xiàn)驚人表現(xiàn)。其生成的圖像FID分?jǐn)?shù)達(dá)1.82,接近1.78的人類評(píng)估基準(zhǔn),標(biāo)志著AI創(chuàng)作與真實(shí)圖像的界限進(jìn)一步模糊。更值得關(guān)注的是,該模型成為首個(gè)使用近20萬(wàn)視覺(jué)詞匯的生成系統(tǒng),詞匯規(guī)模已與前沿語(yǔ)言模型相當(dāng)。在圖像壓縮任務(wù)中,新技術(shù)在Kodak標(biāo)準(zhǔn)測(cè)試中以更少存儲(chǔ)空間實(shí)現(xiàn)更高重建質(zhì)量,展現(xiàn)出跨領(lǐng)域應(yīng)用潛力。
針對(duì)大詞匯量帶來(lái)的技術(shù)挑戰(zhàn),團(tuán)隊(duì)創(chuàng)新性地引入“d-位預(yù)測(cè)”機(jī)制。通過(guò)將每個(gè)視覺(jué)單元的坐標(biāo)分解為24個(gè)9元分類任務(wù),在保持預(yù)測(cè)精度的同時(shí)大幅簡(jiǎn)化計(jì)算。實(shí)驗(yàn)證實(shí),詞匯量擴(kuò)張與生成質(zhì)量提升呈正相關(guān),當(dāng)模型規(guī)模突破臨界點(diǎn)后,表達(dá)能力呈現(xiàn)質(zhì)的飛躍。對(duì)比現(xiàn)有技術(shù),新方法在PSNR、SSIM、LPIPS等重建指標(biāo),以及精確度與召回率平衡性上均取得領(lǐng)先。
該研究的理論價(jià)值同樣突出。團(tuán)隊(duì)證明量化方法的幾何特性直接決定性能上限,通過(guò)將問(wèn)題轉(zhuǎn)化為密球堆積優(yōu)化,首次找到該領(lǐng)域的理論最優(yōu)解。這種從基礎(chǔ)數(shù)學(xué)原理出發(fā)的研發(fā)思路,為后續(xù)研究提供了范式參考。目前,研究團(tuán)隊(duì)已公開(kāi)全部代碼,其高度優(yōu)化的計(jì)算特性使得技術(shù)可快速應(yīng)用于實(shí)際場(chǎng)景。
這項(xiàng)成果不僅推動(dòng)視覺(jué)AI邁向新高度,更印證了基礎(chǔ)理論研究對(duì)技術(shù)突破的關(guān)鍵作用。隨著技術(shù)迭代,其在專業(yè)圖像處理、視頻制作等領(lǐng)域的應(yīng)用將率先落地,后續(xù)可能向消費(fèi)級(jí)產(chǎn)品滲透。通過(guò)構(gòu)建數(shù)學(xué)與工程的橋梁,科研人員為AI理解視覺(jué)世界提供了更接近人類認(rèn)知的解決方案。











