編程領(lǐng)域知名開發(fā)者卡帕西近日推出了一款名為“大模型議會(huì)”的Web應(yīng)用,該應(yīng)用通過創(chuàng)新機(jī)制讓多個(gè)大語言模型協(xié)同工作,引發(fā)技術(shù)社區(qū)廣泛關(guān)注。與傳統(tǒng)單一模型對話界面不同,這個(gè)系統(tǒng)采用類似議會(huì)制的架構(gòu),在用戶提交問題后,會(huì)同時(shí)激活多個(gè)大模型進(jìn)行集體討論。
系統(tǒng)運(yùn)行流程分為三個(gè)核心環(huán)節(jié):首先通過OpenRouter中間層同步調(diào)用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等主流模型,所有回復(fù)以標(biāo)簽頁形式并列展示;接著進(jìn)入匿名互評階段,每個(gè)模型會(huì)收到其他參與者的回答,在隱藏身份信息的情況下,依據(jù)準(zhǔn)確性和洞察力進(jìn)行評分并給出詳細(xì)理由;最終由指定主席模型整合所有評價(jià),形成綜合答案返回給用戶。
這種設(shè)計(jì)不僅實(shí)現(xiàn)了模型間的橫向?qū)Ρ龋暾尸F(xiàn)了人工智能的決策過程。開發(fā)者特別強(qiáng)調(diào),匿名機(jī)制有效避免了模型間的偏袒行為,測試數(shù)據(jù)顯示模型在互評時(shí)表現(xiàn)出較高客觀性,多數(shù)情況下能承認(rèn)自身不足。例如在某次測試中,盡管GPT-5.1被多數(shù)模型評為最佳答案,但仍有模型指出其結(jié)構(gòu)松散的問題。
該項(xiàng)目的GitHub倉庫上線后迅速獲得1.8k星標(biāo),技術(shù)社區(qū)出現(xiàn)多種創(chuàng)新應(yīng)用場景。有開發(fā)者提出將這種自評估機(jī)制發(fā)展為新型自動(dòng)評測基準(zhǔn),通過模型間的交叉驗(yàn)證提升評估可靠性。暢銷技術(shù)書籍作者在體驗(yàn)后認(rèn)為,這種多模型協(xié)作模式可能重塑人工智能產(chǎn)品的開發(fā)范式,特別是在需要綜合判斷的復(fù)雜任務(wù)領(lǐng)域。
實(shí)際測試中,不同模型展現(xiàn)出鮮明個(gè)性特征。GPT-5.1以內(nèi)容豐富見長但結(jié)構(gòu)欠佳,Gemini 3的回答更為凝練,Claude的輸出則相對簡略。值得注意的是,盡管模型互評結(jié)果與人類主觀判斷存在差異,但這種差異本身提供了新的研究視角——通過分析模型評價(jià)標(biāo)準(zhǔn)與人類認(rèn)知的偏差,可能發(fā)現(xiàn)現(xiàn)有評估體系的盲點(diǎn)。
項(xiàng)目文檔顯示,該系統(tǒng)源于開發(fā)者此前提出的“分階段深度閱讀”方法論。該方法將傳統(tǒng)閱讀流程改造為三步協(xié)作:人類先進(jìn)行整體感知,再由模型解析結(jié)構(gòu),最后通過追問深化理解。新系統(tǒng)在此基礎(chǔ)上增加模型議會(huì)機(jī)制,使協(xié)作過程更具透明度。開發(fā)者透露,未來計(jì)劃引入更多模型參與討論,并優(yōu)化評分算法以提升決策質(zhì)量。
技術(shù)實(shí)現(xiàn)層面,系統(tǒng)采用模塊化設(shè)計(jì),支持靈活替換底層模型。開發(fā)者在代碼注釋中特別說明,任何符合OpenAI API規(guī)范的模型都可接入議會(huì)機(jī)制。這種開放性設(shè)計(jì)降低了技術(shù)門檻,已有多個(gè)衍生項(xiàng)目開始探索不同模型組合的效果差異。社區(qū)討論焦點(diǎn)集中在如何平衡模型數(shù)量與決策效率,以及如何設(shè)計(jì)更精細(xì)的評分維度等問題上。











