在科學(xué)研究中,推理能力至關(guān)重要。科學(xué)家們不僅僅是回憶事實,還需提出假設(shè)、測試并修正這些假設(shè),并在不同領(lǐng)域之間綜合思想。隨著 AI 模型能力的提升,如何評估它們在科學(xué)研究中深度推理的能力成為了一個重要問題。
最近,AI 模型在一些重大領(lǐng)域取得了里程碑式的成就,包括在國際數(shù)學(xué)奧林匹克和信息學(xué)奧林匹克比賽中表現(xiàn)優(yōu)異。同時,GPT-5等先進模型正在有效加速真實的科學(xué)工作流程。研究人員利用這些系統(tǒng)進行跨學(xué)科的文獻搜索以及復(fù)雜數(shù)學(xué)證明的工作,顯著縮短了從幾天或幾周到幾小時的研究時間。
為進一步評估 AI 在科學(xué)研究中的能力,我們推出了一個新基準 ——FrontierScience。這一基準專注于評估在物理、化學(xué)和生物等領(lǐng)域的專家級科學(xué)推理能力。FrontierScience 包含了數(shù)百個經(jīng)過專家驗證的難題,并設(shè)有兩個問題追蹤:奧林匹克版和研究版,旨在分別測量奧林匹克風(fēng)格的科學(xué)推理能力和真實世界的科學(xué)研究能力。初步評估結(jié)果顯示,GPT-5.2在 FrontierScience-Olympiad 和 Research 兩個模塊中的表現(xiàn)優(yōu)于其他模型。
具體而言,GPT-5.2在奧林匹克模塊中得分77%,在研究模塊中得分25%。盡管目前的模型已經(jīng)能夠支持結(jié)構(gòu)化推理的研究環(huán)節(jié),但在開放式思維能力方面仍有待提升。當前,科學(xué)家們利用這些模型加速研究流程,但在問題框架和驗證方面仍需依賴人類的判斷。未來,我們將繼續(xù)完善 FrontierScience 基準,并擴大其應(yīng)用領(lǐng)域,以幫助模型成為科學(xué)發(fā)現(xiàn)中的可靠伙伴。
劃重點:










