日本精品一区二区三区高清 久久

ITBear旗下自媒體矩陣:

OpenAI發(fā)布權(quán)威AI科研基準(zhǔn),扯下AI遮羞布:奧賽金牌≠一流科學(xué)家!

   時(shí)間:2025-12-17 18:24:13 來源:新智元編輯:快訊 IP:北京 發(fā)表評(píng)論無障礙通道
 
OpenAI最新發(fā)布的FrontierScience基準(zhǔn),試圖用真實(shí)的博士級(jí)難題,從物理、化學(xué)、生物三個(gè)維度上考驗(yàn)AI。真相是殘酷的:在沒有唯一標(biāo)準(zhǔn)答案的科研實(shí)戰(zhàn)中,AI作為「頂級(jí)做題家」,距離真正的科學(xué)家,還差得遠(yuǎn)。

OpenAI在2025年12月16日發(fā)布了一套新基準(zhǔn)FrontierScience,用來衡量AI在物理、化學(xué)、生物三門學(xué)科里,能否做到接近專家水準(zhǔn)的科學(xué)推理,而不只是背知識(shí)點(diǎn)。

OpenAI在文中把科學(xué)工作描述成一套更接近「持續(xù)試錯(cuò)」的流程。

提出假設(shè),設(shè)計(jì)驗(yàn)證,推翻再重來,還要把不同領(lǐng)域的線索拼成同一張圖。

模型越強(qiáng),問題就越尖銳,AI能不能把這種深推理用到真正的科研推進(jìn)上。

OpenAI提到,過去一年他們的系統(tǒng)在國際數(shù)學(xué)奧林匹克和國際信息學(xué)奧林匹克上達(dá)到了金牌級(jí)表現(xiàn),同時(shí)更重要的變化發(fā)生在實(shí)驗(yàn)室和辦公室里。

研究者開始拿這些模型做跨學(xué)科文獻(xiàn)檢索,跨語言讀論文,也拿它們?nèi)ネ茝?fù)雜證明。

有些原本要耗掉幾天甚至幾周的工作,被壓到幾小時(shí)就能跑完一輪。

為什么需要FrontierScience?OpenAI給了一個(gè)對(duì)比。

2023年11月,GPQA這個(gè)由博士專家撰寫、強(qiáng)調(diào)「谷歌搜不到」的科學(xué)題庫發(fā)布時(shí),GPT-4只拿到39%,低于專家基線74%。

兩年后,GPT-5.2在同一基準(zhǔn)上拿到92%。

當(dāng)舊題庫逐漸被刷穿,新的尺子就必須更長,否則你看不出模型還能往哪里發(fā)展。

FrontierScience的設(shè)計(jì)更像是給模型丟進(jìn)兩種不同的「科學(xué)難關(guān)」。

一類偏競(jìng)賽風(fēng)格,考你在約束條件下把推理做到干凈利落。

物理競(jìng)賽題示例

另一類更貼近研究現(xiàn)場(chǎng),要求你在開放問題里把思路走通,哪怕沒有標(biāo)準(zhǔn)答案那么工整。

物理科研問題示例

這套評(píng)測(cè)總量超過700道文本型題目,其中160道屬于「黃金組」(Gold Set)題目。

競(jìng)賽賽道有100道題,強(qiáng)調(diào)短答案形式,便于核驗(yàn)對(duì)錯(cuò)。

研究賽道有60個(gè)原創(chuàng)研究子任務(wù),由博士階段或更資深的研究者設(shè)計(jì),用10分制評(píng)分,拿到至少7分才算通過。

題目質(zhì)量是有充足保障的:

競(jìng)賽賽道和42位前國際獎(jiǎng)牌得主或國家隊(duì)教練合作,總計(jì)109枚奧賽獎(jiǎng)牌;

研究賽道由45位合格科學(xué)家與領(lǐng)域?qū)<覅⑴c,覆蓋從量子電動(dòng)力學(xué)到合成有機(jī)化學(xué),再到進(jìn)化生物學(xué)等細(xì)分方向。

OpenAI還承認(rèn)了一個(gè)不那么「中立」的細(xì)節(jié)。

兩套題在制作流程里會(huì)刻意淘汰OpenAI自家內(nèi)部模型已經(jīng)能答對(duì)的題,因此這套評(píng)測(cè)對(duì)OpenAI自家模型可能更苛刻一些。

與此同時(shí),他們開源了兩套賽道的「黃金組」題目,其余題目保留,用來追蹤數(shù)據(jù)污染。

OpenAI說,短答案適合機(jī)器判定,但研究型任務(wù)需要更細(xì)顆粒度的量表,于是他們用GPT-5充當(dāng)模型判卷員,對(duì)照短答案逐項(xiàng)打分。

理想狀態(tài)是請(qǐng)專家逐題批改,現(xiàn)實(shí)是規(guī)模不允許,于是規(guī)則被設(shè)計(jì)成盡量客觀且可被模型檢查,并配了驗(yàn)證流程來校準(zhǔn)難度與正確性。

成績單上,OpenAI給出了一輪初測(cè)對(duì)比。

他們?cè)u(píng)測(cè)了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在競(jìng)賽題上得分77%,在研究題上得分25%,目前領(lǐng)先;Gemini 3 Pro在競(jìng)賽題上拿到76%,緊跟其后。

更值得注意的是失敗原因。

OpenAI從答題記錄里總結(jié),前沿模型仍會(huì)犯推理、邏輯和計(jì)算錯(cuò)誤,會(huì)卡在冷門概念上,也會(huì)出現(xiàn)事實(shí)性偏差。

另一個(gè)很樸素的觀察也被寫進(jìn)正文:模型想得更久,準(zhǔn)確率往往更高。

OpenAI對(duì)FrontierScience的邊界也直言不諱。

它把科研切成可控的題目,這讓評(píng)測(cè)更標(biāo)準(zhǔn)化,但也意味著它更像一張高清截圖,而不是科研的全景紀(jì)錄片。

尤其是它不評(píng)估模型能否提出真正新穎的假設(shè),也不覆蓋它與多模態(tài)數(shù)據(jù)和現(xiàn)實(shí)實(shí)驗(yàn)系統(tǒng)打交道的能力。

接下來,OpenAI計(jì)劃迭代題庫、擴(kuò)展領(lǐng)域,并配套更多真實(shí)世界評(píng)估,看這些系統(tǒng)究竟讓科學(xué)家多做成了什么。

 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  爭(zhēng)議稿件處理  |  English Version
 
日本精品一区二区三区高清 久久
欧美一级免费观看| 欧美吞精做爰啪啪高潮| 国产剧情av麻豆香蕉精品| 欧美色综合网站| 亚洲国产中文字幕在线视频综合| 蜜臀a∨国产成人精品| 欧美日韩国产电影| 亚洲欧美一区二区三区国产精品 | 久久在线观看免费| 美国三级日本三级久久99| 日韩欧美综合在线| 日本三级韩国三级欧美三级| 日韩一区二区三区在线观看| 日本不卡1234视频| 日韩欧美国产不卡| 国产精品一区二区三区网站| 精品国产一区二区三区四区四 | 日韩高清在线电影| 欧美精品精品一区| 韩国欧美国产1区| 欧美激情一区二区三区不卡| 国产99精品国产| 亚洲 欧美综合在线网络| 日韩精品一区二区三区老鸭窝| 成人自拍视频在线| 三级一区在线视频先锋| 欧美国产日韩亚洲一区| 欧美色视频在线观看| 韩国一区二区三区| 亚洲综合偷拍欧美一区色| 精品福利一区二区三区| 日本丶国产丶欧美色综合| 久久99久久久久久久久久久| 中文字幕一区日韩精品欧美| 欧美一区二区免费观在线| av一区二区三区在线| 捆绑变态av一区二区三区| 中文字幕在线一区| 精品少妇一区二区三区视频免付费| 不卡的av在线播放| 激情丁香综合五月| 亚洲国产成人高清精品| 中文字幕亚洲视频| 精品国产免费久久| 欧美日韩高清一区二区三区| 丁香激情综合国产| 麻豆91在线观看| 丝袜国产日韩另类美女| 国产精品久久二区二区| 久久嫩草精品久久久精品| 91精品国产综合久久久蜜臀图片| 日本久久电影网| 国产91露脸合集magnet| 久久精品国产精品亚洲综合| 日本不卡视频一二三区| 亚洲精品国产视频| 国产精品私房写真福利视频| 精品久久人人做人人爱| 欧美人动与zoxxxx乱| 91丨九色porny丨蝌蚪| 国产精品自拍一区| 韩国精品一区二区| 精品一区二区三区免费观看| 日日摸夜夜添夜夜添精品视频 | 亚洲欧美日韩中文字幕一区二区三区| 26uuu色噜噜精品一区| 日韩欧美一区中文| 91精品国产综合久久久蜜臀粉嫩| 在线观看一区二区视频| 99re视频这里只有精品| 暴力调教一区二区三区| 99久久精品免费看国产免费软件| 国产91精品久久久久久久网曝门| 国产精品1024| 国产精品亚洲一区二区三区在线| 久久99久久久欧美国产| 久久99精品久久久| 国产精品一区二区在线观看网站| 国产精品综合一区二区三区| 国产综合色精品一区二区三区| 国内精品嫩模私拍在线| 国产乱理伦片在线观看夜一区| 国产一区二区三区电影在线观看| 国产精品一级片| 成人免费av网站| 成人黄动漫网站免费app| 波多野结衣中文字幕一区二区三区 | 日本精品视频一区二区三区| 欧美影院精品一区| 91精品国产免费| 精品入口麻豆88视频| 国产午夜精品久久久久久久| 国产精品毛片久久久久久| 亚洲卡通动漫在线| 免费精品99久久国产综合精品| 精品一区二区三区视频在线观看 | 亚洲天堂成人网| 亚洲桃色在线一区| 亚洲在线视频免费观看| 日本免费在线视频不卡一不卡二 | 国产福利一区在线观看| 99热这里都是精品| 欧美日韩国产首页| 精品国产一区久久| 亚洲蜜臀av乱码久久精品| 亚洲午夜影视影院在线观看| 久久精品72免费观看| av一区二区不卡| 欧美一区二区三区性视频| 亚洲国产成人在线| 午夜国产精品影院在线观看| 国产精品99久久久久久有的能看 | 不卡的av电影| 色88888久久久久久影院按摩| 欧美一区二区成人| 中文字幕在线观看不卡| 天天爽夜夜爽夜夜爽精品视频| 久久爱www久久做| 91免费国产在线观看| 日韩欧美一二三| 一区二区在线电影| 国产在线视频一区二区| 91国偷自产一区二区使用方法| 日韩精品一区二区在线| 亚洲欧美一区二区三区久本道91 | 亚洲猫色日本管| 奇米色一区二区| 91色porny| 久久亚洲私人国产精品va媚药| 亚洲精品国产第一综合99久久| 国内精品国产三级国产a久久| 欧美写真视频网站| 亚洲国产成人私人影院tom| 日本不卡一区二区| 91丨九色丨国产丨porny| 久久久久久久久久久久久女国产乱| 亚洲福利一二三区| 99久久综合国产精品| www一区二区| 日韩在线观看一区二区| 91原创在线视频| 欧美极品美女视频| 国产在线观看一区二区| 91麻豆精品国产自产在线观看一区| 中文字幕亚洲欧美在线不卡| 国产老肥熟一区二区三区| 欧美一区二区精美| 日本视频中文字幕一区二区三区| 色婷婷av一区二区三区软件| 中文一区在线播放| 国产黑丝在线一区二区三区| 欧美精品一区二区三区一线天视频| 亚洲成人精品影院| 欧美午夜片在线观看| 国产精品不卡一区| av中文字幕不卡| 国产精品初高中害羞小美女文| 国产精品一区二区91| 久久久青草青青国产亚洲免观| 精品亚洲国内自在自线福利| 日韩视频一区二区三区在线播放| 亚洲成人精品一区| 欧美裸体一区二区三区| 午夜国产不卡在线观看视频| 欧美人与z0zoxxxx视频| 日韩国产欧美在线观看| 在线成人免费视频| 日本伊人精品一区二区三区观看方式 | 五月婷婷综合在线| 3751色影院一区二区三区| 午夜视频在线观看一区二区三区| 欧美日韩国产精品成人| 人人爽香蕉精品| 久久品道一品道久久精品| 国产馆精品极品| 中文字幕一区二区三区不卡| 91免费在线播放| 亚洲影院理伦片| 欧美老女人第四色| 3d成人h动漫网站入口| 亚洲另类中文字| 欧美日韩一区二区在线观看| 天天影视网天天综合色在线播放 | 99久久精品国产一区| 亚洲色图自拍偷拍美腿丝袜制服诱惑麻豆 | 中文字幕一区二区5566日韩| 日本久久电影网| 免费三级欧美电影| 久久免费电影网| 91免费在线播放| 免费成人在线观看视频| 久久久久亚洲综合| 94-欧美-setu| 偷窥少妇高潮呻吟av久久免费| 日韩精品专区在线影院重磅| 国产v日产∨综合v精品视频| 亚洲精品菠萝久久久久久久| 日韩欧美一区在线| 成人一区二区视频| 亚洲成人免费影院|