滾動(dòng)資訊

當(dāng)前位置：首頁(yè) > 資訊 > 人工智能 > 正文內(nèi)容

馬斯克搶先發(fā)布Grok 4.1，性能情商雙提升，大模型競(jìng)爭(zhēng)再掀高潮

時(shí)間：2025-11-18 22:30:02 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

當(dāng)科技圈還在熱議谷歌即將推出的Gemini 3時(shí)，馬斯克旗下xAI公司悄然放出重磅消息：其最新大語言模型Grok 4.1系列正式上線。這款被業(yè)界稱為"雙形態(tài)"的模型不僅在響應(yīng)速度和事實(shí)準(zhǔn)確性上實(shí)現(xiàn)突破，更通過獨(dú)特的推理增強(qiáng)版本重新定義了AI交互體驗(yàn)。

此次發(fā)布的Grok 4.1包含標(biāo)準(zhǔn)版和Thinking版兩個(gè)版本，二者共享底層架構(gòu)但采用不同推理配置。Thinking版作為增強(qiáng)推理變體，通過"思考令牌"機(jī)制實(shí)現(xiàn)鏈?zhǔn)酵评恚趶?fù)雜數(shù)學(xué)運(yùn)算、編程任務(wù)和多步驟問題解決中表現(xiàn)尤為突出。標(biāo)準(zhǔn)版則憑借256K tokens的上下文窗口（快速模式下可擴(kuò)展至200萬），在長(zhǎng)文檔處理和持續(xù)對(duì)話中保持高度連貫性。

在權(quán)威盲測(cè)平臺(tái)LMArena的最新評(píng)測(cè)中，Grok 4.1系列創(chuàng)造歷史性成績(jī)：Thinking版以1483 Elo評(píng)分登頂冠軍，標(biāo)準(zhǔn)版緊隨其后獲得亞軍。這個(gè)全球最具影響力的評(píng)測(cè)體系通過匿名雙盲對(duì)戰(zhàn)和真實(shí)用戶投票，驗(yàn)證了模型在綜合性能上的絕對(duì)優(yōu)勢(shì)。特別值得注意的是，標(biāo)準(zhǔn)版在非推理模式下仍超越所有競(jìng)爭(zhēng)對(duì)手的推理模型，將前代產(chǎn)品Grok 4遠(yuǎn)遠(yuǎn)甩至第33名。

事實(shí)準(zhǔn)確性是此次升級(jí)的核心突破點(diǎn)。xAI引入的大規(guī)模強(qiáng)化學(xué)習(xí)系統(tǒng)，配合前沿推理模型作為獎(jiǎng)勵(lì)機(jī)制，使Grok 4.1的幻覺率從12.09%驟降至4.22%。在專門檢驗(yàn)事實(shí)判斷能力的FActScore測(cè)試中，該模型得分從9.89優(yōu)化至2.97，錯(cuò)誤率降低超過70%。這意味著在涉及外部事實(shí)調(diào)用的場(chǎng)景中，模型能提供更可靠的證據(jù)支撐而非語義猜測(cè)。

情感理解能力的飛躍同樣引人注目。在EQ-Bench情商測(cè)試中，Grok 4.1以1586 Elo評(píng)分穩(wěn)居榜首，較前代提升超百分。這個(gè)由45個(gè)角色扮演場(chǎng)景構(gòu)成的測(cè)試集，通過三輪連續(xù)對(duì)話評(píng)估模型的共情能力和情緒響應(yīng)。官方示例顯示，當(dāng)用戶傾訴失去寵物的悲傷時(shí)，新模型能精準(zhǔn)捕捉"空睡窩""期待中的喵叫"等細(xì)節(jié)，提供更具人文關(guān)懷的回應(yīng)。

創(chuàng)意寫作領(lǐng)域迎來質(zhì)的提升。在Creative Writing v3基準(zhǔn)測(cè)試中，Grok 4.1以1722 Elo評(píng)分進(jìn)入全球頂尖梯隊(duì)，較前代提升近600分。該測(cè)試要求模型完成32個(gè)類別的三輪獨(dú)立創(chuàng)作，涵蓋敘事結(jié)構(gòu)、風(fēng)格模仿和世界構(gòu)建等復(fù)雜任務(wù)。實(shí)測(cè)顯示，新模型已從"段子生成器"進(jìn)化為具備文學(xué)質(zhì)感的創(chuàng)作者，能自然融入修辭手法和角色心理描寫。

用戶體驗(yàn)優(yōu)化體現(xiàn)在每個(gè)交互細(xì)節(jié)。標(biāo)準(zhǔn)版在保持極快響應(yīng)速度的同時(shí)，輸出質(zhì)量顯著提升。官方旅游攻略示例中，舊版模型提供的"百科式"清單被替換為個(gè)性化建議：根據(jù)用戶偏好推薦拍攝時(shí)段、規(guī)劃特色路線，甚至解讀城市文化氣質(zhì)。這種"本地向?qū)?式的交互風(fēng)格，使對(duì)話更接近真實(shí)人際交流。

在正式發(fā)布前兩周的靜默測(cè)試中，64.78%的真實(shí)用戶在雙盲對(duì)比中選擇Grok 4.1的回答。這個(gè)由部分用戶流量切換形成的測(cè)試樣本，驗(yàn)證了模型在真實(shí)場(chǎng)景中的優(yōu)越性。目前所有用戶均可通過Grok官網(wǎng)、X平臺(tái)及新推出的iOS/安卓應(yīng)用免費(fèi)體驗(yàn)，其中Thinking版提供"深度思考"按鈕，用戶可主動(dòng)觸發(fā)增強(qiáng)推理模式。

實(shí)測(cè)環(huán)節(jié)驗(yàn)證了技術(shù)文檔的宣傳亮點(diǎn)。在邏輯推理測(cè)試中，面對(duì)存在兩組解的數(shù)學(xué)謎題，Grok 4.1不僅完整呈現(xiàn)兩種可能性，還嘗試優(yōu)化題目條件——盡管優(yōu)化建議存在瑕疵，但展現(xiàn)出主動(dòng)解決問題的思維模式。寫作測(cè)試中，模型用861字（非宣稱的578字）生動(dòng)還原發(fā)布現(xiàn)場(chǎng)，準(zhǔn)確嵌入產(chǎn)品亮點(diǎn)和市場(chǎng)背景。圖像生成功能則展示出驚人的真實(shí)感，其創(chuàng)作的照片級(jí)圖片可一鍵轉(zhuǎn)化為動(dòng)態(tài)視頻。

12-11

OpenAI新AI模型性能躍升提前預(yù)警或引發(fā)高級(jí)別網(wǎng)絡(luò)安全挑戰(zhàn)

12-11

天大團(tuán)隊(duì)Wi-Fi感知新突破：讓智能家居“讀懂”你，主動(dòng)貼心服務(wù)

12-11

量子位MEET2026：高通萬衛(wèi)星剖析終端側(cè)AI演進(jìn)與混合AI新路徑

12-11

油車換電車三個(gè)月：省了油錢多了出游費(fèi)，續(xù)航焦慮與性能爽感并存

12-11

智慧能源平臺(tái)：以科技之力，引領(lǐng)能源管理邁向高效綠色新未來

在電力監(jiān)控系統(tǒng)方面，采用先進(jìn)的傳感器技術(shù)和通信技術(shù)，能夠?qū)崟r(shí)、準(zhǔn)確地采集電力數(shù)據(jù)，并通過智能算法進(jìn)行分析和處理，為用戶提供優(yōu)秀的電力運(yùn)行狀態(tài)信息；在能源管理系統(tǒng)中，利用大數(shù)據(jù)和云計(jì)算技術(shù)，幫助用戶實(shí)現(xiàn)能源的精…

12-11

移動(dòng)云攜手中國(guó)石油，以3000億參數(shù)大模型賦能能源化工新未來

目前，3000億參數(shù)昆侖大模型已發(fā)布43個(gè)創(chuàng)新應(yīng)用，涵蓋了智能客服、裝備工程設(shè)計(jì)、財(cái)務(wù)共享等眾多場(chǎng)景：對(duì)內(nèi)提供專業(yè)應(yīng)用和員工助手，在油氣生產(chǎn)、煉化生產(chǎn)、運(yùn)營(yíng)管理、經(jīng)營(yíng)決策、綜合辦公等方面開展AI場(chǎng)景建設(shè)；對(duì)…

12-11

理想高管回應(yīng)VLA質(zhì)疑：架構(gòu)非關(guān)鍵，適配與數(shù)據(jù)才是具身智能決勝點(diǎn)

12-11

Adobe深化AI戰(zhàn)略：ChatGPT集成PS等應(yīng)用功能開啟圖像PDF編輯新體驗(yàn)

12-11

豆包與努比亞合作AI手機(jī)引熱議，二手市場(chǎng)價(jià)格飆升租賃興起

據(jù)藍(lán)鯨新聞，在閑魚等二手平臺(tái)，該手機(jī)被炒至500-1000元不等的官方購(gòu)機(jī)F碼（優(yōu)先購(gòu)買資格），目前已基本消失。12月10日，界面新聞查閱閑魚平臺(tái)發(fā)現(xiàn)，這款手機(jī)大部分全新未拆封版本報(bào)價(jià)3999到4999元不…

12-11

中國(guó)空間科學(xué)跨越發(fā)展“引力”強(qiáng) 國(guó)際攜手共繪宇宙探索新篇章

12-11

地下2400米逐夢(mèng)“圣杯反應(yīng)” 柳衛(wèi)平以科研深耕叩響宇宙奧秘之門

12-11

從“煉丹式”到“流水線”：AI大模型實(shí)訓(xùn)室的自動(dòng)化轉(zhuǎn)型與人才培養(yǎng)新路徑

當(dāng)凌晨三點(diǎn)的實(shí)訓(xùn)室不再因?yàn)檎{(diào)參而燈火通明，當(dāng)學(xué)生們將更多精力投入到算法本質(zhì)的創(chuàng)新和真實(shí)問題的解決上時(shí)，我們知道，這場(chǎng)從“煉丹”到“流水線”的自動(dòng)化革命，已經(jīng)為下一代AI人才的培養(yǎng)，鋪就了一條更堅(jiān)實(shí)、更高效的…

12-11

OpenAI調(diào)查：AI工具助力員工效率提升，四分之三員工認(rèn)可其成效

12月9日消息，OpenAI近期一項(xiàng)針對(duì)9000名員工的大型調(diào)查顯示，其AI工具已幫助許多員工每天節(jié)省40至60分鐘的專業(yè)工作時(shí)間，其中數(shù)據(jù)科學(xué)、工程、傳播與會(huì)計(jì)等崗位的感受尤其明顯。MIT今年8月的研究指出…

12-11

2025華為金融網(wǎng)絡(luò)創(chuàng)新峰會(huì)西寧啟幕，共探智慧金融新路徑新未來

自2021年以來，與華為先后在IPv6+、SDN網(wǎng)絡(luò)和NOF+等前沿技術(shù)領(lǐng)域展開創(chuàng)新合作，聚焦金融數(shù)智化轉(zhuǎn)型，助力貴州農(nóng)信業(yè)務(wù)實(shí)現(xiàn)高質(zhì)量發(fā)展。華為數(shù)據(jù)通信產(chǎn)品線政企解決方案首席架構(gòu)師何平在題為《華為星河AI…

12-11

點(diǎn)擊查看更多 +

全站最新

2025款星光560汽油版首發(fā)搶訂！10萬級(jí)起售，大空間5或7座靈活布局實(shí)用性強(qiáng)

新款奔馳S級(jí)諜照流出：2026年上市混動(dòng)為主力攜手EQS共拓豪華市場(chǎng)

嵐圖追光L破曉上市，27.99萬起售，重塑中國(guó)豪華轎車新標(biāo)桿

邁凱倫首款SUV渲染圖亮相轎跑溜背造型 2028年攜混動(dòng)系統(tǒng)登場(chǎng)

27.99萬元起售！嵐圖追光L上市，開啟民族品牌高端化新征程

五菱星光560硬派來襲！三動(dòng)力可選，12月11日東盟車展全球首發(fā)搶訂

熱門內(nèi)容

本欄最新

嵐圖追光L上市：800V架構(gòu)加持豪華配置與智能駕駛助力中高端市場(chǎng)

嵐圖追光L上市：以獨(dú)特設(shè)計(jì)豪華內(nèi)飾與強(qiáng)勁動(dòng)力，開啟出行新體驗(yàn)

一汽紅旗天工05解鎖新體驗(yàn)：蘋果UWB車鑰匙讓出行更便捷智能

26款魏牌藍(lán)山實(shí)拍：VLA大模型賦能智能座艙，Hi4混動(dòng)續(xù)航超1343km

華為成立基礎(chǔ)大模型部，以全棧閉環(huán)之力賦能AI產(chǎn)業(yè)新發(fā)展

AI賦能互聯(lián)網(wǎng)創(chuàng)業(yè)新路徑：以“美女邪修”賬號(hào)運(yùn)營(yíng)模式為例深度剖析

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽(yáng)灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國(guó)（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

日本精品一区二区三区高清 久久

馬斯克搶先發(fā)布Grok 4.1，性能情商雙提升，大模型競(jìng)爭(zhēng)再掀高潮

日本精品一区二区三区高清久久