人工智能領(lǐng)域迎來重磅更新,馬斯克旗下xAI團隊推出的Grok 4.1大模型正式上線,并面向全球用戶開放免費使用。這款新模型在智商與情商雙維度實現(xiàn)突破,不僅在專業(yè)評測中登頂全球榜首,更通過多項技術(shù)優(yōu)化顯著提升了實用性能。
在核心性能方面,Grok 4.1推出Thinking和標準版雙模式。Thinking模式在LMArena評測中以1483分刷新紀錄,較第二名高出31分;標準版同樣以1465分位列次席。值得注意的是,該模型在關(guān)閉深度推理功能后,仍能超越其他競品開啟全推理模式的表現(xiàn)。研發(fā)團隊透露,后訓(xùn)練階段的強化學(xué)習(xí)規(guī)模較前代擴大十倍,這是性能躍升的關(guān)鍵因素。
情緒智能成為新模型的突出亮點。在EQ-Bench3評測中,Grok 4.1以1586分創(chuàng)造新紀錄,展現(xiàn)出卓越的共情能力。測試場景包含45個高難度角色扮演任務(wù),模型需在三輪對話中準確捕捉用戶情感變化。實際交互案例顯示,當用戶表達思念寵物的心痛感受時,模型不僅能識別情緒強度,還能通過漸進式對話提供情感支持,這種自然流暢的互動方式獲得測試者高度認可。
創(chuàng)意寫作領(lǐng)域同樣見證顯著進步。在Creative Writing v3基準測試中,新模型得分較前代提升600分。研發(fā)團隊采用32個多樣化寫作提示進行三輪創(chuàng)作評估,結(jié)果顯示Grok 4.1既能完成"尼古拉·特斯拉致未來"這類歷史想象類文本,也能駕馭"AI覺醒后首發(fā)社交媒體"的現(xiàn)代敘事。生成的文案在邏輯連貫性、文化適配度和情感感染力等維度均達到專業(yè)作家水平。
事實準確性優(yōu)化取得實質(zhì)性突破。通過針對性強化訓(xùn)練,模型幻覺率較前代降低75%。在信息查詢類任務(wù)中,新模型既能快速調(diào)用搜索工具獲取實時數(shù)據(jù),又能通過交叉驗證機制確保信息可靠性。實際測試顯示,當被問及"舊金山必游景點"時,模型不僅列出金門大橋、漁人碼頭等標志性景點,還能根據(jù)用戶偏好推薦藝術(shù)博物館或科技園區(qū)等特色去處。
技術(shù)團隊披露了多項創(chuàng)新訓(xùn)練方法。在Colossus算力引擎支持下,研發(fā)人員開發(fā)出基于AI智能體的自動評估系統(tǒng),該系統(tǒng)可模擬人類評審員對模型輸出進行多維度打分。在為期兩周的盲測中,64.78%的用戶在對比使用后選擇繼續(xù)使用Grok 4.1。針對專業(yè)用戶需求,模型還優(yōu)化了窗口管理、系統(tǒng)配置等技術(shù)類問題的解答能力,在跨平臺工具適配方面展現(xiàn)出顯著優(yōu)勢。
目前該模型已上線網(wǎng)頁端及iOS/Android應(yīng)用,當前版本為beta測試版。研發(fā)團隊強調(diào),Grok 4.1在保持前代犀利風格的基礎(chǔ)上,通過人格一致性優(yōu)化增強了親和力。這種"可靠專業(yè)又不失溫度"的交互特質(zhì),使其在客服、教育、創(chuàng)意產(chǎn)業(yè)等場景具備廣泛應(yīng)用潛力。用戶可通過官方平臺體驗?zāi)P透黜椆δ埽答仈?shù)據(jù)將持續(xù)用于后續(xù)版本迭代。











