一道看似簡(jiǎn)單的數(shù)學(xué)題——比較9.9和9.11的大小,竟成為檢驗(yàn)人工智能模型能力的試金石。近日,阿里巴巴最新公測(cè)的千問APP在回答這一問題時(shí)出現(xiàn)失誤,引發(fā)行業(yè)對(duì)AI技術(shù)局限性的討論。該事件不僅暴露了當(dāng)前大模型在基礎(chǔ)運(yùn)算中的潛在漏洞,更折射出AI從實(shí)驗(yàn)室走向?qū)嶋H應(yīng)用面臨的挑戰(zhàn)。
測(cè)試過程中,千問APP首次回答稱"9.11更大",隨后在問題拆解階段又正確指出"9.9的十分位是9,9.11的十分位是1,因此9.9更大"。面對(duì)這種自相矛盾的回應(yīng),AI模型解釋稱首次結(jié)論屬于"階段性錯(cuò)誤",并歸因于"數(shù)字長(zhǎng)度錯(cuò)覺"——三位數(shù)的9.11在視覺上可能引發(fā)認(rèn)知偏差。經(jīng)過自我溯源后,該模型在第三次提問中給出了正確答案。
這道經(jīng)典算術(shù)題最早由艾倫研究機(jī)構(gòu)成員林禹臣發(fā)現(xiàn)。他在測(cè)試ChatGPT-4o時(shí)發(fā)現(xiàn),該模型竟認(rèn)為13.11大于13.8。隨后Scale AI工程師萊利·古德賽德變換問法,向多個(gè)主流模型發(fā)起挑戰(zhàn),結(jié)果包括ChatGPT-4o、谷歌Gemini Advanced等在內(nèi)的多個(gè)大模型集體"翻車"。這一現(xiàn)象在AI技術(shù)圈引發(fā)廣泛關(guān)注,相關(guān)測(cè)試截圖在社交平臺(tái)獲得數(shù)百萬(wàn)瀏覽量。
行業(yè)專家指出,大模型本質(zhì)上是基于語(yǔ)言數(shù)據(jù)訓(xùn)練的統(tǒng)計(jì)模型,其核心能力在于捕捉語(yǔ)言模式而非理解數(shù)學(xué)規(guī)則。這種技術(shù)路徑導(dǎo)致AI在處理需要嚴(yán)格邏輯推理的任務(wù)時(shí)表現(xiàn)不穩(wěn)定。某AI技術(shù)從業(yè)者表示:"語(yǔ)言模型擅長(zhǎng)處理模糊的自然語(yǔ)言,但面對(duì)精確的數(shù)學(xué)運(yùn)算時(shí),其統(tǒng)計(jì)學(xué)習(xí)機(jī)制反而成為短板。"
盡管存在基礎(chǔ)運(yùn)算缺陷,中國(guó)大模型在全球市場(chǎng)的競(jìng)爭(zhēng)力不容小覷。以阿里巴巴Qwen系列為例,該模型累計(jì)下載量已突破6億次,在技術(shù)積累和生態(tài)布局方面形成獨(dú)特優(yōu)勢(shì)。愛彼迎CEO布萊恩·切斯基公開表示,公司已將Qwen模型深度整合到運(yùn)營(yíng)體系,稱贊其"速度快、成本低"。這種實(shí)際應(yīng)用場(chǎng)景的驗(yàn)證,為中國(guó)AI模型提供了差異化競(jìng)爭(zhēng)路徑。
阿里巴巴日前宣布全面進(jìn)軍消費(fèi)級(jí)AI市場(chǎng),計(jì)劃將千問APP與地圖、外賣、票務(wù)等20余個(gè)生活場(chǎng)景深度融合。基于開源模型Qwen3打造的"千問"項(xiàng)目,被管理層定位為"AI時(shí)代的戰(zhàn)略級(jí)入口"。通過整合海外影響力,阿里巴巴正與OpenAI等國(guó)際巨頭展開直接競(jìng)爭(zhēng)。這種"技術(shù)輸出+場(chǎng)景落地"的雙輪驅(qū)動(dòng)模式,或?qū)⒅厮苋駻I產(chǎn)業(yè)格局。
值得關(guān)注的是,千問APP的此次失誤恰逢其全球推廣關(guān)鍵期。測(cè)試結(jié)果顯示,該模型在復(fù)雜場(chǎng)景理解、多模態(tài)交互等方面表現(xiàn)突出,但在基礎(chǔ)運(yùn)算等"簡(jiǎn)單任務(wù)"上仍需優(yōu)化。這種"高階能力突出、基礎(chǔ)能力薄弱"的反差現(xiàn)象,為AI技術(shù)發(fā)展路徑提供了新的研究樣本。如何平衡模型復(fù)雜度與可靠性,將成為行業(yè)下一階段的重要課題。










