一場關于小數比較的簡單數學題,意外成為檢驗人工智能大模型能力的試金石。當被問及“9.9和9.11哪個更大”時,多個知名AI模型接連出現判斷失誤,引發行業對技術局限性的深入討論。這場測試最初由艾倫研究機構成員林禹臣在社交平臺曝光,他發現ChatGPT-4o將13.11判定為大于13.8,隨后Scale AI工程師通過變換問法,對多個主流模型展開測試,結果顯示多數模型均未能正確回答“9.9與9.11的大小關系”。
第一財經近期針對阿里巴巴最新公測的千問APP展開測試,發現該模型在首次回答中同樣出現錯誤。面對“數字9.9和9.11誰大”的提問,千問APP初始回答稱“9.11更大”,但在后續問題拆解中,模型承認存在思維陷阱,并經過分析修正為“9.9大于9.11”。當被追問前后答案矛盾時,千問解釋稱首次回答存在“階段性錯誤”,結論與推理過程不匹配,同時承認“9.11”的三位數形式可能引發數字長度錯覺,導致認知偏差。經過自我溯源與糾錯,千問在第三次提問中給出了正確答案。
這一現象折射出大模型在基礎能力上的潛在短板。有技術從業者指出,當前主流模型本質仍是語言模型,其訓練方式依賴語言數據的統計相關性,而非嚴格的規則學習。這種特性使模型在處理需要歸納推理的常識性問題時表現不穩定,即便能解決復雜數學競賽題,仍可能在簡單邏輯判斷上“翻車”。例如,谷歌Gemini Advanced和Claude 3.5 Sonnet等頭部模型,此前也曾在此類測試中集體失誤。
盡管存在局限性,中國大模型在全球市場的競爭力正逐步顯現。以阿里巴巴Qwen系列為例,其全球下載量已突破6億次,并在技術生態與商業應用層面取得突破。愛彼迎CEO布萊恩·切斯基公開表示,公司已廣泛采用Qwen模型,因其“速度快、成本低”,而OpenAI的最新模型在實際生產中因經濟性不足未被大規模使用。這種技術優勢正推動中國模型加速出海,與國際巨頭展開直接競爭。
阿里巴巴近日宣布全面推進“千問”項目,正式進軍消費級AI市場。基于開源模型Qwen3,千問APP計劃整合地圖、外賣、訂票、辦公、學習等生活場景,構建一站式智能服務平臺。公司管理層將此視為“AI時代的關鍵戰役”,試圖借助Qwen的海外影響力,在通用人工智能領域開辟新賽道。這一布局不僅體現技術自信,更標志著中國AI企業正從應用創新向底層技術競爭升級。











