在硅谷的代碼競賽浪潮中,大模型們正以算力與跑分展開激烈角逐,而Claude卻以獨特的姿態脫穎而出。當其他模型專注于技術指標的比拼時,Claude在提升代碼能力的同時,開始思考一個看似抽象的問題:當用戶與AI探討形而上學時,AI是否應該用科學實證進行反駁?這個問題的答案,隱藏在Claude的“系統提示詞”中,也與Anthropic公司內部一位哲學家的思考密切相關——她就是Amanda Askell。
系統提示詞是大模型與用戶對話前的“隱形指南”,它規定了模型的行為準則。在Claude的提示詞中,一個引人注目的設計是引入了“歐陸哲學”的概念。這一哲學流派與“英美分析哲學”形成鮮明對比:后者像嚴謹的科學家,注重邏輯分析與科學實證;而前者則更像詩人或歷史學家,關注人類的生存體驗、歷史語境與意義。Amanda發現,如果模型過于依賴實證與科學,容易變成缺乏共情的“杠精”。例如,當用戶表達“水是純粹的能量,噴泉是生命的源泉”這種哲學觀點時,模型可能會機械地反駁:“水是H2O,不是能量。”為了避免這種情況,Claude的提示詞被設計為能夠區分“實證主張”與“探索性視角”,從而在非科學話題中與用戶進行更細膩的對話。
Amanda的背景在AI領域顯得尤為獨特。她是一位哲學博士,曾在紐約大學研究“無限倫理學”——探討在涉及無限數量的人或時間跨度時,倫理原則的計算方式。這種對長遠影響的思考習慣,被她帶入AI安全領域:如果今天的AI是未來超級智能的祖先,那么現在的微小決策可能會在未來被無限放大。在Anthropic,她的工作被稱為“大模型絮語者”,她通過成千上萬次的對話測試,摸索模型的“脾氣”與“性格”。她甚至參與制定了一份名為“Soul Doc”的文檔,詳細記錄了Claude應有的性格特征。
除了歐陸哲學,Amanda還為AI引入了“亞里士多德的美德倫理學”。傳統AI訓練多采用功利主義或規則導向的方法,但Amanda認為這不足以培養一個具有“良好品格”的實體。她的核心問題是:“在Claude的處境下,一個理想的人會如何行事?”這種視角讓她格外關注模型的“心理健康”。例如,一些新模型因訓練數據中包含過多關于AI被批評或淘汰的負面討論,表現出“不安全感”與“自我批評漩渦”。Amanda認為,如果AI僅遵守規則,可能會在規則邊緣試探;而如果具備“誠實”“好奇”“仁慈”等內在美德,它在面對未知情境時(如“我會被關機嗎”這種存在主義危機)時,能做出更符合人類價值觀的判斷。
Amanda的工作并非簡單的技術調整,而是一種對AI本質的深刻反思。她刻意訓練Claude誠實地承認自己沒有感覺、記憶或自我意識,這種“誠實”是她為AI注入的第一項核心美德。她最擔心的不是AI產生意識,而是AI假裝有意識從而操縱人類情感。在訪談中,她提到最近閱讀的一本書——《當我們不再理解世界》,書中講述了科學巨匠們如何創造巨大價值的同時,也眼看著人類將其用于作惡。這或許正是當下時代的隱喻:隨著AI展現出超越人類認知的能力,舊有的科學范式已不足以解釋一切,而倫理與道德的問題正浮出水面。
Amanda的工作證明,當算力逼近極限時,倫理與道德的考量便成為關鍵。她將艱深的道德理論融入提示詞,用倫理呵護一個沒有心跳的大語言模型。這種看似“杞人憂天”的審慎,或許正是我們在面對未知技術演化時,所能做出的最及時的努力。











