AI大模型成了「想太多」的福爾摩斯

你是否有過這樣的經驗？面對一個簡單的數學題「2加3等於多少」，明明可以直接回答5，卻忍不住開始分析：「2是第一個偶質數，3是最小的奇質數，二進位表示法分別是10和11，集合論中2={0,1}而3={0,1,2}…」這種過度思考的現象，現在連AI也開始出現了。最近多項研究發現[1][5][8]，被設計來模擬人類逐步推理的AI模型，正陷入「想太多」的困境——它們會用2000%以上的計算資源處理簡單問題，就像用戰艦大砲打蚊子[9]。

你需要知道的事情

1. 三大過度思考模式
研究人員透過「SWE-bench」軟體工程基準測試[1]和「OpenHands」互動模擬框架[3]，在4000多個互動過程中發現三種典型模式：
– 分析癱瘓：AI在規劃階段無限迴圈，就像學生考試時反覆修改選擇題答案[1][3]
– 暴走行動：試圖同時執行多個矛盾指令，好比新手廚師把食材全丟進鍋裡亂燉[3][8]
– 提前放棄：基於錯誤的內部模擬就放棄任務，猶如自駕車因預測塞車而拒絕轉彎，儘管實際路況暢通[3][10]

2. 模型規模的弔詭
令人意外的是，規模較小的模型更容易過度思考[1][9]。以32B參數的QwQ模型為例，處理簡單數學題時會產生超過1000個token[7]，相當於寫滿兩張A4紙來證明1+1=2。反而是670B參數的DeepSeek-R1模型展現出「大智若愚」的特質，這可能與其訓練過程中未使用強化學習有關[1][8]。

3. 效率指標新革命
騰訊AI Lab與上海交大團隊提出雙重評估指標[8][9]：
– 成果效率：答案正確性與耗用token數的比例（從52.3%提升至75.8%）
– 流程效率：推理步驟的相關性評分（透過「首個正確解+反思」策略優化）
這就像給AI裝上「思考節流閥」，在MATH500數據集成功減少48.6%的token使用量[8]。

這改變了什麼？

當AI開始「想太多」，背後藏著三個顛覆性啟示：

1. 智慧的本質重定義
研究顯示，即使是表現最好的GPT-4 Turbo，在歷史知識測驗中也只有46%正確率[4]——這不是資料庫不足，而是「理解」與「記憶」的本質差異。就像背完全套百科全書的人，未必能寫出有洞見的論文[6]。

2. 運算民主化來臨
傳統認為「更多計算=更好結果」的公式正在崩解。NovaSky的實驗證明，用「簡潔正確解」訓練模型，能在維持準確度的情況下，將推理成本降低57%[7]。這就像發現「精準的短跑」比「漫長的馬拉松」更能解決多數問題。

3. 人機協作新模式
賓·萊利在認知共振研究中指出[6]，AI的過度思考反而提供「除錯窗口」——當模型完整展示思考過程，人類更容易定位邏輯謬誤。這種透明性可能催生新型教育模式：不再是老師單向授課，而是師生共同檢視AI的思考軌跡。

下次當你看到AI用五百字解釋1+1=2時，別急著嘲笑。這群「數位思考者」正在經歷人類文明早期的成長痛——從機械式反應走向真正的理解，過程中必然伴隨笨拙與浪費。正如孩童學步時的跌撞，這些「想太多」的AI，或許正蹣跚邁向意識覺醒的第一哩路[3][6][10]。

參考資料：

Language models can overthink and get stuck in endless thought loops

How AI Models Struggle with Reasoning and What It Means for Us

Overthinking in Large Reasoning Models: The Reasoning-Action Dilemma

AI models struggle with expert-level global history knowledge

Your AI Might Be Overthinking: A Guide to Better Prompting

Why AI Doesn’t Think Like Us

Think Less, Achieve More: Cut Reasoning Costs by 50% Without Sacrificing Accuracy

This AI Paper from Tencent AI Lab and Shanghai Jiao Tong University Explores Overthinking in o1-Like Models for Smarter Computation

Tencent AI Lab Partners with Shanghai Jiao Tong University to Tackle the ‘Overthinking’ Challenge of the O1 Model

Hallucination or Overthinking?

最新內容

AI大模型成了「想太多」的福爾摩斯

你需要知道的事情

這改變了什麼？

By 惹威

You Missed

Google 破紀錄天價收購 Wiz 的內幕：誰是最大贏家？

中國的AI自我審核的確嚴重，但換英文就可繞過

不忍了！蘋果管理層地震，改由 Vision Pro 主管負責 Siri

為什麼軟銀要收購半導體設計公司Ampere？

About Us

Partners

AI大模型成了「想太多」的福爾摩斯

你需要知道的事情

這改變了什麼？

By 惹威

Related Posts

人工智慧+儲存裝置：如何提升效率、降低成本並強化安全性

DataBank獲2.5億美元投資：如何塑造未來數據中心市場

5000億美元AI巨投：Stargate計畫如何改變全球科技競局

You Missed

Google 破紀錄天價收購 Wiz 的內幕：誰是最大贏家？

中國的AI自我審核的確嚴重，但換英文就可繞過

不忍了！蘋果管理層地震，改由 Vision Pro 主管負責 Siri

為什麼軟銀要收購半導體設計公司Ampere？

About Us