模型分數不等於實際能力

我測試雷達圖贏 Haiku 的模型
實測卻都輸給 Haiku

最近幾個中國模型的分數
從雷達圖看都比 Haiku 大一圈
包含 Kimi K2.5、GLM-5、MiniMax M2.5
就想說來實測看看能不能取代 Haiku

測試設計

情境設定是車禍案件法條研究
AI 可以自由調用我架的法條資料庫
提供六份文件（醫療診斷、損害賠償、薪資證明等，由 Opus 4.6 生成）
每種模型各跑 10 次，由 Opus 4.6 統一評分

測試結果

最意外的是所有中國模型都很穩定產出繁體中文
代表現代 LLM 遵守指令的能力已經很強了

GLM-5 第一輪就淘汰
跟 Haiku 一樣貴
品質也沒有比較好
測完一輪就放棄

DeepSeek V3.2 推理品質完全不及格
一次法條搜尋都沒做全部自己蝦掰
所以它也出局

K2.5 是唯一平均分數比 Haiku 高的模型

但跑一輪平均要 7 分鐘，最長要 9 分鐘
其他模型都只要 3 分多鐘
根本沒辦法在真實情境使用

不過也證實了 K2.5 很容易輸出超長 output
能力都是時間換的
不過因為它的 token 很便宜所以還是很划算

M2.5 是另一個有意思的選項

品質只差 Haiku 一點
卻便宜了 4.7 倍
但速度慢了 54%

品質的具體差異
反算論證：Haiku 會做「若被告堅持 2 個月，損失 = 156,000×(60/92) ≈ 101,739 元」這種量化反駁
協商底線建議：Claude 會給出「即使法院酌減亦應在 160,000–180,000 元以上」
情節重大性分級：Claude 的分析更系統化（5 層 vs 3 層）

所以我最後還是選了 Haiku

意外的結果

測試過程中 Claude Code 推薦了幾個針對中國模型的 context 優化方向
優化之後品質確實都有提升
但同樣的 context 拿給 Haiku
提升幅度反而更明顯

本來是想用中國模型取代 Haiku
結果反而讓 Haiku 表現更好