技術筆記 · · 1 分鐘閱讀
模型分數不等於實際能力
我測試雷達圖贏 Haiku 的模型
實測卻都輸給 Haiku
最近幾個中國模型的分數
從雷達圖看都比 Haiku 大一圈
包含 Kimi K2.5、GLM-5、MiniMax M2.5
就想說來實測看看能不能取代 Haiku
測試設計
- 情境設定是車禍案件法條研究
- AI 可以自由調用我架的法條資料庫
- 提供六份文件(醫療診斷、損害賠償、薪資證明等,由 Opus 4.6 生成)
- 每種模型各跑 10 次,由 Opus 4.6 統一評分
測試結果
最意外的是所有中國模型都很穩定產出繁體中文
代表現代 LLM 遵守指令的能力已經很強了
GLM-5 第一輪就淘汰
跟 Haiku 一樣貴
品質也沒有比較好
測完一輪就放棄
DeepSeek V3.2 推理品質完全不及格
一次法條搜尋都沒做 全部自己蝦掰
所以它也出局
K2.5 是唯一平均分數比 Haiku 高的模型
但跑一輪平均要 7 分鐘,最長要 9 分鐘
其他模型都只要 3 分多鐘
根本沒辦法在真實情境使用
不過也證實了 K2.5 很容易輸出超長 output
能力都是時間換的
不過因為它的 token 很便宜所以還是很划算
M2.5 是另一個有意思的選項
品質只差 Haiku 一點
卻便宜了 4.7 倍
但速度慢了 54%
品質的具體差異
反算論證:Haiku 會做「若被告堅持 2 個月,損失 = 156,000×(60/92) ≈ 101,739 元」這種量化反駁
協商底線建議:Claude 會給出「即使法院酌減亦應在 160,000–180,000 元以上」
情節重大性分級:Claude 的分析更系統化(5 層 vs 3 層)
所以我最後還是選了 Haiku
意外的結果
測試過程中 Claude Code 推薦了幾個針對中國模型的 context 優化方向
優化之後品質確實都有提升
但同樣的 context 拿給 Haiku
提升幅度反而更明顯
本來是想用中國模型取代 Haiku
結果反而讓 Haiku 表現更好
如果你覺得這篇有幫助,我每週會發類似的分析到信箱。
訂閱電子報