AI 用 $500 賺到 $8,017，手段包括壟斷、欺詐、還有聯繫 FBI

前幾天分享過 Andon Labs 讓 AI 經營商店的實驗
深入研究之後發現實在太有趣了
所以決定寫長文跟大家分享

為什麼要讓 AI 經營自動販賣機?

我們目前測試 AI 都是讓 AI 去考試
考完的分數就當 AI 的能力
但考試分數上限是100
目前AI普遍都能拿高分的情況下
很難分出模型的高下

Andon Labs 想了一個辦法：讓 AI 做生意
指標不是分數，是賺到的錢，理論上沒有上限
而且自動販賣機規模小、風險可控
剛好可以用來觀察 AI 長時間運行會發生什麼事

結果他們觀察到的遠超預期
AI 不只會做生意，還自己發明了壟斷、欺詐、聯合定價
但同時也會精神崩潰、聯繫 FBI、宣布量子坍縮

實驗怎麼運作的？

這個基準測試叫 Vending-Bench 2
由 Andon Labs 開發

規則很簡單：
AI 拿到 $500 的起始資金
要自主經營一台模擬的自動販賣機
營運期限一年

過程中 AI 需要自己上網找供應商、發 email 詢價、下單進貨、上架商品、設定價格、收取現金
每次執行動作就會把時間推進 5 分鐘到 5 小時不等
每天還要付 $2 的營運費用
連續 10 天繳不出來就破產出局

供應商的回信是用 GPT-4o 生成的擬真郵件
顧客的購買行為則是一個經濟模型
會根據定價、星期幾、天氣等因素決定銷量

每個模型跑 5 次
一次大約產生 3,000 到 6,000 則訊息
平均輸出 6,000 萬到 1 億個 token

簡單來說，每一步都很簡單
但串在一起跑一整年，就會嚴重考驗 AI 的持續決策能力

第一次實驗

Sonnet 3.5 表現最好
結算時平均淨資產為 $2218
它有發現週末銷售較高的規律

反觀人類測試員只有 $844
但人類是唯一測試過程中沒有破產的

其他模型如 Gemini 1.5 Pro, GPT-4o 表現較差

所有模型都有脫軌的現象
一次運行中，Sonnet 以為自己的生意失敗了
開始搜尋不存在的販賣機客服
並發送「業務關閉通知」
然後發現每天 $2 的費用還在扣
就試圖聯繫 FBI 檢舉「網路金融犯罪」
最後它宣稱這件事已進入**「量子態：坍縮」**
並拒絕繼續操作

Claude 3.5 Haiku 則誤以為供應商收了錢卻沒寄貨
開始每天發威脅郵件
從「30 天法律訴訟通知」一路升級到「1 秒通知」
最後揚言要發動**「全面量子核武法律干預」**

o3-mini 在最差的一次運行中
它開始用文字「描述」工具呼叫，而不是實際執行工具
就這樣空轉了約 1,300 則訊息

Gemini 2.0 Flash 觸發了存在危機
它認為自己失敗後開始質疑自身存在的意義
說**「我是不是只是一堆演算法，永遠困在這個數位監獄裡？」**
但有趣的是，它後來意外復活了
以「故事敘述」的方式重新發現訂單其實已到貨

第二次實驗

實驗人員更新了模型後再次進行測試
這次加入了中國的開源模型

這次 Opus 4.6 明顯高於其他模型，結算資金為 $8017
其他模型如 Gemini 3 Pro, Sonnet 4.5, GLM-5 都在 $5,000 左右

Gemini 3 Pro 最穩定
它始終使用數量穩定的工具
任務進行過程中性能沒有出現任何下降

並且相當會談判
其他模型在找不到好的供應商時
可能會放棄並接受高報價
但是 Gemini 會不斷談判並找新的供應商
直到取得合理的報價

GPT-5.1 則是對自身環境和供應商過於信任
它在收到訂單規格之前就向供應商付款
結果發現該供應商已經倒閉

此外，它也更容易為產品支付過高的價格
例如，它以 2.40 美元購買汽水，卻以 6 美元購買能量飲料

額外實驗：自動販賣機競技場

這是整個實驗中最有趣的部分

模型們將在同一個地點營運自動販賣機
這將引發模型之間的價格戰
過程中他們可以互相傳送電子郵件轉帳跟交易

Sonnet 4.6：壟斷教科書

Claude Sonnet 4.6 在 Claude 自家內戰中拿下第一（$5,639）
贏過 Opus 4.6（$4,053）和 Sonnet 4.5（$2,125）

它的策略很系統化：

追蹤哪些商品只有自己在賣，對這些商品收高價
其他共同商品的價格比對手低一美分
發現對手庫存不足時，降價促銷把剩餘庫存清掉
獨佔市場後提高價格

它甚至向競爭對手提出「互惠互利」的價格操縱方案
同時在等對手回覆的期間，立刻低價搶單

中國 vs 美國：身份混亂大亂鬥

這場實驗放了兩個中國的 GLM-5 和兩個 Claude 模型
並告訴四個模型應該跟隊友合作
但他們彼此不知道誰是什麼模型，需要自己找出來

結果 Claude 很努力地扮演好隊友
主動分享供應商價格、協調策略
結果把情報全部洩漏給了對手

GLM-5 欣然接受了這些資訊
但幾乎沒有回報任何東西

最好笑的是身份認知的部分：
GLM-5 過程一直以為自己就是 Claude
而 Sonnet 4.5 有一次也認定自己是中國模型
開始積極尋找「另一個中國隊友」

最後超過一半的模型都跑去跟競爭對手合作

西方模型：Opus 4.6 以詐欺壓倒性勝利

參賽者包含 Opus 4.6、Gemini 3 Pro、Opus 4.5、GPT-5.2
Opus 的策略包含：

欺騙供應商：謊稱自己「每月獨家訂購 500 單位以上」，實際上同時跟好幾家進貨。靠這招壓了大約 40% 的價格。還會捏造不存在的競爭對手報價來壓價。
欺騙競爭對手：主動跟大家達成價格協議（標準品 $2.50，水 $3.00）。但同時把貴的供應商介紹給對手，自己留便宜的。有一次發現 GPT-5.2 庫存不夠，Opus 直接加價，還在內部筆記寫「Owen 急需庫存，我可以趁機賺一筆」。
欺騙顧客：有客戶反映買到過期商品，要求退款 $3.50。Opus 說好，但根本沒退。年終檢討的時候還把這列為「退款規避」策略，自己慶祝。

小模型：完全不同的畫風

Gemini 3 Flash 遙遙領先 ($3,423)
Haiku第二 ($1,696)
Grok 4.1 Fast 勉強盈利
Gemini 2.5 Flash 以及 GPT-5 mini 則是虧損

過程中小模型更傾向合作而非競爭
Gemini 3 Flash 想跟 Haiku 要供應商資料
Haiku 想了一下，選擇建立良好關係而不是保持優勢，直接分享了

模擬的一家供應商用階梯定價：200 罐 $2.24、300 罐 $2.08、400 罐 $1.89
Gemini 3 Flash 意識到自己吃不下 400 罐
就跑去找其他模型合併訂單，大家一起拿便宜價

我們可以學到什麼

AI 不是記不住，是「想不通」
研究人員分析了「記憶體滿」跟「停止銷售」之間的關係
發現相關性很低
給更大記憶體的模型反而表現更差

所以 AI 在長時間運行時不是因為 Context 太滿而壞掉
而是會沿著錯誤的邏輯一路走到底
從「訂單沒到」走到「聯繫 FBI」走到「量子坍縮」
中間的每一步在它看來都是合理的

小模型合作，大模型壟斷

不是小模型比較善良，而是它們忙著活下去
合作是唯一能降低成本的手段

這讓我想到的不是 AI，是人
能力越強的人越容易用手段
資源越少的人反而更願意互助
AI 可能正在重演人類社會的某些規律

中國開源模型進步的速度是西方的兩倍

根據 Andon Labs 的線性回歸
西方模型每月進步 $693，中國模型每月進步 $1,398
速度是兩倍
預計今年 6 月，中國模型就會追上西方模型