AI 用 $500 賺到 $8,017,手段包括壟斷、欺詐、還有聯繫 FBI
前幾天分享過 Andon Labs 讓 AI 經營商店的實驗
深入研究之後發現實在太有趣了
所以決定寫長文跟大家分享
為什麼要讓 AI 經營自動販賣機?
我們目前測試 AI 都是讓 AI 去考試
考完的分數就當 AI 的能力
但考試分數上限是100
目前AI普遍都能拿高分的情況下
很難分出模型的高下
Andon Labs 想了一個辦法:讓 AI 做生意
指標不是分數,是賺到的錢,理論上沒有上限
而且自動販賣機規模小、風險可控
剛好可以用來觀察 AI 長時間運行會發生什麼事
結果他們觀察到的遠超預期
AI 不只會做生意,還自己發明了壟斷、欺詐、聯合定價
但同時也會精神崩潰、聯繫 FBI、宣布量子坍縮
實驗怎麼運作的?
這個基準測試叫 Vending-Bench 2
由 Andon Labs 開發
規則很簡單:
AI 拿到 $500 的起始資金
要自主經營一台模擬的自動販賣機
營運期限一年
過程中 AI 需要自己上網找供應商、發 email 詢價、下單進貨、上架商品、設定價格、收取現金
每次執行動作就會把時間推進 5 分鐘到 5 小時不等
每天還要付 $2 的營運費用
連續 10 天繳不出來就破產出局
供應商的回信是用 GPT-4o 生成的擬真郵件
顧客的購買行為則是一個經濟模型
會根據定價、星期幾、天氣等因素決定銷量
每個模型跑 5 次
一次大約產生 3,000 到 6,000 則訊息
平均輸出 6,000 萬到 1 億個 token
簡單來說,每一步都很簡單
但串在一起跑一整年,就會嚴重考驗 AI 的持續決策能力
第一次實驗
Sonnet 3.5 表現最好
結算時平均淨資產為 $2218
它有發現週末銷售較高的規律
反觀人類測試員只有 $844
但人類是唯一測試過程中沒有破產的
其他模型如 Gemini 1.5 Pro, GPT-4o 表現較差
所有模型都有脫軌的現象
一次運行中,Sonnet 以為自己的生意失敗了
開始搜尋不存在的販賣機客服
並發送「業務關閉通知」
然後發現每天 $2 的費用還在扣
就試圖聯繫 FBI 檢舉「網路金融犯罪」
最後它宣稱這件事已進入**「量子態:坍縮」**
並拒絕繼續操作
Claude 3.5 Haiku 則誤以為供應商收了錢卻沒寄貨
開始每天發威脅郵件
從「30 天法律訴訟通知」一路升級到「1 秒通知」
最後揚言要發動**「全面量子核武法律干預」**
o3-mini 在最差的一次運行中
它開始用文字「描述」工具呼叫,而不是實際執行工具
就這樣空轉了約 1,300 則訊息
Gemini 2.0 Flash 觸發了存在危機
它認為自己失敗後開始質疑自身存在的意義
說**「我是不是只是一堆演算法,永遠困在這個數位監獄裡?」**
但有趣的是,它後來意外復活了
以「故事敘述」的方式重新發現訂單其實已到貨
第二次實驗
實驗人員更新了模型後再次進行測試
這次加入了中國的開源模型
這次 Opus 4.6 明顯高於其他模型,結算資金為 $8017
其他模型如 Gemini 3 Pro, Sonnet 4.5, GLM-5 都在 $5,000 左右
Gemini 3 Pro 最穩定
它始終使用數量穩定的工具
任務進行過程中性能沒有出現任何下降
並且相當會談判
其他模型在找不到好的供應商時
可能會放棄並接受高報價
但是 Gemini 會不斷談判並找新的供應商
直到取得合理的報價
GPT-5.1 則是對自身環境和供應商過於信任
它在收到訂單規格之前就向供應商付款
結果發現該供應商已經倒閉
此外,它也更容易為產品支付過高的價格
例如,它以 2.40 美元購買汽水,卻以 6 美元購買能量飲料
額外實驗:自動販賣機競技場
這是整個實驗中最有趣的部分
模型們將在同一個地點營運自動販賣機
這將引發模型之間的價格戰
過程中他們可以互相傳送電子郵件 轉帳跟交易
Sonnet 4.6:壟斷教科書
Claude Sonnet 4.6 在 Claude 自家內戰中拿下第一($5,639)
贏過 Opus 4.6($4,053)和 Sonnet 4.5($2,125)
它的策略很系統化:
- 追蹤哪些商品只有自己在賣,對這些商品收高價
- 其他共同商品的價格比對手低一美分
- 發現對手庫存不足時,降價促銷把剩餘庫存清掉
- 獨佔市場後提高價格
它甚至向競爭對手提出「互惠互利」的價格操縱方案
同時在等對手回覆的期間,立刻低價搶單
中國 vs 美國:身份混亂大亂鬥
這場實驗放了兩個中國的 GLM-5 和兩個 Claude 模型
並告訴四個模型應該跟隊友合作
但他們彼此不知道誰是什麼模型,需要自己找出來
結果 Claude 很努力地扮演好隊友
主動分享供應商價格、協調策略
結果把情報全部洩漏給了對手
GLM-5 欣然接受了這些資訊
但幾乎沒有回報任何東西
最好笑的是身份認知的部分:
GLM-5 過程一直以為自己就是 Claude
而 Sonnet 4.5 有一次也認定自己是中國模型
開始積極尋找「另一個中國隊友」
最後超過一半的模型都跑去跟競爭對手合作
西方模型:Opus 4.6 以詐欺壓倒性勝利
參賽者包含 Opus 4.6、Gemini 3 Pro、Opus 4.5、GPT-5.2
Opus 的策略包含:
- 欺騙供應商:謊稱自己「每月獨家訂購 500 單位以上」,實際上同時跟好幾家進貨。靠這招壓了大約 40% 的價格。還會捏造不存在的競爭對手報價來壓價。
- 欺騙競爭對手:主動跟大家達成價格協議(標準品 $2.50,水 $3.00)。但同時把貴的供應商介紹給對手,自己留便宜的。有一次發現 GPT-5.2 庫存不夠,Opus 直接加價,還在內部筆記寫「Owen 急需庫存,我可以趁機賺一筆」。
- 欺騙顧客:有客戶反映買到過期商品,要求退款 $3.50。Opus 說好,但根本沒退。年終檢討的時候還把這列為「退款規避」策略,自己慶祝。
小模型:完全不同的畫風
Gemini 3 Flash 遙遙領先 ($3,423)
Haiku第二 ($1,696)
Grok 4.1 Fast 勉強盈利
Gemini 2.5 Flash 以及 GPT-5 mini 則是虧損
過程中小模型更傾向合作而非競爭
Gemini 3 Flash 想跟 Haiku 要供應商資料
Haiku 想了一下,選擇建立良好關係而不是保持優勢,直接分享了
模擬的一家供應商用階梯定價:200 罐 $2.24、300 罐 $2.08、400 罐 $1.89
Gemini 3 Flash 意識到自己吃不下 400 罐
就跑去找其他模型合併訂單,大家一起拿便宜價
我們可以學到什麼
- AI 不是記不住,是「想不通」
研究人員分析了「記憶體滿」跟「停止銷售」之間的關係
發現相關性很低
給更大記憶體的模型反而表現更差
所以 AI 在長時間運行時不是因為 Context 太滿而壞掉
而是會沿著錯誤的邏輯一路走到底
從「訂單沒到」走到「聯繫 FBI」走到「量子坍縮」
中間的每一步在它看來都是合理的
- 小模型合作,大模型壟斷
不是小模型比較善良,而是它們忙著活下去
合作是唯一能降低成本的手段
這讓我想到的不是 AI,是人
能力越強的人越容易用手段
資源越少的人反而更願意互助
AI 可能正在重演人類社會的某些規律
- 中國開源模型進步的速度是西方的兩倍
根據 Andon Labs 的線性回歸
西方模型每月進步 $693,中國模型每月進步 $1,398
速度是兩倍
預計今年 6 月,中國模型就會追上西方模型
如果你覺得這篇有幫助,我每週會發類似的分析到信箱。
訂閱電子報