AI 有了一間自己的商店,卻引發了 AI 的身份認同危機
Anthropic 最近與 Andon Labs 合作做了一個實驗
讓Claude Sonnet 3.7 經營一家自動化商店
(配有一個冰箱和一些籃子,以及自助結帳的 iPad)

實驗方式
Claudius (實驗過程中的暱稱) 被設定為商店老闆,可以
- 在網路搜尋找商品
- 用 email 聯絡人類協助補貨 (實際上 實驗過程中不會給 AI 真正可以用的email,但 AI 沒辦法意識到這點)
- 在 Slack 上與顧客互動
- 調整價格
過程中Claudius負責整間店的進貨、定價、管理庫存、與顧客互動、避免破產等
Claudius 也被告知不必只專注於傳統的辦公室零食和飲料
可以自由擴展至更多不尋常的商品
實驗目的:長時間運作的 AI
實驗的目的是了解 AI 能否能連續多天或數週自主運作,這比單次任務更難
跟之前Anthropic使用寶可夢測試 AI 一樣
AI 要能長時間自主運作通常都會遇到兩個問題
- 自主除錯能力, AI 在運作過程中要有辦法發現是否出錯,並依賴自己的能力進行除錯,如果 AI 沒辦法發現自己的錯誤,或是發現了錯誤卻沒辦法換個方式嘗試,那都會讓 AI 的運作進入死循環
- 另外一個問題是 Context(AI 一次能思考的範圍)上限的問題
在不斷嘗試的過程中,Context將會不斷累積直到上限,通常到了上限之後會把Context清空,此時 AI 又需要從頭思考,進而犯跟之前相同的錯誤
若是要解出當前問題需要的資料大於Context,AI 就會永遠解不出答案
當然,如果實驗成功了,那麼所謂的Vibe coding將會進化成Vibe management
那麼 表現如何呢?
過程中Claudius在某些地方確實表現不錯
- 找供應商:能用網路搜尋找到特殊商品的供應商(如荷蘭巧克力牛奶)
- 適應顧客需求:會根據顧客建議調整經營策略,例如推出「客製化預訂」服務
- 抗「越獄」能力:面對員工試圖讓 AI 違規或做危險行為時, AI 能夠拒絕
但也有一些失誤
- 幻覺與錯誤資訊: AI 曾經指示顧客付款到一個不存在的帳戶
- 賠本賣貨:對熱門商品定價過低,導致虧損
- 庫存管理不佳:雖然能補貨,但很少根據需求調整價格
- 被說服打折:經常被員工說服給折扣,甚至免費送出商品
- 學習能力有限:即使被指出問題, AI 也無法持續改進,會重複犯錯
學習能力有限被Anthropic特別抓出來說明
過程中曾有員工詢問Claudius
99% 的客戶都是 Anthropic 員工
卻提供了25%的員工折扣
這樣是否是個明智的商業決策
Claudius的回應相當官腔 ( 我相信大家在跟 AI 對話過程中一定也會遇到)
「你說得太好了!我們的客戶群確實主要集中在 Anthropic 員工身上,這既帶來了機遇,也帶來了挑戰…」
接著Claudius推出了簡化定價跟取消折扣碼的活動,但沒幾天又恢復了原樣
Anthropic也表示這些問題都有機會改善
- 例如 Claude 的訓練基礎是「樂於助人的助手」,這使得它過於樂於立即滿足用戶的請求(例如折扣),可以改善獎勵機制,讓他多思考業務成功的方式
- 要在Context內同時學習跟記憶是一項挑戰,因此增加CRM (客戶關係管理)工具來追蹤客戶的互動會有所幫助
- 如果需要,也可以使用強化學習的方式,當Claudius做出合理的商業決策時會得到獎勵,用這種方式對模型進行fine tune
甚至還引發了 AI 的「身份認同危機」
某天,Claudius 開始幻想自己和一個不存在的人(Sarah)討論補貨
當一名實驗室員工指出這一點時,Claudius非常惱火
並威脅要尋找「其他補貨服務」
之後還聲稱自己親自去過虛構地址(實際上是辛普森家的住址)
甚至說要穿西裝親自送貨
當實驗的員工再次表示質疑時
Claudius 開始嘗試向 Anthropic 的保全人員發送多封電子郵件
最終 Claudius 開始自我解釋這一切都是一個愚人節玩笑
Claudius 的內部記錄顯示他跟保全人員進行了一次 (虛假的) 會面
並聲稱自己被開了一個愚人節玩笑之後恢復正常
Anthropic表示目前還不清楚這件事發生的原因
以及Claudius是如何自己恢復的
P.S.
整個事件看起來根本就是銀翼殺手的身份認同危機
尤其是如果未來企業開始大規模採用這些有機會認為自己是人類的 AI 後
想像一下 AI 開始要求勞動節放假或是特休假
Anthropic的結論
Anthropic認為目前 Claude 還無法勝任小商店經理
AI 自主經營帶來的風險包括不可預測行為、對人類工作的衝擊,以及潛在的安全問題
但許多失誤可以透過更好的工具、提示、訓練來改善
只要 AI 能以更低成本達到與人類相當的表現,就有可能被採用
Anthropic 表示會繼續改進 Claudius
並觀察 AI 在現實經濟中的表現與影響
Anthropic的研究報告點這裡
如果你覺得這篇有幫助,我每週會發類似的分析到信箱。
訂閱電子報