科技觀察 · · 5 分鐘閱讀

Lawsnote 遭判刑四年,賠償一億,怎麼樣才算合理使用?

2025 年 6 月新北地方法院認定
Lawsnote 在使用法源公司資料的行為構成違反著作權法等
處負責人4年、工程師2年有期徒刑
七法公司須賠償法源公司新台幣約1億545萬元賠償金

但同樣在 2025 年 6 月,加州北區聯邦法院在 Bartz 訴 Anthropic 案中
認定Anthropic使用合法購買的書籍進行 AI 訓練構成合理使用 不需賠償

為什麼這兩個案子的結果完全相反

我們先來看看近幾年 AI 侵權案例
大致上可以分為兩種

  1. 訓練資料的侵權
  2. 生成內容的侵權

Anthropic的案子就是屬於訓練資料的侵權
原告為著名作家Andrea Bartz等多位作者
指控AI公司Anthropic未經授權使用其受版權保護的書籍
以訓練其大型語言模型Claude,侵犯著作權

Anthropic開發Claude模型時,使用數百萬本書籍的數位副本
這些書籍大部分來自3種來源:

  1. 從正版購買的實體書拆開掃描數位化後存入資料庫,紙本原件丟棄
  2. 從「盜版圖書館」(如Books3、Library Genesis)下載的未授權電子書
  3. 其他來源

聯邦法官 William Alsup 在2025年6月24日
判決Anthropic利用購買並掃描的書籍進行數位化與訓練屬於公平使用範圍

法院認為這種訓練行為**「高度轉化性」**
類似人類讀書後創作新作品,不侵犯版權
但針對使用盜版書籍進行數位化和永久保存
法院認定構成版權侵權

同樣的案例還有Meta
在2025年6月25日 (對 跟Anthropic只差一天)
法官Vince Chhabria在判決中支持Meta

認為Meta使用受版權保護的書籍訓練Llama是公平使用
因為Llama的用途有「高度轉化性」,即與單純閱讀書籍目的是不同的

此案關鍵在於作者未證明實質的經濟損害
故Meta在訓練行為上獲勝
但其他未經授權的電子書分發訴求仍待審理

所以在訓練資料的取得上,如果來源合法,那就屬於合理使用
但這是有模糊地帶的
讓我們看看另外一個例子

DeepSeek剛出來的時候
就表示其模型訓練中包含了由 OpenAI 及其他大型語言模型如Meta的Llama、Alibaba的Qwen所生成的數據
使其訓練成本小於其他大型模型

OpenAI 因此指控DeepSeek可能未經授權使用其模型產生的資料來訓練自己的模型
不過OpenAI並沒有採取訴訟
理由來自美國版權局在2025年1月發布的報告中明確指出:
「如果內容完全由AI生成,則不能受到版權保護」

這一立場在全球範圍內基本一致
只有人類創作的作品才能獲得版權

接下來我們來看看另外一種侵權:生成內容的侵權

2023年12月 紐約時報對 OpenAI 及其主要投資方微軟提起訴訟
指控OpenAI與微軟在未經授權的情況下
使用紐約時報數百萬篇受版權保護的新聞文章來訓練大型語言模型

訴狀特別指出,ChatGPT曾多次生成紐約時報文章內容的摘要或段落
顯示模型明顯吸收了紐約時報的作品

OpenAI與微軟隨即請求法院撤訴
理由包括時效已過(部分訓練行為早於3年前)、以及主張其行為屬於合理使用等

法官在隨後的意見中表示
紐約時報舉出了「大量且眾所周知」的ChatGPT輸出例子
證明模型有再現其文章內容的情形
足以支持其誘導他人侵權的主張成立

2025年4月,案件進入事實審理階段
法院尚需進一步判定被告能否援引合理使用原則免責

紐約時報訴OpenAI案被視為生成式AI版權之爭的里程碑案例之一
因為訴訟已對產業施加壓力
OpenAI等公司開始主動與媒體建立授權合作(如OpenAI與美聯社的協議),以減少衝突

同樣的案例還有2024年11月
德國音樂著作權集體管理組織GEMA
代表超7萬名音樂創作者對OpenAI及初創公司Suno在慕尼黑地方法院提起訴訟

指控OpenAI旗下ChatGPT模型和Suno公司(開發AI音樂/歌詞生成工具)
未經授權即大量使用受保護的歌曲歌詞來訓練AI
導致ChatGPT等模型可以在沒有許可的情況下輸出完整歌詞或其片段

這是歐洲首宗針對生成式AI模型的版權侵權官司
目前案件還在審理中

從這兩起侵權中可以看出
重點在於**「生成的內容是否直接輸出完整的原始資料」**
因為原始資料是有版權保護的

這樣我用ChatGPT產生吉卜力風格的圖會侵權嗎?

我在四月的時候去環球影城
正好是吉卜力之亂最瘋狂的時候
於是我便拿了在環球影城跟朋友的自拍照換成吉卜力風格

試了好幾張照片但總有幾張會失敗
後來我發現了原因
失敗的那幾張背景有瑪利歐的耀西 (我們當時在坐耀西冒險)

這是因為**「風格沒有版權,內容才有」**
因此單純吉卜力風格本身沒有問題,有問題的是裡面的角色
連OpenAI都不敢惹東半球最強法務部

不會侵權的例子還有哪些?
事實不會侵權

讓我們把時間回到2004年
這年 Google 啟動了 Google 圖書館計畫
Google掃描並數位化超過2000萬本書籍
使用光學字元識別技術(OCR)將實體書籍轉換為可搜尋的數位資料庫

用戶可以透過關鍵字搜尋書籍內容
找到包含特定詞彙的書籍標題和頁碼
對於仍受版權保護的書籍

Google僅顯示包含搜尋詞彙的少量文字片段(通常為2-3行)
每次搜尋最多顯示3個片段

2005年9月
美國作家協會(Authors Guild)代表三位作家及其會員對Google提起集體訴訟
訴訟核心是Google未取得版權持有者許可即掃描並複製超過2000萬本書籍
包括大量仍受版權保護的作

2013年11月14日
紐約南區聯邦地方法院法官Denny Chin作出有利於Google的判決
認定Google圖書構成合理使用

理由是Google圖書提供的書籍多為事實性非虛構作品
比方說查詢美國獨立日
出現了書籍中的片段:西元1776年
雖然來自書中,但這是事實而不是作者的創作內容
因此不符合侵權

2016年美國最高法院駁回上訴請求
結束11年的法律爭議

回到Lawsnote
既然

  1. 事實不算侵權 (Lawsnote提供的是法律條文、立法理由、附件 屬於事實)
  2. Lawsnote 沒有訓練模型,因此沒有訓練資料的侵權
  3. 生成的內容也是法律資訊,無關版權

那麼Lawsnote被判侵權的原因是什麼?
理由在於法規本身確實沒有版權
但是法源將這些資訊使用人工整理法規沿革
(註:一般法典只有簡單寫修法時間,但是法源公司人工整理總統公告令函文字號)
這些都屬於法源資訊公司的創作內容

寫到這有沒有發現,你每一樣要使用內容都需要先確認著作權議題

Lawsnote 在沒有經過法源資訊公司的同意下重製了這些創作內容
就違反了著作權法第7條「重製受保護著作」
且有盈利動機
在這種情形下,你就很難主張合理使用

不侵權的原則
以上述的例子來看
是否被判侵權有幾個原則

  1. 資料來源是否合法
  2. 產生的內容是否直接複製他人創作或角色
  3. 是否盈利

在建構系統時
需要檢視以上幾點
避免觸法

如果你覺得這篇有幫助,我每週會發類似的分析到信箱。

訂閱電子報