檔名:
1751112447210.jpg-(118 KB, 1002x668)
美國法院判決 AI 企業不需獲得原作者許可,即可使用合法獲得的書籍來訓練人工智慧
在生成式人工智慧快速崛起的當下,AI 大模型訓練所使用的原始文字優質資料來源顯的相當的重要,不過也這也牽涉了不少著作權爭議。近日,加州北部地方法院針對AI公司 Anthropic 所捲入的著作權官司做出了可能與一般人認知不同的裁定:確認合法購買的書籍可用於AI訓練,屬於美國著作權法中的「公平使用」(Fair Use)原則。
法院三項關鍵裁定:界定AI訓練資料的合法性邊界
此次案件由加州北部地區聯邦地方法院的威廉·阿爾薩普(William Alsup)法官主審,他在判決書中針對三大爭議焦點做出詳細裁定,為AI業界提供了法律適用的關鍵指引。
一、使用紙本書掃描數據進行AI訓練屬於「公平使用」
阿爾薩普法官首先指出,將AI訓練視為「複製行為」並不成立。AI模型訓練的實質行為,是學習大量文字之間的統計關聯性,而非儲存或再現具體內容。
對於原告提出的「AI訓練可能導致類似風格作品大量產生,影響原作市場」一說,法官予以駁回。他援引具體論述:「這種觀點就如同認為教導孩子寫作會增加競爭作家的數量,因此有損作者利益。著作權法的目的不在於消除競爭,而是促進創造與知識進步。」
法官進一步指出,AI模型輸出的內容若未直接複製原作,則不構成剽竊或侵權。
二、合法購買並掃描書籍供內部訓練亦屬「公平使用」
關於Anthropic購書後自行裁剪、掃描並數位化儲存用於內部研究的行為,法院亦認定此舉具備「變形性」目的,符合公平使用條件。
法官強調,該公司已擁有書籍所有權,且數位化後的書籍僅供內部AI訓練與研究,不涉及外部發行或銷售。「這是格式轉換的行為,而非對著作權的侵害。目的在於空間管理與搜尋便利,並未構成對著作人發行權或衍生著作權的侵犯。」
這一裁定可望為許多同樣進行內部資料整理與數位轉換的研究單位提供範例依據。
三、使用盜版數據訓練AI不屬於「公平使用」
最具爭議的部分,來自Anthropic承認曾使用如Books3與LibGen等盜版來源,收集超過700萬本書籍作為訓練素材。雖然該公司在訴訟中聲稱承認這一行為帶有「惡意」,但同時強調其目的仍具創造性。
然而,法院對此並不接受。法官明確指出,使用非法下載的內容構建中央資料庫,不具「變形性」,且實質上是「付費書籍的替代品」,嚴重違反著作權法。
此外,即便Anthropic後來購買了部分書籍,也無法抵消初期的侵權行為。法官語重心長地指出:「若學術研究可以作為非法複製的免罪符,那麼整個出版市場將不復存在。」
該判決亦批評Anthropic未及時刪除非法來源資料,顯示其使用目的已超出合理範圍。