史上最大版權案,AI是被告

卓克

2023年12月27日,《紐約時報》(以下簡稱NYT)正式向美國聯邦地方法院起訴OpenAI和微軟,指控它們未經許可使用了NYT數百萬篇文章用於訓練GPT模型,創建包括ChatGPT和Copilot在內的AI 產品,要求它們對“非法複製和使用獨特價值的作品承擔數十億美元的法定和實際損害賠償”,還要銷毀所有包含NYT版權材料的模型和訓練資料。

這是一件標誌性事件!

AI技術衝擊傳統模式至少已經一年了。NYT是傳統媒體中的巨鯨,而且在這次訴訟中,也提出希望法院將OpenAI與其他作家之間的糾紛,和自己的案件進行合併審理,這樣能增加訴求被支持的可能性。

可以說,NYT這次的訴訟一旦失敗,今後大語言模型擴張就不再受傳統內容利益集團的阻礙了。一旦OpenAI和微軟敗訴,版權的定義會大幅改動,傳統媒體巨頭們會紛紛跟進,大語言模型會受到重大打擊,這甚至可能是其他類型的AI模型崛起的契機。

所以這期《科技參考》,我們來看看正反方的觀點,我再談談自己的看法。

NYT的理由

咱們先看看原告方的理由:

NYT認為,自己的新聞是雇傭了幾千名記者產出的,他們往往需要去現場採訪,拿到的都是第一手資料,公司每年為他們支付的費用就高達幾億美元。而被告試圖搭便車無償使用這些成果,導致AI聊天機器人分流了原本聚集在NTY的流量,竊取了用戶,讓公司損失了訂閱收入、廣告收入和內容授權收入。

NYT的理由還有,如果這些大語言模型無視對新聞行業的威脅,新聞機構也無力保護自己的內容,今後新聞機構倒下後,電腦和AI是無法填補這些空白的,犧牲真實採編新聞的社會代價是巨大的。

在這份69頁的起訴書中,NYT列出了屬於自己網站的內容,但是被GPT-3拿去訓練的文字量。其中主要都是來自於“公共爬蟲”資料庫(Common Crawl)的。這個資料庫在GPT-3的訓練權重非常高。

公共爬蟲又是個什麼資料庫呢?差不多是一個用網路爬蟲抓取了自從2007年以來所有可以訪問的網頁後保存下來的頁面資訊資料庫。它保存在亞馬遜的雲服務上,大約是幾PB的容量。你想咱們的個人電腦有幾TB的硬碟就算很大了,而1024TB才等於1PB。

爬蟲又是爬什麼呢?它工作起來,和真人上網很像,會向每個可以訪問的頁面發出“看”的請求,然後把頁面顯示的內容存儲下來。不過,爬蟲訪問網頁和真人用流覽器看內容還是有一點區別的。它在看網頁前會先去讀“robots協議”。

這個協定裡規定了,自己這個網站哪些內容可以由爬蟲保存、哪些不能,以及哪些搜尋引擎的爬蟲可以來這裡收集內容,哪些不可以。由於公共爬蟲資料庫每月都會更新幾十億個新頁面,所以粗糙地說,“公共爬蟲”資料庫裡存的就是從2007年以來互聯網上一切允許“公共爬蟲”訪問的內容。

NYT經過分析,如果按大語言模型的習慣核算,這裡總共有大約1億token的訓練資料來自NYT,大約相當於幾千萬個詞的語料吧。

這份起訴書裡占篇幅最大的是100多個例證,就是那些通過GPT-4輸出的內容和NYT原始文章的內容做查重比對。為了直觀,我也從起訴書裡截了兩張有代表性的對比圖。你可以點開看看,圖中凡是紅色的部分都是文字表述完全一致的,不懂英語也無所謂,大致就是GPT-4輸出的內容95%以上都和NYT原文吻合,頂多改一兩個詞的用法,或者開頭結尾有幾個詞不同。

這種強度的重合,放在任何人面前,憑直覺都不會懷疑,這肯定屬於赤裸裸的抄襲。

此外,NYT也列出了同體量的使用微軟New Bing聊天AI得到的內容,也是和NYT的原文做對比,想說明都是高度的、批量的複製。

當然,不只是枯燥的例子,NYT還舉出了文章背後的故事。比如,有一篇關於紐約市計程車行業掠奪式貸款的報導,整個調查取證過程一共向政府部門申請了100多次資訊公開,經過了600多次採訪,梳理了幾千頁銀行內部記錄,花費了18個月的時間,而且這篇文章還獲得了2019年的普利策獎。

以此說明,如此出色的深度報導,對推進社會公平起了巨大作用的新聞,如果這些內容也可以在AI聊天介面獲取,今後付費訂閱優質新聞的用戶會越來越少,今後新聞機構紛紛經營不下去了,不但是傳統新聞人的不幸,更是起到監督作用的新聞權利這個公共利益的滅頂之災。

支持NYT的理由

支持NYT的人,很多都是傳統媒體的記者,其中最早把這份訴狀轉到X上的記者,一天之內就獲得了280萬的閱讀量。除了一些重複NYT訴狀的觀點外,還有一些支持其實說得比較有道理。比如:

“OpenAI繞過了付費牆,從被盜資料中盈利,這是典型的侵權行為。”



這個人就是比較懂“公共爬蟲”資料來源的。直白地說,公共爬蟲資料庫裡也囊括了非常全面的原本是付費內容,但後來被以各種方式,不一定是盜版,反正是copy出來的文字。比如說那篇關於計程車行業掠奪式貸款的報導,最先發佈時自然是付費才能看到的,但後來影響力非常大,很多機構也引用,之後就改成了公開可見。這就是為什麼很多NYT上需要付費才能看到的深度報導,在ChatGPT裡能整段整段出現的原因。

公共爬蟲資料庫還是動態的。平均來看,每秒都在更新,每秒大約收錄1.1萬個新的頁面資訊。所以,沒有機構有能力清晰地鑒別這個資料庫中資訊的版權歸屬。那些深度報導大都會在不久之後以盜版或者不屬於盜版的形式免費全文出現在互聯網上。可大語言模型在訓練時是一股腦照單全收的,並且還能做更加深度的加工整理,理解消化幾千萬字的內容,這也是歷史上從未有過的單一智慧體能達成的理解力。而大語言模型做到了之後,開始收費。

你說OpenAI在收集資料做訓練前,不知道這些資料庫裡一定存在很多有版權爭議的文本嗎?我覺得當然知道,只是借“公共爬蟲”並沒有被當作侵犯版權者這個理由做擋箭牌。

所以,無論我之後介紹的反方的理由多麼有理有據,這一點都是OpenAI確鑿無疑理虧的地方。

反對NYT的理由

接下來咱們再說說反方的理由:

第一種是類似小孩吵架的方式。他們認為:你們的記者也有很多向海明威學習簡潔的寫作文風,你們是不是也先把學海明威的費用付一下?運動場上,後輩球星也在研究上一代球星的技術動作,然後也會在球場上使用,他們是不是也該向老前輩付款?我們都可以從周遭免費的學習,人可以,AI為什麼不可以?

這樣的評論不知道大家怎麼看,我反正對此類說辭不太當回事。

我比較關注的其實是下一個偏技術角度的理由。就是說,那些幾乎逐字逐句copy《紐約時報》內容的GPT-4回復,並不是一般用戶能得到的輸出結果,而是通過“檢索增強生成技術”得到的。

這種技術簡稱RAG(Retrieval-Augmented Generation),它是AI聊天應用中常用到的技術。如果你用過2023年11月份之前的GPT-4版本的“聯網模式”的話,就會知道RAG的回復是什麼樣的了。

它在後臺是這樣工作的:

首先理解使用者提出的問題,然後歸納出關鍵字,執行搜索。這一步和我們在搜索框輸入關鍵字是一樣的。

接著,從搜索到的頁面裡找到和問題最相關的文檔片段。這一步和我們手工搜索不一樣在於:手工搜索時,我們通常只看搜索結果第一頁的前幾個結果,頂多往後翻5頁,然後把看到的資訊綜合出一個結論。但GPT-4的聯網模式可能會往後翻幾十頁,看幾百個頁面,從海量的搜索結果中把相關資訊理解後,挑選出與問題直接相關的片段。

得到這些片段後,再把這些片段作為大語言模型的輸入。這次既要考慮用戶最初的問題,也要考慮從檢索到的文檔中挑選出來的資訊,最後大語言模型再根據這個輸入,生成一個準確且符合語境的結果。在這一步,也會做適當改寫、簡化或者重新組織,提高問題的相關性與可讀性。

今天,因為OpenAI已經把GPT-4升級到GPT-4 Turbo了,普通使用者見不到聯網模式的選項了,GPT-4只是在它認為有必要時才做聯網搜索。如果之前這樣做的話,輸出結果必然是高度結合指定的那篇文章的內容。

而且,這篇文章大段大段的內容之所以能出現在輸出結果中,其實是在搜索指令下臨時在互聯網上搜到的,和“公共爬蟲”的資料訓練反而沒什麼關係。

但NYT在證據中只給出了左右兩個高度類似的文檔樣式,讓人們憑直覺產生這是赤裸裸的抄襲的印象,而沒有把全部的提示詞、提示技巧展示出來。如果你只是自己簡單想一些提示詞問ChatGPT或者New Bing,你是肯定無法複現出起訴書裡那種抄襲程度的證據的。

而這一點也會是整個庭審中NYT最薄弱的環節,因為涉及到全部證據都無法複現的問題。

而一旦可以高度複現出證據,那使用的提示詞必然會使用了RAG技術,也就很容易追蹤到引用的頁面。而這些頁面可能就是某個網友的個人博客,或者某個其他網站的新聞。這篇文章的具體內容一直存在於互聯網上,並不是ChatGPT抄襲。那你說,引用了一篇互聯網上已經存在的、但其實是從付費內容中貼出來的文字,算侵犯版權嗎?

我覺得答案是,算侵權的可能性比較小。因為本質上,這和大語言模型關係不大,基於大語言模型做出來的產品,在執行搜索功能的時候並沒有涉及大語言模型的功能,後續只是利用搜尋引擎找到的結果做後續處理。如果這個算侵權,搜尋引擎在九十年代末出現後,也早就應該算侵權了。

而且,穀歌在早期確實遇到過高度類似的訴訟,因為穀歌的伺服器其實擁有一個比“公共爬蟲”資料庫更全的全球所有網頁的歷史資料庫,但它只是一份互聯網歷史的檔案,一直受到版權法中“合理使用”原則的保護。

好,以上就是雙方最有力度的觀點梳理。我做一個預測,NYT不會贏下訴訟,雙方最終會達成庭外和解,NYT獲得一些經濟賠償。
https://www.reuters.com/legal/transactional/ny-times-sues-openai-microsoft-infringing-copyrighted-work-2023-12-27/
Past 31 days
Total Visit: 2
There are 0 fact-checking replies to the message
No response has been written yet. It is recommended to maintain a healthy skepticism towards it.
Automated analysis from ChatGPT
The following is the AI's preliminary analysis of this message, which we hope will provide you with some ideas before it is fact-checked by a human.
在這則訊息中,閱聽人需要特別留意以下幾個地方: 1. 訊息提到的訴訟內容涉及到大型科技公司OpenAI和微軟,以及知名媒體《紐約時報》,這樣的爭議案件可能對未來的版權法律和AI技術發展產生重大影響,閱聽人需要關注這樣的跨領域訴訟案件。 2. 訊息中提到了AI技術在訓練過程中可能使用了來自公共爬蟲資料庫的內容,這引發了版權爭議。閱聽人需要注意AI技術在使用資料時的合法性和隱私保護問題。 3. 訊息中提到了AI技術可能使用了檢索增強生成技術(RAG),這種技術在生成回復時可能會參考網路上的資訊,閱聽人需要關注這種技術對資訊引用和版權的影響。 4. 訊息中提到了可能會有庭外和解的可能性,這意味著訴訟案件的結果可能不僅僅取決於法院判決,閱聽人需要留意後續可能的協商和解決方式。
Add Cofacts as friend in LINE
Add Cofacts as friend in LINE
LINE 機器人
查謠言詐騙