2021 年的時候,一位基金經理在Discord 上找到了人在德國的高中老師克里斯托夫·舒曼。


基金經理願意承擔舒曼開源項目的所有云計算成本,沒有任何附加條件。


一開始舒曼不敢相信會有這樣的好事,直到幾週之後,他獲得了AWS 雲端GPU 的訪問權。


他的項目是LAION,世界上最大的免費AI 訓練數據集。


那位基金經理名叫Emad,他創辦了Stability.AI,開啟了AIGC 的時代。


開源萬歲。


以下內容來源Bloomberg,由GPT 翻譯,Founder Park 做了些微小的校對。


頭圖來源:Discord LAION 社區



在德國漢堡郊區的一所郊區房子前,單詞「LAION」用鉛筆潦草地寫在郵箱上。


這是一個龐大的數據收集工作的背後人物,這個工作是人工智能潮流的核心,並引發了一個越來越激烈的關於如何監管它的爭議。


這個人是高中教師克里斯托夫·舒曼(Christoph Schuhmann),而LAION 是他的熱情項目。當舒曼不是在向德國青少年教授物理和計算機科學時,他與一小隊志願者一起建立了世界上最大的免費AI 訓練數據集,已經被用AIGC,如穀歌的Imagen 和Stable Diffusion。


像LAION 這樣的數據庫對於text2image 的生成式AI 模型非常重要,它們依賴於它們來解構和創建新圖像所需的大量視覺材料。這些產品的首次亮相是一個範式轉移事件:它將科技行業的人工智能競賽推向了巔峰,但也引發了許多道德和法律問題。


在幾個月內,針對生成式AI 公司Stability AI 和Midjourney 的版權侵權訴訟頻發,批評者對其中暴力、性化和其他問題圖像的數據集發出警報,他們指責這些數據集包含了幾乎不可能解決的偏見。


但這並不是舒曼的關注點,他只想讓數據自由。



0 1
40 億美元→ 零收益


這位40 歲的老師和受過演員訓練的人,兩年前在一個AI 愛好者的Discord 服務器上創建了LAION。 OpenAI 的第一版DALL·E 是一個深度學習模型,用於響應文字prompt 生成圖片,例如,按要求創建一個粉色雞坐在沙發上的圖像。


舒曼受到啟發,但也擔心它會鼓勵大型科技公司使更多數據專有化。


「我立刻明白,如果這個只集中在一個、兩個或三個公司,對社會的影響將非常糟糕,」舒曼說。


作為回應,他和服務器上的其他成員決定創建一個開源數據集來幫助訓練t2i 擴散模型,這是一個類似於用數百萬張閃卡向某人教授一種外語的幾個月的過程。該組使用由加利福尼亞州非營利組織Common Crawl 收集的原始HTML 代碼來定位網絡上的圖像並將其與描述性文本相關聯。它不使用任何手動或人工策劃。


幾週後,舒曼和他的同事擁有了300 萬張圖像文本對。三個月後,他們發布了一個含有4 億文本標註圖片的數據集。現在,這個數字已經超過了50 億,使LAION 成為最大的免費圖像和標註數據集。


隨著LAION 的聲譽不斷提高,團隊一直在無償工作,2021 年獲得了機器學習公司Hugging Face 的一次捐贈。然後有一天,一位前對沖基金經理進入了Discord 聊天室。


Emad Mostaque 主動提出承擔計算能力的費用,沒有任何附帶條件。他想要啟動自己的開源生成式AI 業務,並渴望利用LAION 來訓練他的產品。團隊最初嘲笑這個提議,認為他是一個瘋子。


舒曼說:「我們一開始非常懷疑,但經過四周左右,我們獲得了雲端的GPU 資源,這些資源通常的費用約為9000 美元或10000 美元。」


當Mostaque 在2022 年創辦Stability AI 時,他使用了LAION 的數據集來訓練Stable Diffusion,並僱用了該組織的兩名研究人員。一年後,Stability AI 目前正在尋求40 億美元的估值,這在很大程度上得益於LAION 提供的數據。


舒曼沒有從LAION 中獲利,他對此不感興趣。 「我仍然是一名高中老師。我拒絕了各種公司的工作邀請,因為我希望它保持獨立。」


0 2
數據集就是AI 時代的石油


像LAION 這樣的數據庫中的許多圖像和鏈接,一直以來都明目張膽地存在於網絡上,有些甚至已經存在數十年之久。


它需要AI 的興起才揭示出它的真正價值,因為數據集越大且越多樣化,其中的圖像質量越高,AI 生成的圖像就會越清晰、更精確。


這一認知反過來又引發了許多法律和倫理問題,即公開可用的材料能否用於填充數據庫——如果答案是肯定的,那麼創作者是否應該得到報酬。


為了建立LAION,創始人們從Pinterest、Shopify 和AWS 等公司中獲取了視覺數據——這些公司並未就LAION 使用它們的內容是否違反了其服務條款發表評論。還包括來自YouTube 縮略圖、DeviantArt 和EyeEm 等作品集平台的圖像、來自包括美國國防部在內的政府網站的照片,以及來自新聞網站如《每日郵報》和《太陽報》的內容。



如果你問舒曼,他會說任何在網上免費提供的東西都是公平競爭的。但目前歐盟還沒有AI 監管,即將公佈的AI Act,其語言將在今年夏天早些時候確定,也不會規定版權材料是否可以包含在大型數據集中。


相反,立法者正在討論是否包括一項規定,要求AIGC 背後的公司披露其產品訓練所使用的數據集中包含了哪些材料,從而給這些材料的創作者提供採取行動的選擇。


歐洲議會議員Dragos Tudorache 告訴彭博社,這一規定背後的基本思想很簡單:「作為生成式AI 的開發者,你有義務記錄和透明地披露你在算法訓練中使用的版權材料。」


這種規定對於Stability AI 不是問題,但對於其他t2i 模型可能會帶來問題「沒有人知道Open AI 實際上用來訓練DALL·E 2 的是什麼,」舒曼說,以此作為技術公司封鎖公共數據的例子。這也將顛覆現有的數據收集現狀。


「在這個領域中,慣例是假定您不需要同意或不需要通知人們,或者他們甚至不需要知道這一點。人們有一種自認為擁有權利的感覺,即無論網上有什麼,您都可以爬取並將其放入數據集中,」Mozilla 基金會值得信賴的AI 高級研究員Abeba Birhane 說道,他已經研究了LAION。


儘管LAION 沒有直接被起訴,但它已被列為兩起訴訟的被告:一起指控Stability 和Midjourney 違反DMCA 版權法和公眾權利法,違法競爭和違反TOS,使用藝術家的版權圖片來訓練其模型,另一起是由蓋蒂影像公司針對Stability 提出的,指稱LAION 爬取了其1200 萬張圖片用於訓練Stable Diffusion。


由於LAION 是開源的,因此不可能知道有多少其他公司使用了該數據集。谷歌已經承認它利用LAION 幫助訓練其Imagen 和Parti AI 文本到圖像模型。舒曼認為其他大公司正在悄悄地這樣做,只是不會披露。


0 3
互聯網的黑暗面


當他的兒子玩《Minecraft》時,舒曼坐在客廳裡,將LAION 比作「大信息技術海嘯」上的「小型研究船」,採集下面的樣本並展示給世界看。


「這只是互聯網上公開的資源的一小部分,」他說到LAION 的數據庫,「因為即使是我們這樣的人,只有來自捐贈者的1 萬美元的預算,也能夠得到它。」


但是,公開的並不總是公眾想要的,或者是合法允許看到的。除了貓和消防車的安全圖片,LAION 的數據集還包含了數百萬張色情、暴力、兒童裸體、種族主義梗、仇恨符號、版權藝術和從私人公司網站上抓取的作品。


舒曼表示,他不知道LAION 的數據集中是否有兒童裸體照片,儘管他承認他沒有深入審查數據。如果得到這樣的內容通知,他說,他將立即刪除與之相關的鏈接。


在開始組裝數據庫之前,舒曼諮詢了律師並運行了自動化工具來過濾非法內容,但他對於清洗LAION 的數據並不感興趣,而是希望從中學習。


「我們可以從發布的數據中過濾出暴力內容,」他說,「但我們決定不這樣做,因為它將加速暴力檢測軟件的開發。」LAION 提供了一個撤下表格以請求刪除照片,但是該數據集已經被下載了數千次。


從LAION 中提取的攻擊性內容似乎已經整合到了Stable Diffusion 中,儘管最近已經加強了過濾器,但很容易生成假的伊斯蘭國斬首照片或大屠殺圖像。


一些專家認為,這樣的材料也可能在AI 模型本身內部產生偏見:即使文本提示沒有暗示主題的種族,像Dall·E-2 和Stable Diffusion 這樣的工具也因複制種族刻板印象而受到批評。


這些偏見是谷歌決定不發布經過LAION 訓練的Imagen 的原因。


當被要求發表評論時,Stability AI 表示,它在LAION 數據庫的一個策劃子集上對Stable Diffusion 進行了訓練。該公司在一封電子郵件中寫道,它試圖「為該模型提供比原始SD 更多樣化和廣泛的數據集」,並嘗試使用「LAION 的NSFW 過濾器」刪除「成人內容」。


即使是基於開源的人工智能的支持者也警告說,在未加篩選的數據集上訓練人工智能的影響。


根據Hugging Face 的機器學習和社會團隊負責人Yacine Jernite 的說法,基於有污點的數據的生成式AI 工具將反映其偏見。 「模型是它所訓練的內容的非常直接的反映。」


Jernite 補充說,在產品運行後引入防護欄是不足夠的,因為用戶總是會找到規避安全措施的方法。他們說:「當你拿一個訓練有素的模型來模擬人們在互聯網上的行為,並說:『好的,但不要這樣做。』人們會找到一種方法來讓它仍然這樣做。」


數據非營利組織Common Crawl 的創始人吉爾·埃爾巴茲(Gil Elbaz)懷疑「不能從訓練集到生產之間畫一條直線」,並將該過程比作一個去博物館尋找靈感但被阻止複製藝術品的藝術家。他說,「重要的是社會決定哪些用例是合法的,哪些用例是不合法的。」


這不僅僅是由社會決定。隨著歐洲監管機構制定人工智能使用法規,他們正在努力應對的事實是,目前人工智能熱潮正在挖掘的數據多年來一直處於法律灰色地帶,而這一現狀現在才受到嚴重審查。歐洲議會成員圖多拉切(Tudorache) 說:「沒有多年的數據積累,人工智能不可能達到這種複雜程度。」


但在舒曼的眼中,應該監控的不是數據集。在他看來,人工智能的最壞情況是大型科技公司通過為監管框架定制工具來排擠開發人員。 「如果我們試圖放慢速度並過度監管,」他警告說,「最終的風險是只有少數大型企業玩家能夠承擔所有正式要求。」



巴比特園區開放合作啦!





中文推特: https://twitter.com/8BTC_OFFICIAL

英文推特:https://twitter.com/btcinchina
Discord社區:https://discord.gg/defidao
電報頻道:https://t.me/Mute_8btc
電報社區:https://t.me/news_8btc