原視頻: Web3 with a16z, AI & Crypto

作者:Dan Boneh(斯坦福大學教授、a16z crypto 高級研究顧問),專注研究密碼學、計算機安全和機器學習;Ali Yahya(a16z crypto 普通合夥人),曾就職於Google Brain,也是Google 機器學習庫TensorFlow 的核心貢獻者之一。

整理& 編譯:倩雯,ChainCatcher

史蒂芬金曾寫過一本科幻小說叫《鑽石時代》,其中有一種人工智能裝置,在人們的一生中充當人他們的導師。當你出生時,你就會與一個人工智能配對,它非常了解你——了解你的喜好,跟隨你一生,幫助你做出決定,引導你走向正確的方向。這聽起來很不錯,但你絕不希望這樣的技術落到中間商巨頭手中。因為這樣會給這家公司帶來很大的控制權,以及延伸出一系列隱私和主權問題。

我們希望這一技術能夠真正為我所有,於是一種願景應運而生,那就是你可以用區塊鏈來實現這一點。你可以在智能合約中嵌入人工智能。借助零知識證明的力量,保持數據的私密性。在未來幾十年的時間裡,這一技術會越來越智能。你可以選擇做任何你想做的事,或者以任何你希望的方式改變它。

那麼區塊鏈與人工智能的關係如何?人工智能將帶領我們走向什麼樣的世界?人工智能目前的現狀與挑戰如何?區塊鏈在此過程中又會扮演什麼樣的作用呢?

AI與區塊鏈:相互抗衡

人工智能發展,包括《鑽石年代》中描述的這種景像其實一直存在,只是最近又經歷了飛躍性的發展。

首先,人工智能在很大程度上是一種自上而下、集中控制的技術。而加密技術則是一種自下而上、去中心化合作的技術。從很多方面來說,加密貨幣是一門研究如何構建去中心化的系統的學問,這種系統可以實現人類的大規模合作,而不存在真正意義上的中心控制人。從這方面看,這就是這兩種技術可以合二為一的一種自然方式。

人工智能是一種可持續的創新,它能強化現有技術公司的商業模式,幫助它們做出自上而下的決策。這方面最好的例子就是谷歌,它能夠決定在數十億用戶、數十億頁面瀏覽量中為用戶呈現的內容。而加密貨幣則本質上是一種顛覆性創新,它的商業模式與大型科技公司的商業模式根本相悖。因此,這是一場由邊緣叛逆者帶頭的運動,而非當權者帶領的運動。

因此,人工智能可能會與隱私保護各方面息息相關,兩者相互促進、相互作用。人工智能作為一種技術,已經建立了各種激勵機制,導致用戶所有的隱私越來越少,因為公司想要獲取我們的所有數據。而根據越來越多數據訓練出來的人工智能模型也將變得愈加有效。另一方面,人工智能並非完美,模型可能有偏差,偏差可能導致不公平的結果。因此現階段也很多關於算法公平性的論文。

我認為,我們會通往一條人工智能的道路,在這條道路上,每個人的數據都會被匯總到這些龐大的模型訓練中,以優化模型。而加密貨幣則朝著相反的方向發展,即增加個人隱私,賦權用戶掌控數據主權。可以說,加密技術是與一種人工智能相抗衡的技術,因為它能幫助我們從豐富的內容中分辨出人類或人工智能創造的內容,在一個人工智能創造的內容氾濫的世界,加密技術將成為維護和保存人類內容的重要工具。

加密貨幣就是狂野西部,因為它完全沒有權限,因為任何人都可以參與。你不得不假定,其中有些參與方是惡意的。因此現在更需要一些工具來幫助你從不誠實的參與者中篩選出誠實的參與者,而機器學習和人工智能作為一種智能工具,實際上在這方面大有裨益。

例如,就有項目利用機器學習來識別提交給錢包的可疑交易。這樣用戶的這些交易就會被標記,並被提交到區塊鏈上。這可以很好地防止用戶不小心把所有的資金都提交給攻擊者,或者做了一些事後會後悔的事。機器學習也可以作為一種工具,幫助你提前判斷同樣哪些交易可能存在mev。

正如LLM 模型可以用來檢測虛假數據或惡意活動一樣,反過來,這些模型也可以用來生成虛假數據。最典型的例子就是深度偽造。你可以創建一段視頻,讓某人說一些他從未說過的話。但是區塊鏈實際上可以幫助緩解這一問題。

比如,區塊鏈上有時間戳,顯示在這個日期你說了這樣那樣的話。如果有人偽造視頻,那麼你就可以利用時間戳進行否認。所有這些數據,真正真實的數據都記錄在區塊鏈上,可以用來證明這個深度偽造的視頻真的是假的。所以我認為,區塊鏈可能有助於打擊偽造。

我們還可以依靠可信的硬件來實現這一點。攝像頭和我們的手機等設備會對拍攝的圖像和視頻進行簽名,以此作為標準。它被稱為C2PA,規定了相機如何簽署數據。事實上,現在索尼的一款相機就可以拍攝照片和視頻,然後在視頻上生成C2PA簽名。這是一個很複雜的話題,在此我們不再贅述。

通常情況下,報紙在刊登圖片時,不會原封不動地刊登相機拍攝的圖片。他們會進行裁剪,對照片進行一些授權處理。一旦你開始編輯圖片,就意味著收件人、最終讀者、瀏覽器上的用戶看到的不是原始圖片,就無法進行C2PA簽名驗證。

問題是,如何讓用戶確認他們看到的圖像確實是由C2PA相機正確簽名的?這正是ZK技術的用武之地,你可以證明編輯後的圖像實際上是對正確簽名的圖像進行向下採樣和灰度縮放的結果。這樣,我們就可以用簡單的zk 證明來代替C2PA簽名,並與這些圖像一一對應。現在,讀者仍然可以確認他們看到的是真實的圖像。因此,zk 技術可以用來對抗這些信息。

區塊鏈如何破局?

人工智能本質來說是中心化的技術。它在很大程度上得益於規模效應,因為依靠單一數據中心運行會讓事情變得更有效率。此外,數據、機器學習模型、機器學習人才等通常由少數科技公司控制,

那麼該如何破局?加密貨幣可以通過使用ZKML 等技術來幫助我們實現人工智能的去中心化,可以應用在數據中心、數據庫、機器學習模型本身。比如,在計算方面,使用零知識證明,用戶就可以證明實際進行推理或訓練模型的過程是正確的。

這樣,你就可以將這一過程外包給一個大型社區。這種分佈式流程下,任何擁有GPU 的人都可以為網絡貢獻算力,並以這種方式訓練模型,而不必依賴一個集中所有GPU 的大型數據中心。

從經濟學角度看,這是否有意義並不確定。但至少通過正確的激勵措施,可以實現長尾效應。你可以利用所有可能存在的GPU 能力。讓所有這些人都為模型訓練或推理運行貢獻計算能力,這將可以代替控制一切的大型科技公司。要實現這一點,必須解決各種重要的技術問題。實際上,有一家公司叫英偉達正在建立一個去中心化的GPU 計算市場,主要用於訓練機器學習模型。在這個市場上,任何人都可以貢獻自己的GPU計算能力。另一方面,任何人都可以利用網絡中存在的任何計算來訓練他們的大型機器學習模型。這將成為openai、谷歌、元數據等集中式大科技公司的替代選擇。

可以設想這樣一種情況:Alice 有一個想要保護的模型。她想把模型以加密的形式發送給Bob ,Bob現在收到加密模型,需要在這個加密模型上運行自己的數據。如何做到這一點呢?那就要利用所謂的全同態加密計算加密數據。如果用戶擁有加密模型和明文數據,那麼就可以在明文數據上運行加密模型,接收並獲得加密結果。你將加密結果發回給Alice,她就能解密並看到明文結果。

這實際上是已經存在的技術。問題是,目前的技術對中型模型很有效,我們能否將其擴展到更大的模型?這是一個相當大的挑戰,需要更多公司的努力。

現狀、挑戰與激勵機制

我認為要實現計算方面的去中心化。第一個是驗證問題,你可以使用ZK 解決這個問題,但是目前這些技術只能處理較小的模型。我們面臨的挑戰是,這些加密原語的性能遠遠無法滿足對超大型模型進行訓練或推理的需要。因此有很多工作正在進行,以提高證明過程的性能,從而可以高效地證明越來越大的工作量。

與此同時,一些公司也在使用其他技術,這些技術不僅僅是加密技術。而是採用博弈論性質的技術,他們讓更多相互獨立的人進行工作。這是一種不依賴於密碼學的博弈論式的樂觀方法,但它仍然與去中心化人工智能或幫助創建人工智能生態系統這一更大的目標相一致。這是openai等公司提出的目標。

第二個大問題是分佈式系統問題。比如,你該如何協調一個龐大的社區,讓他們為一個網絡貢獻gp,從而讓人感覺它是一個集成的、統一的計算底層?這其中會有很多有挑戰,比如如何以一種合理的方式分解機器學習的工作量,並將不同的工作量分配給網絡的不同節點,以及如何高效地完成所有這些工作。

目前的技術基本上可以應用到中型模型,但是無法應用於gpt 3 或gpt 4 那樣大的模型。當然,我們還有其他方法。例如,我們可以讓多人進行培訓,然後比較結果,這樣就有了博弈論上的激勵機制。激勵人們不要作弊。如果有人作弊,其他人可能會抱怨他們計算的訓練結果不正確。這樣一來,作弊的人就得不到報酬了。

我們也可以在社區中分散數據來源,以訓練大型機器學習模型。同樣,我們也可以收集所有數據,然後自己訓練模型,而不是由一個中心化的機構負責。這可以通過創建一種市場來實現。這與我們剛才描述的計算市場類似。

我們也可以用激勵的眼光來看待,鼓勵人們向某個大數據集貢獻新數據,然後用來訓練模型。這其中的困難與驗證挑戰類似。你必須以某種方式驗證人們貢獻的數據確實是好數據。這些數據既不是重複數據,也不是隨機生成的垃圾數據,更不是以某種方式生成的不真實數據。

此外,還要確保數據不會以某種方式顛覆模型,否則模型性能實際只會越來越差。也許我們必須依靠技術解決方案與社會解決方案的結合,在這種情況下,你還可以通過某種社區成員能夠獲得的站點指標來建立可信度,這樣當他們貢獻數據時,數據就會比原來更可信一些。

否則真正實現覆蓋數據分佈是需要非常久的時間的。機器學習的一大挑戰就是模型實際上只能覆蓋訓練數據集所能達到的分佈範圍。如果有一些輸入遠遠超出了訓練數據的分佈範圍,那麼你的模型實際上可能會表現得完全不可預測。為了讓模型在邊緣情況、黑天鵝數據點或現實世界中可能遇到的數據輸入中表現出色,我們需要一個盡可能全面的數據集。

因此,如果你有這樣一個開放的、去中心化的市場,為數據集提供數據,你就可以讓世界上任何擁有獨特數據的人向網絡提供這些數據,這是一種更好的方式。因為如果你試圖以一家中心公司的身份來做這件事,你根本無法知道誰擁有這些數據。因此,如果可以創造一種激勵機制,讓這些人主動站出來提供這些數據,那麼我認為,你實際上可以獲得明顯更好的長尾數據覆蓋率。

所以我們必須有某種機制來確保你提供的數據是真實的。一種方法是依靠可信硬件,讓傳感器本身嵌入一些可信硬件,我們只信任硬件正確簽名的數據。否則,我們就必須有其他機制來辨別數據的真偽。

機器學習目前有兩個重要趨勢。首先,機器學習模型的性能測量方法正在不斷改進,但仍處於早期階段,實際上很判斷知道另一個模型的性能。另一個趨勢是,我們越來越善於解釋模型的工作原理。

因此,基於這兩點,在某些時候,我也許可以理解數據集對機器學習模型性能的影響。如果我們能理解第三方貢獻的數據集是否有助於機器學習模型的性能,那麼我們就可以獎勵這種貢獻,並為該市場的存在創造動力。

試想一下,如果你能創建一個開放市場,讓人們貢獻經過訓練的模型,從而解決特定類型的問題,或者如果創建了一個智能合約,其中嵌入了某種測試,如果有人能使用zkml 提供一個模型,並證明該模型能解決該測試,這就是一種結局方案。你現在擁有了創建一個市場所需的工具,當人們貢獻出能解決某些問題的機器學習模型時,市場就會受到激勵。

AI與加密如何形成商業模式?

我認為加密貨幣與人工智能交叉背後的願景是,你可以創建一套協議,將人工智能這項新技術獲取的價值分配給更多的人,所有人都可以做出貢獻,所有人都可以分享這項新技術帶來的好處。

因此,能夠獲利的人將是貢獻計算能力的人、貢獻數據的人、或者是為網絡貢獻新的機器學習模型的人,這樣就能訓練出更好的機器學習模型,解決更重要的問題。

網絡需求方也可以獲利。他們把這個網絡作為訓練自己的機器學習模型的基礎設施。也許他們的模型能貢獻一些有趣的事情,比如下一代聊天工具。在這些模式中,由於這些公司將擁有自己的商業模式,因此它們本身就能推動價值的獲取。

建立這個網絡的人也同樣會獲利。比如,為網絡創建一個代幣,代幣將分發給社區。所有這些人都將擁有這個去中心化網絡的集體所有權,用於計算數據和模型,也可以獲取通過這個網絡進行的所有經濟活動的某些價值。

你可以想像,通過這個網絡進行的每一筆交易,每一種支付計算費用、數據費用或模型費用的支付方式,都可能會被收取一定的費用,這些費用會進入由整個網絡控制的金庫。而代幣持有者則共同擁有這個網絡。這本質上就是網絡本身的商業模式。

人工智能促進代碼安全

很多聽眾可能都聽說過協同飛行員(co pilot),這是一種用來生成代碼的工具。你可以嘗試使用這些協同生成工具來編寫solidity 合約或密碼學代碼。我想強調的是,這樣做其實是非常危險的。因為很多時候,當你嘗試運行時,這些系統實際上會生成可以運行但並不安全的代碼。

實際上,我們最近寫了一篇關於這個問題的論文,其中指出,如果你試圖讓一名協同飛行員編寫一個簡單的加密函數,它所提供的加密功能是正確的。但它使用了一種不正確的操作模式,因此你最終會得到一種不安全的加密模式。

你可能會問,為什麼會出現這種情況?其中一個原因是,這些模型基本上都是根據現有的代碼訓練出來的,它們是在github 倉庫中訓練出來的。很多github 倉庫實際上都容易受到各種攻擊。因此,這些模型學習到的代碼都能正常工作,但並不安全。這就像是質量不高的垃圾產出垃圾。因此,我希望人們在使用這些生成模型生成代碼時一定要小心謹慎,仔細檢查代碼是否真的完成了它應該做的事情,而且做得很安全。

你可以使用人工智能模型,結合其他工俱生成代碼,確保整個過程不會出錯。例如,一個想法是使用llm 模型為形式驗證系統生成規範,要求llm 為形式驗證工俱生成一個規範。然後,要求同一個llm 實例生成符合規範的程序,然後使用形式化驗證工具查看程序是否真的符合規範。如果有漏洞出現,工具也會捕捉到。這些錯誤可以作為反饋反饋給llm,然後理想的情況是,希望llm 可以修改其工作,然後生成另一個正確的代碼版本。

最後,如果你重複操作,你最終就會得到一段代碼,在理想情況下,它能完全滿足這個返回值,並且經過正式驗證,也能滿足這個返回值。而且,由於人類可以讀取這個回溯,因此你可以通過這個回溯,看到這就是我想要寫的程序。實際上,已經有很多人在嘗試評估LLM 在查找軟件漏洞方面的能力,比如團結智能合約、C 和C plus。

那麼,我們是否會達到一個高度:LLM 生成的代碼比人類生成的代碼更不容易包含bug?比如,當我們討論自動駕駛時,我們在意的是,它比人類駕駛員更不容易撞車嗎?我認為這種趨勢只會變得越來越強大,把人工智能技術集成到現有工具鏈中的程度也會越來越高。

你可以將其集成到形式驗證工具鏈中,你還可以把它集成到其他工具中,比如前面提到的檢查內存管理問題的工具。你還可以把它集成到單元測試和集成測試工具鏈中,這樣llm 就不只是在真空中行動。它可以從其他工具獲得實時反饋,這些工具將它與地面實況連接起來。

我認為,通過結合使用世界上所有數據訓練出來的超大型機器學習模型,再加上這些其他工具,可能會讓計算程序比人類程序員更優秀。即使他們仍然會犯錯,但他們可能就是超人。這將是軟件工程的一個重要時刻。

人工智能與社交圖譜

另一個可能性是,我們也許可以建立去中心化的社交網絡,其行為實際上很像微博,但社交圖譜實際上是完全在鏈上的。它幾乎就像一個公共產品,任何人都可以在上面構建。作為用戶,你可以控制自己在社交圖譜上的身份。你可以控制自己的數據、控制你關注誰、誰可以關注你。此外,還有一大批公司在社交圖譜中建立門戶,為用戶提供類似Twitter、instagram、tick tock 或其他任何他們想建立的體驗。

但這一切都建立在同樣的社交圖譜之上,沒有人擁有它,也沒有一家價值數十億美元的科技公司在中間完全控制它。

這是一個令人興奮的世界,因為這意味著它可以更加充滿活力,可以有一個由人們共同打造的生態系統。每個用戶都可以對他們在平台上看到的東西和做的事情進行更多的掌控。

但同時用戶也需要從噪音中過濾信號。例如,需要製定合理的推薦算法,過濾所有內容,向你展示你真正想看的新聞源。這將為整個市場打開一扇門,一個由提供服務的參與者組成的競爭環境。你可以使用算法,使用基於人工智能的算法為你策劃內容。作為用戶,你可以決定是否使用一種特定的算法,也許是twitter建立的算法,或者是其他算法。但同樣,你也需要像“機器學習”這樣的工具來幫助你篩選噪音,幫助你解析所有的垃圾信息,在這個世界上,生成模型可以創造出世界上所有的垃圾信息。

人類證明為何重要?

一個非常相關的問題是,在人工智能偽造的內容氾濫的世界裡,如何證明你確實是人類?

生物識別技術是一個可能的方向,其中一個項目叫世界代幣(World Coin), 使用視網膜掃描作為生物識別信息來驗證你是否是真人,以確保你確實是個活人,而不只是一張眼睛的照片。這個系統擁有安全的硬件,很難被篡改,因此另一端出現的證明,也就是掩蓋你實際生物識別信息的零知識證明,很難通過這種方式偽造。

在互聯網上,沒人知道你是機器人。因此,我想這正是人性證明項目變得非常重要的地方,因為知道你是在與機器人還是在與人類互動將變得非常重要。如果你沒有人類的證據,那麼你就無法判斷一個地址是屬於一個人,還是屬於一群人,或者一萬個地址是否真的屬於一個人,還是只是假裝為一萬個不同的人。

這在治理中至關重要。如果治理系統中的每個參與者都能證明他們實際上是人類,而且他們能以一種獨特的方式證明自己是人類,因為他們只有一組眼球,那麼治理系統就會更加公平,也不會那麼財閥化(基於被鎖定在某個智能合約中最大金額的偏好)。

人工智能與藝術

人工智能模型意味著我們將生活在一個媒體無限豐富的世界,在這樣一個世界裡,圍繞任何一個特定媒體的社區或圍繞特定媒體的敘事將變得越來越重要。

比如,Sound.xyz正在建立一個去中心化的音樂流媒體平台,讓藝術家、音樂家上傳音樂,然後通過向他們銷售NFT,直接與我們的社區建立聯繫。例如,可以在sound dot xyz 網站上對曲目發表評論,這樣其他播放這首歌曲的人也能看到評論。這與以前的聲音雲功能類似。購買NFT 的行為,也是在支持藝術家,幫助藝術家實現可持續發展,創作出更多的音樂作品。但這一切的美妙之處在於,它實際上為藝術家提供了一個真正與社區互動的平台。藝術家是大家的藝術家。

由於加密貨幣在這裡的作用,你可以圍繞一首音樂創建一個社區,而如果一首音樂只是由機器學習模型創建的,沒有任何人類元素,那麼這個社區就不會存在。

我們將接觸到的很多音樂都將完全由人工智能生成,而建立社區、圍繞藝術、圍繞音樂、圍繞其他類型的媒體講述故事的工具將非常重要,它會將我們真正關心、真正想要投資並花時間去接觸的媒體與其他一般的媒體區分開來。

這兩者之間可能會產生一些協同效應,比如很多音樂都將由人工智能增強或生成。但如果也有人類元素參與,比如說,創作者利用人工智能工具創作了一首新的音樂,他們有自己的聲音特色、他們有自己的藝術家頁面、自己的一個社區、以及自己的追隨者。

現在,這兩個世界之間產生了協同效應,大家擁有了最好的音樂,因為人工智能賦予了大家超強的能力。但同時,大家也擁有了人類元素和故事,這些元素和故事通過加密技術得以協調和實現,讓你把所有這些人聚集到一個平台上。

在內容生成方面,這絕對是一個嶄新的世界。那麼我們該如何區分需要支持的人類生成的藝術和機器生成的藝術?

這實際上為集體藝術打開了一扇門,通過整個社區的創作過程產生的藝術,而不是單個藝術家。已經有一些項目在做這件事了,在這些項目中,社區通過一些投票程序來影響鏈條,根據機器學習模型的提示生成藝術作品。也許你生成的不是一件藝術品,而是一萬件。然後你再使用另一個機器學習模型,這個模型也是根據社區的反饋訓練出來的,它能從這1 萬幅作品中挑選出最好的一幅。