作者:Yuxing, SevenX Ventures

本文僅供交流學習,不構成任何投資建議。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

ChatGPT 和GPT-4 的火熱,讓我們看到了人工智能的力量。人工智能背後,除了算法以外,更重要的是海量的數據。圍繞數據,我們已經構建了一個大規模的複雜系統,該系統的價值主要來自於商業智能(Business Intelligence, BI)和人工智能(Artificial Intelligence, AI)。由於互聯網時代數據量的快速增長,數據基礎設施的工作和最佳實踐也在飛速地發展。這兩年,數據基礎設施技術棧的核心系統已經非常穩定,支持工具和應用也在快速增長。

Web2 數據基礎設施架構

雲數據倉庫(如Snowflake 等)正在迅速增長,主要關注SQL 用戶和商業智能用戶場景。其他技術的採用也在加速,數據湖(如Databricks)的客戶增長速度前所未有,數據技術棧中的異質性將共存。

其他核心數據系統,如數據獲取和轉化,已經證明同樣耐久。這在現代數據智能領域特別明顯。 Fivetran 和dbt(或類似技術)的組合幾乎隨處可見。但在一定程度上,在業務系統中也同樣如此。 Databricks/Spark、Confluent/Kafka 和Astronomer/Airflow 的組合也開始成為事實標準。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

來源:a16z

其中,

  • 數據源端生成相關商務和業務數據;
  • 數據抽取和轉換負責從業務系統中抽取數據(E)、傳輸到存儲、對齊數據源和目的地之間的格式(L)以及將分析過的數據根據需求送回業務系統;
  • 數據存儲將數據按照可以查詢和處理的格式存儲,需要朝低成本、高可擴展性和分析工作量進行優化;
  • 查詢和處理將高級編程語言(通常用SQL、Python 或者是Java/Scala)翻譯成低端數據處理任務。根據存儲數據,使用分佈式計算執行查詢和數據模型,包括歷史分析(描述過去發生事件)和預測分析(描述將來期待事件);
  • 轉換將數據轉換成分析可用的結構,管理流程和資源;
  • 分析和輸出是為分析師和數據科學家提供可以溯源洞見和協作的界面,向內部和外部用戶展示數據分析的結果,將數據模型嵌入面向用戶的應用。

隨著數據生態的飛速發展,出現了“數據平台”的概念。從行業的角度看,平台的定義特徵是有影響力的平台提供方和大量的第三方開發者能夠在技術上和經濟上相互依存。從平台的角度看,數據技術棧分為“前端”和“後端”。

“後端”大致包括數據提取、存儲、處理和轉換,已經開始圍繞小部分雲服務提供商開始整合。因此,客戶數據被收集在一套標準的系統中,供應商正在大力投資,使其他開發人員可以輕鬆訪問這些數據。這也是Databricks 等系統的基本設計原則,並且通過SQL 標準和自定義計算API(例如Snowflake)等系統得到了實現。

“前端”工程師利用這種單點集成來構建一系列新應用程序。他們依賴數據倉庫/湖倉一體中清洗和整合過的數據,而不用擔心它們是如何生成的底層細節。單個客戶可以在一個核心數據系統之上構建和購買很多應用。我們甚至開始看到傳統企業系統,如財務或者產品分析,正在使用倉庫原生的架構進行重構。

隨著數據技術棧的逐漸成熟,數據平台上的數據應用也隨之激增。由於標準化,採用新的數據平台變得前所未有地重要,相應地維護平台也變得極為重要。在規模上,平台可能非常有價值。現在,核心數據系統供應商之間競爭激烈,這種競爭不僅是為了當前的業務,更是為了長期的平台地位。如果你認為數據獲取和轉換模塊是新興數據平台的核心部分,那麼對數據獲取和轉換公司的驚人估值也就更容易理解了。

然而,這些技術棧的形成是在以大公司為主導的數據利用方式下形成的。隨著社會對於數據的理解加深,人們認為數據與土地、勞動力、資本、技術一樣, 都是可市場化配置的生產要素。數據作為五大生產要素之一,其背後體現的正是數據的資產價值。

要實現數據要素市場的配置,目前的技術棧遠遠不能滿足需求。與區塊鏈技術緊密結合的Web3 領域,新的數據基礎設施正在發展與演變。這些基礎設施將嵌入現代數據基礎設施架構,實現數據產權界定、流通交易、收益分配和要素治理。這四個領域在政府監管的角度來說非常關鍵,因此需要特別關注。

Web3 混合數據基礎設施架構

受a16z 統一的數據基礎設施架構(2.0)的啟發,融合對Web3 基礎設施架構的理解,我們提出了以下Web3 混合數據基礎設施架構。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

橙色是Web3 所獨有的技術棧單元。由於去中心化技術還處於早期發展階段,目前Web3 領域內的大部分應用採用的仍是這種混合數據基礎設施架構。絕大多數應用並不是真正的“ 超級結構”。超級結構擁有不可停止、免費、有價值、可擴展、無許可、正外部性和可信中立等特徵。它作為數字世界的公共物品而存在,是“元宇宙”世界的公共基礎設施。這需要完全去中心化的底層架構來支撐它。

傳統的數據基礎設施架構是根據企業業務發展演變而來的。 a16z 將其總結為兩個系統(分析系統和業務系統)和三個場景(現代商業智能、多模型數據處理以及人工智能和機器學習)。這是從企業的視角——數據為企業的發展服務——作出的總結。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

來源:a16z

然而,不僅僅是企業,社會和個人都應當受益於數據要素帶來的生產力提升。世界各國都接連出台了政策法規,希望從監管的層面規範數據的使用,促進數據的流通。這包括在日本常見的各種Data Bank、在中國最近興起的數據交易所以及在歐美已經廣泛使用的交易平台,如BDEX(美國)、Streamr(瑞士)、DAWEX(法國)和CARUSO 等等。

當數據開始進行產權界定、流動交易、收益分配和治理時,它們的系統和場景就不僅僅是賦能企業自身的決策和業務發展。這些系統和場景要么需要藉助區塊鏈技術,要么強烈依賴政策監管。

Web3 是數據要素市場的天然土壤,它從技術上杜絕了作弊的可能性,能夠大大減輕監管壓力,讓數據作為真正的生產要素存在,並進行市場化配置。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

在Web3 語境下,數據利用的新範式包括承載流動數據要素的市場系統和管理公共數據要素的公共系統。它們涵蓋了三個新的數據業務場景:產權數據開發整合、可組合初始數據層和公共數據挖掘。

這些場景有的與傳統數據基礎設施緊密結合,屬於Web3 混合數據基礎設施架構;有的則脫離傳統架構,完全由Web3 原生的新技術支持。

Web3 與數據經濟

數據經濟市場是配置數據要素的關鍵,其包括產品數據的開發和整合和具備可組合性的初始數據層市場。在高效合規的數據經濟市場中, 以下幾點十分重要:

  1. 數據產權是保障權益和合規使用的關鍵,應進行結構性分配處置,同時數據使用需要確認授權機制。各個參與方應該擁有相關權益。
  2. 流通交易需要場內外結合以及合規高效。應基於數據來源可確認、使用範圍可界定、流通過程可追溯、安全風險可防範四大原則。
  3. 收益分配制度需要高效公平。按照“誰投入、誰貢獻、誰受益”的原則,同時政府在數據要素收益分配中能夠發揮引導調節作用。
  4. 要素治理安全可控、彈性包容。這需要創新政府數據治理機制,建立數據要素市場信用體系,並鼓勵企業積極參與數據要素市場建設,圍繞數據來源、數據產權、數據質量、數據使用等,推行面向數據商及第三方專業服務機構的數據流通交易聲明和承諾制。

以上原則是監管部門考慮數據經濟的基本原則。在產權數據開發整合、可組合初始數據層和公共數據挖掘三種場景下,可以以這些原則為基礎進行思考。我們需要怎樣的基礎設施作為支撐?這些基礎設施能夠在哪些階段捕獲什麼樣的價值?

場景一:產權數據開發整合

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

注:橙色是Web2 與Web3 交叉的單元

在產權數據開發過程中,需要建立分類分級確權授權機制,以確定公共數據、企業數據和個人數據的所有權、使用權和經營權。根據數據來源和生成特徵,通過“數據適配”的方式對數據進行產權界定。其中,典型的項目包括Navigate、Streamr Network 和KYVE 等。這些項目通過技術手段實現數據質量標準化、數據採集和接口標準化,將鏈下數據以某種形式確權,並通過智能合約或內部邏輯系統進行數據分類分級授權。

在該場景下適用的數據類型為非公共數據,即企業數據和個人數據。應按市場化方式“共同使用、共享收益”,從而激活數據要素價值。

  • 企業數據包括各類市場主體在生產經營活動中採集加工的不涉及個人信息和公共利益的數據。市場主體享有依法依規持有、使用、獲取收益的權益,以及保障其投入的勞動和其他要素貢獻獲得合理回報的權利。
  • 個人數據要求數據處理者按照個人授權範圍依法依規採集、持有、託管和使用數據。使用創新技術手段,推動個人信息匿名化處理,保障使用個人信息數據時的信息安全和個人隱私。探索由受託者代表個人利益,監督市場主體對個人信息數據進行採集、加工、使用的機制。對涉及國家安全的特殊個人信息數據,可依法依規授權有關單位使用。

場景二:可組合初始數據層

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

注:橙色是Web2 與Web3 交叉的單元

可組合初始數據層是數據經濟市場的重要組成部分。與一般的產權數據不同的是,這部分數據最明顯的特徵是需要通過“數據模式管理”定義數據的標準格式。與“數據適配”的質量、採集和接口標準化不同的是,這裡強調的是數據模式的標準化,包括標準的數據格式和標準的數據模型。 Ceramic 和Lens 是這一領域的先行者,他們分別保障了鏈下(去中心化存儲)和鏈上數據的標準模式,從而使得數據具有可組合性。

搭建在這些數據模式管理工具之上的是可組合初始數據層,通常稱為“data layer”,如Cyberconnect、KNN3 等。

可組合初始數據層較少涉及到Web2 的技術棧,但以Ceramic 為主的熱數據讀取工具打破了這一點,這將是非常關鍵的突破。很多類似的數據無需存儲在區塊鏈上,也很難存儲在區塊鏈上,但它們需要存儲在去中心化的網絡之上,例如用戶的發帖、點贊和評論等高頻低價值密度數據,Ceramic 為這一類數據提供了存儲範式。

可組合的初始數據是新時代創新的關鍵場景,也是數據霸權與數據壟斷終結的重要標誌。它能夠解決初創企業在數據方面的冷啟動問題,組合成熟數據集和新數據集,從而使初創企業能夠更快地建立數據競爭優勢。同時讓初創企業專注於增量數據價值和數據新鮮度,從而為自身的創新想法贏得持續的競爭力。這樣,大量的數據將不會成為大公司的護城河。

場景三:公共數據挖掘

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

注:橙色是多類別交叉的單元

公共數據挖掘並不是一個新的應用場景,但是在Web3 技術棧中,它得到了前所未有的突出強調。

傳統的公共數據包括黨政機關、企事業單位依法履職或提供公共服務過程中產生的公共數據。監管機構鼓勵在保護個人隱私和確保公共安全的前提下,按照“原始數據不出域、數據可用不可見”的要求,以模型、核驗等產品和服務等形式向社會提供該類數據。它們採用的是傳統技術棧(藍色和部分橙色,橙色代表多個類型技術棧交叉,下同)。

在Web3 中,區塊鏈上的交易數據以及活動數據則是另一類公共數據,其特徵是“可用且可見”,因此缺乏數據隱私、數據安全以及數據使用的確認授權能力,是真正的“公共物品”(Public Goods)。它們採用的是以區塊鍊和智能合約為核心的技術棧(黃色和部分橙色)。

而在去中心化存儲上的數據則大多是除交易以外的Web3 應用數據,目前主要是以文件和對象存儲為主,相應的技術棧仍不成熟(綠色和部分橙色)。這類公共數據的生產和挖掘利用存儲的普遍問題包括冷熱存儲、索引、狀態同步、權限管理和計算等等。

該場景湧現了諸多數據應用,它們不屬於數據基礎設施,更多是數據工具,包括Nansen、Dune、NFTScan、0xScope 等等。

案例:數據交易所

數據交易所是指以數據為商品進行交易的平台。它們可以根據交易對象、定價機制、質量保證等方面進行分類和比較。 DataStreamX、Dawex、Ocean Protocol 是市場上幾個典型的數據交易所。

Ocean Protocol (2億市值)是一個開源的協議,旨在讓企業和個人能夠交換和變現數據和基於數據的服務。該協議基於以太坊區塊鏈,使用“數據代幣”(datatokens)來控制對數據集的訪問。數據代幣是一種特殊的ERC20 代幣,可代表一個數據集或一個數據服務的所有權或使用權。用戶可以通過購買或賺取數據通證來獲取所需的信息。

Ocean Protocol 的技術架構主要包括以下幾個部分:

  • 提供者(Providers):指提供數據或數據服務的供應方,他們可以通過Ocean Protocol 發行和出售自己的數據通證,從而獲得收入。
  • 消費者(Consumers):指購買和使用數據或數據服務的需求方,他們可以通過Ocean Protocol 購買或賺取所需的數據通證,從而獲得訪問權。
  • 市場(Marketplaces):指由Ocean Protocol 或第三方提供的一個開放、透明和公平的數據交易市場,它可以連接全球範圍內的提供者和消費者,並提供多種類型和領域的數據通證。市場可以幫助組織發現新的商業機會,增加收入來源,優化運營效率,創造更多價值。
  • 網絡(Network):指由Ocean Protocol 提供的一個去中心化的網絡層,它可以支持不同類型和規模的數據交換,並保證數據交易過程中的安全、可信和透明。網絡層是一組智能合約,用於註冊數據、記錄所有權信息、促進安全的數據交換等。
  • 策展人(Curator):指一個生態系統中負責篩選、管理、審核數據集的角色,他們負責審核數據集的來源、內容、格式和許可證等方面的信息,以確保數據集符合標準,並且可以被其他用戶信任和使用。
  • 驗證人(Verifier):指一個生態系統中負責驗證、審核數據交易和數據服務的角色,他們對數據服務提供商和消費者之間的交易進行審核和驗證,以確保數據服務的質量、可用性和準確性。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

來源:Ocean Protocol

數據提供者創建的“數據服務”包括數據、算法、計算、存儲、分析和策展。這些組件與服務的執行協議(如服務等級協議)、安全計算、訪問控制和許可綁定在一起。本質上,這是通過智能合約來控制一個“雲服務套件”的訪問權限。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

來源:Ocean Protocol

其優點是,

  • 開源、靈活和可擴展的協議有助於組織和個人創建自己獨特的數據生態系統。
  • 基於區塊鏈技術的去中心化網絡層,可以保證數據交易過程中的安全、可信和透明,同時也保護了提供者和消費者的隱私和權益。
  • 開放、透明和公平的數據市場,可以連接全球範圍內的提供者和消費者,並提供多種類型和領域的數據通證。

Ocean Protocol 是混合架構的典型代表。其數據可以存儲在不同的地方,包括傳統的雲存儲服務、去中心化的存儲網絡,或者數據提供者自己的服務器。該協議通過數據代幣(datatokens)和數據非同質化代幣(data NFTs)來標識和管理數據的所有權和訪問權限。此外,該協議還提供了計算到數據(compute-to-data)的功能,使得數據消費者可以在不暴露原始數據的情況下對數據進行分析和處理。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

來源:Ocean Protocol

固然Ocean Protocol 是市面上現階段最為完善的數據交易平台之一,但它仍然面臨著諸多挑戰:

  • 建立一個有效的信任機制,以增加數據提供者和需求者之間的信任度,降低交易風險。例如,建立數據要素市場信用體系,對數據交易失信行為認定、守信激勵、失信懲戒、信用修復、異議處理等等,通過區塊鏈進行留證與驗證。
  • 建立一個合理的定價機制,以反映數據產品的真實價值,激勵數據提供者提供高質量的數據,並吸引更多的需求者。
  • 建立一個統一的標準規範,以促進不同格式、類型、來源和用途的數據之間的互操作性和兼容性。

案例:數據模型市場

Ceramic 在其數據宇宙中提到了他們要打造的開放數據模型市場,因為數據需要互操作性,它能夠極大地促進生產力的提升。這樣的數據模式市場是通過對數據模型的緊急共識實現的,就類似於以太坊中的ERC 合約標準,開發人員可以從中選擇作為功能模板,從而擁有一個符合該數據模型的所有數據的應用程序。目前這個階段,這樣的市場並不是一個交易市場。

關於數據模型,一個簡單的例子是,在去中心化社交網絡當中,數據模型可以簡化為4 個參數,分別是:

  1. PostList:存儲用戶帖子的索引
  2. Post:存儲單個帖子
  3. Profile:存儲用戶的資料
  4. FollowList:存儲用戶的關注列表

那麼數據模型如何在Ceramic 上進行創建、共享和重用,從而實現跨應用程序數據互操作性呢?

Ceramic 提供了一個數據模型註冊表(DataModels Registry),這是一個開源的、社區共建的、用於Ceramic 的可重用應用程序數據模型的存儲庫。在這裡,開發人員可以在其中公開註冊、發現和重用現有數據模型——這是構建在共享數據模型上的客戶操作應用程序的基礎。目前,它基於Github 存儲,未來它將分散在Ceramic 上。

添加到註冊表的所有數據模型都會自動發佈到@datamodels 的npm 插件包下面。任何開發人員都可以使用@datamodels/model-name 安裝一個或多個數據模型,使這些模型可用於在運行時使用任何IDX 客戶端存儲或檢索數據,包括DID DataStore 或Self.ID。

此外,Ceramic 還基於Github 搭建了一個DataModels 論壇,數據模型註冊表中的每個模型在該論壇上都有自己的討論線程,社區可以通過它來評論和討論。同時,這裡還可以供開發人員發布關於數據模型的想法,從而在將其添加到註冊表之前徵求社區的意見。目前一切都在早期階段,註冊表中的數據模型並不多,收納進入註冊表中的數據模型應當通過社區的評定稱為CIP 標準,就像以太坊的智能合約標準一樣,這為數據提供了可組合性。

案例:去中心化數據倉庫

Space and Time 是第一個連接鏈上和鏈下數據以支持新一代智能合約用例的去中心化數據倉庫。 Space and Time (SxT) 擁有業內最成熟的區塊鏈索引服務,SxT 數據倉庫還採用了一種名為Proof of SQL™ 的新型密碼學來生成可驗證的防篡改結果,允許開發人員以簡單的SQL 格式加入無需信任的鏈上和鏈下數據,並將結果直接加載到智能合約中,以完全防篡改和區塊鏈錨定的方式為亞秒級查詢和企業級分析提供支持。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

Space and Time 是兩層網絡,由驗證器層和數據倉庫組成。 SxT 平台的成功取決於驗證器和數據倉庫的無縫交互,以促進對鏈上和鏈下數據的簡單和安全查詢。

  • 數據倉庫由數據庫網絡和計算集群組成,這些網絡由space and time 驗證器控制並路由到它們。 Space and time 採用了一種非常靈活的倉儲解決方案:HTAP(Hybrid transactional/analytic processing)。
  • Validator 監視、命令和驗證這些集群提供的服務,然後編排最終用戶和數據倉庫集群之間的數據流和查詢。 Validator 為數據進入系統(例如區塊鏈索引)和數據退出系統(例如智能合約)提供了一種手段。
  • 路由——支持與去中心化數據倉庫網絡的事務和查詢交互
  • 流媒體——充當大容量客戶流媒體(事件驅動)工作負載的接收器
  • 共識——對進出平台的數據提供高性能的拜占庭容錯
  • 查詢證明——向平台提供SQL 證明
  • Table Anchor——通過在鏈上錨定表向平台提供存儲證明
  • Oracle——支持Web3 交互,包括智能合約事件監聽和跨鏈消息傳遞/中繼
  • 安全性——防止未經身份驗證和未經授權訪問平台

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

Space and Time 作為一個平台是世界上第一個分散的數據結構,它開啟了一個強大但服務不足的市場:數據共享。在Space and Time 平台內,公司可以自由共享數據,並且可以使用智能合約對共享的數據進行交易。此外,數據集可以通過SQL 證明以聚合方式貨幣化,而無需讓消費者訪問原始數據。數據消費者可以相信聚合是準確的,而無需看到數據本身,因此數據提供者不再必須是數據消費者。正是出於這個原因,SQL 證明和數據結構架構的結合有可能使數據操作民主化,因為任何人都可以在攝取、轉換和服務數據集方面做出貢獻。

Web3 數據治理與發現

目前,Web3 數據基礎設施架構中缺乏一個實用且高效的數據治理架構。然而,一個實用且高效的數據治理基礎設施對於配置各參與方相關權益的數據要素至關重要。

  • 對於數據來源者,需要擁有知情同意和數據本身的自由獲取、複製轉移的處置權。
  • 對於數據處理者,需要擁有自主管控、使用數據和獲得收益的權力。
  • 對於數據衍生品,需要擁有經營權。

目前Web3 數據治理能力單一,往往只能通過控制私鑰來控制資產和數據(包括Ceramic),分級分類配置能力幾乎沒有。最近,Tableland、FEVM 以及Greenfield 的創新機制,在一定程度上可以實現數據的去信任化治理。傳統的數據治理工具如Collibra 一般只能用於企業內部,只具備平台級的信任,同時非去中心化的技術也使得其無法防止個人作惡及單點故障。通過Tableland 等數據治理工具,可以保障數據流通過程所需的安全保障技術、標準和方案。

案例:Tableland

Tableland Network 是一種用於結構化關係數據的分散式web3 協議,從以太坊(EVM) 和與EVM 兼容的L2 開始。借助Tableland,現在可以通過利用區塊鏈層進行訪問控制來實現傳統的web2 關係數據庫功能。但是,Tableland 並不是一個新的數據庫——它只是web3 原生的關係表。

Tableland 提供了一種新方法,使dapp 能夠將關係數據存儲在web3-native 網絡中,而無需進行這些權衡。

解決方案

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

使用Tableland,元數據可以變更(如果需要,使用訪問控制)、查詢(使用熟悉的SQL)和可組合(與Tableland 上的其他表)——所有這些都以完全去中心化的方式進行。

Tableland 將傳統的關係數據庫分解為兩個主要組件:具有訪問控制邏輯(ACL) 的鏈上註冊表和鏈下(去中心化)表。 Tableland 中的每個表最初都是作為ERC721 令牌在基本EVM 兼容層上鑄造的。因此,鏈上的表所有者可以為表設置ACL 權限,而鏈下Tableland 網絡管理表本身的創建和後續變更。鏈上和鏈下之間的鏈接都是在合約級別處理的,它只是指向Tableland 網絡(使用baseURI + tokenURI,很像許多使用IPFS 網關或託管服務器作為元數據的現有ERC721 代幣)。

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

只有具有適當鏈上權限的人才能寫入特定表。但是,表讀取不一定是鏈上操作,可以使用Tableland 網關;因此,讀取查詢是免費的,可以來自簡單的前端請求,甚至可以來自其他非EVM 區塊鏈。現在,為了使用Tableland,必須首先創建一個表(即,作為ERC721 在鏈上鑄造)。部署地址最初設置為表所有者,並且此所有者可以為任何其他嘗試與表交互進行變更的用戶設置權限。例如,所有者可以設置規則,誰可以更新/插入/刪除值,他們可以更改哪些數據,甚至決定他們是否願意轉讓所有權表的另一方。此外,更複雜的查詢可以連接來自多個表(擁有或非擁有)的數據,以創建一個完全動態且可組合的關係數據層。

考慮下圖,它概括了新用戶與已由某些dapp 部署到Tableland 的表的交互:

全視角解讀Web3數據經濟:LSD 之後的下一個千億級賽道

以下是整體信息流:

1. 新用戶與dapp 的UI 交互並嘗試更新存儲在Tableland 表中的一些信息。

2. dapp 調用Tableland 註冊智能合約來運行這個SQL 語句,並且這個合約檢查dapp 的智能合約,其中包含定義這個新用戶的權限的自定義ACL。有幾點需要注意:

  • dapp 的單獨智能合約中的自定義ACL是一個完全可選但高級的用例;開發人員不需要實現自定義ACL,可以使用Tableland 註冊表智能合約的默認策略(只有所有者擁有完全權限)。
  • 寫查詢也可以使用網關,而不是直接調用Tableland 智能合約。 dapp 始終存在直接調用Tableland 智能合約的選項,但任何查詢都可以通過網關發送,網關將以補貼的方式將查詢中繼到智能合約本身。

3. Tableland 智能合約獲取該用戶的SQL 語句和權限,並將這些合併到發出的事件中,這些事件描述了要採取的基於SQL 的操作。

4. Tableland Validator 節點偵聽這些事件並隨後採取以下操作之一:

  • 如果用戶具有寫入表的正確權限,驗證器將相應地運行SQL 命令(例如,向表中插入新行或更新現有值)並將確認數據廣播到Tableland 網絡。
  • 如果用戶沒有正確的權限,Validator不會對錶執行任何操作。
  • 如果請求是簡單的讀查詢,則返回相應的數據;Tableland 是一個完全開放的關係數據網絡,任何人都可以在其中對任何表執行只讀查詢。

5. dapp 將能夠通過網關反映Tableland 網絡上發生的任何更新。

(使用場景)避免什麼

  • 個人身份數據——Tableland 是一個開放的網絡,任何人都可以從任何表格中讀取數據。因此,個人數據不應存儲在Tableland 中。
  • 高頻、亞秒級寫入——例如高頻交易機器人。
  • 將每個用戶交互存儲在應用程序中——將這些數據保存在web3 表中可能沒有意義,例如擊鍵或點擊。寫入頻率會導致高成本。
  • 非常大的數據集——應該避免這些,最好通過文件存儲來處理,使用IPFS、Filecoin 或Arweave 等解決方案。但是,指向這些位置和相關元數據的指針實際上是Tableland 表的一個很好的用例。

關於價值捕獲的思考

不同單元在整個數據基礎設施架構當中都有不可替代的作用,價值其價值捕獲主要體現在市值/估值以及預估收益上,可以獲得以下結論:

  1. 數據源是整個架構中價值捕獲最大的模塊
  2. 數據複製、轉換、流式處理和數據倉庫在其次
  3. 分析層可能會有很好的現金流,但估值會存在上限

簡單的來說,在整個結構圖的左邊的公司/項目,其價值捕獲傾向於更大。

行業集中度

據不完全的統計分析,行業集中度有以下判斷:

  • 行業集中度最高的是數據存儲以及數據查詢和處理兩個模塊
  • 行業集中度中等的是數據抽取和轉換
  • 行業集中度較低的是數據源、分析和輸出兩個模塊

數據源、分析和輸出行業集中度較低,初步判斷是不同的業務場景導致在每個業務場景中都能夠有垂直場景的龍頭出現,如數據庫領域的Oracle、第三方服務的Stripe、企業服務的Salesforce、儀錶盤分析的Tableau 以及嵌入式分析的Sisense 等等。

而行業集中度中等的數據抽取和轉換模塊,初步判斷其原因是因為業務屬性的技術導向性。模塊化的中間件形式也使得切換成本相對較低。

行業集中度最高的數據存儲以及數據查詢和處理模塊,初步判斷是由於業務場景單一、技術含量高、啟動成本高且後續切換具有較大成本,使得公司/項目的先發優勢較強,且具備網絡效應。

數據協議的商業模式和退出路徑

從成立時間和上市來看,

  • 在2010年前成立的大部分是數據源類公司/項目,移動互聯網還沒有興起,數據量還沒有非常大,也有一部分數據存儲和分析輸出類的項目,儀錶盤類為主。
  • 2010年~2014年,是移動互聯網崛起的前夕,誕生了Snowflake 和Databricks 等數據存儲和查詢項目,數據抽取和轉換的項目也開始出現,一套成熟的大數據管理技術方案逐漸完善,期間也出現了大量分析輸出類的項目,儀錶盤類為主。
  • 2015年~2020年,查詢和處理類的項目如雨後春筍,同時也有大量數據抽取和轉換的項目不斷出現,讓人們可以更好地發揮出大數據的威力。
  • 2020年往後,出現了更新的實時分析數據庫和數據湖解決方案,如Clickhouse 和Tabular。
  • 基礎設施的完善是所謂“mass adoption”的前提。在大規模應用期間,也依然不斷有新的機會,但這些機會幾乎只屬於“中間件”,而底層的數據倉庫、數據源等解決方案幾乎是贏者通吃的局面,除非有技術上實質性的突破,不然都很難成長起來。

而分析輸出類項目,不論在哪個時期都是創業項目的機會。但也是在不斷迭代創新,基於新的場景做新的事情,2010年以前出現的Tableau 佔據了桌面式儀錶盤分析工具的大部分江山,隨後出現的新型場景有如更加專業導向的DS/ML 工具、更加綜合導向的數據工作站以及更加SaaS 導向的嵌入式分析等等。

從這個視角來看Web3 目前的數據協議:

  • 數據源和存儲類項目江山未定,但龍頭初顯,鏈上狀態存儲以以太坊(2200億市值)為首,而去中心化存儲以Filecoin(23億市值)、Arweave(2.8億市值) 為首,可能會存在異軍突起的Greenfield。 ——價值捕獲最高
  • 數據抽取和轉換類的項目,仍然還有創新空間,數據預言機Chainlink(38億市值) 只是開始,事件流和流處理基礎設施Ceramic 以及更多的項目會出現,但空間不多。 ——價值捕獲中等
  • 查詢和處理類的項目,the Graph(12億市值)已經能夠滿足大部分需求,項目類型和數量還沒有到達爆發期。 ——價值捕獲中等
  • 數據分析類的項目,Nansen、Dune(10億估值)為主,需要有新的場景才有新的機會,NFTScan 和NFTGo 有點類似新的場景,但只是內容更新,而非分析邏輯/範式層面的新需求。 ——價值捕獲一般,現金流可觀。

但Web3 不是Web2 的翻版,也不完全是Web2 的進化。 Web3 有非常原生的使命和場景,從而誕生了和以前完全不一樣業務場景(前面三種場景是目前能夠作出來的全部的抽象)。