本文由分佈式資本提供研究支持,以及儲迅信息技術、Crust Network等代表性企業的交流分享。

基於分佈式存儲的前景:分佈式存儲為互聯網基礎構架和商業模式帶來的變革與創新空間,將開闢新的存儲應用市場。分佈式存儲采用不同於傳統中心化存儲的資源和市場激勵方式,可以解決中心化互聯網架構下安全性、時效性及成本問題,將帶來互聯網基礎架構變革。另一方面,分佈式存儲為個人節點加入市場交換創造了基礎,可以深度挖掘數據內容價值,開闢全新的存儲空間和應用市場。目前的分佈式存儲仍面臨I/O性能問題、數據價值分層、應用服務質量等技術瓶頸,在實際應用中需要引入中心化組織進行彌補。

以IPFS協議為代表的分佈式存儲系統帶來存儲新思路,將成為下一代互聯網基礎設施。 IPFS協議是一種文件存儲和內容分發網絡協議,整合了多種成功的分佈式系統與區塊鏈技術,為用戶提供統一的可尋址數據存儲。其本質是一個P2P的分佈式存儲系統,人人都可以作為存儲文件的服務器,通過基於文件內容生成的唯一編碼去訪問網絡中的文件資源。分佈式存儲系統可以與去中心化的區塊鏈技術相結合,解決中心化互聯網架構下數據存儲的安全性、用戶協作的時效性和存儲與帶寬成本的問題,將帶來互聯網基礎架構的變革。

分佈式存儲將充分激發個人存儲資源和內容貢獻的市場價值,創新互聯網商業模式。全球數據量的爆發式增長推動雲存儲市場的快速發展,邊緣雲計算和小型數據中心成為行業趨勢,分佈式存儲有望率先打開個人云存儲市場空間。個人可以將閒置的存儲資源投入到分佈式存儲系統進行市場交換,可以在互聯網上安全地進行內容髮布、交換和價值共享,分佈式存儲就這樣推動著個人存儲資源市場的資源配置,而這在傳統互聯網巨頭控制中心雲模式下是無法實現的。

分佈式存儲已和傳統存儲不斷融合應用,現有的技術瓶頸需引入中心化組織形式進行彌補。現有的存儲解決方案通常將分佈式技術與傳統存儲方案相結合:一方面,對數據進行分佈式備份保存,使數據更接近邊緣側,同時避免數據的物理損壞和人為篡改;另一方面,通過一定程度的集中存儲和集中管理來降低系統運維成本,提高服務質量。

現有的分佈式存儲仍面臨若干技術瓶頸:

第一,目前的分佈式存儲暫時無法實現數據價值分層,難以實現有效激勵,可以考慮將底層構架和應用層策略相結合;

第二,分佈式存儲從代碼實現到協議層都有很大的優化空間,還會受到網絡規模限制,存在I/O性能問題;

第三,存儲數據價值較高的用戶需要承擔更大的服務質量風險,付費意願較弱,需要應用層解決方案。總之,考慮到系統運維成本、服務質量和宏觀監管等問題,未來的分佈式存儲系統需要引入中心化組織形式來彌補運營成本。

1 核心觀點

1.1 核心推薦邏輯

基於分佈式存儲,將開闢新的存儲應用市場。分佈式存儲采用不同於傳統中心化存儲的資源和市場激勵方式,不僅僅是充分利用分佈式節點資源,而是為個人節點貢獻的內容投入市場交換創造了基礎,從而深度挖掘數據內容價值、開闢全新的應用市場,這在傳統的互聯網公司控制中心雲平台數據的情況下是無法實現的。同時,分佈式存儲與中心化存儲將不斷融合,改變現有的互聯網構架和商業模式。

1.2 我們區別於市場的觀點

1. 市場低估了分佈式存儲為互聯網基礎構架和商業模式帶來的變革與創新空間。市場通常將分佈式存儲視為一種新的技術,而忽略了分佈式存儲帶來的個人存儲資源、用戶內容貢獻價值挖掘和市場交換的潛力。在分佈式文件系統的互聯網上,個人存儲資源可以投入到市場進行資源交換,為用戶貢獻的內容在數據確權、安全的基礎上進行內容價值提供市場交換的平台。因此,分佈式文件系統將會催生更多的全新的互聯網應用,而非傳統互聯網的技術迭代。

2. 分佈式存儲將成為下一代互聯網基礎設施目前,互聯網將海量計算機(智能移動)終端連接在一起,使得用戶能夠訪問存儲其他計算機終端上的海量數據。數據的傳輸與訪問,是基於HTTP(超文本傳輸協議)為代表的互聯網協議實現的,數據是以計算機(服務器)終端IP(或者說域名)為地址進行中心化存儲的,具體存儲數據的服務器節點就像一個集中式的倉庫,要承擔巨大流量訪問、數據傳輸壓力。能否將數據文件分散存在網絡不同服務器節點上,革新互聯網基礎構架?

類似IPFS這種分佈式存儲協議逐漸興起,作為HTTP的補充,打造面向全球、點對點的分佈式版本文件系統,能將所有具有相同文件系統的計算設備連接在一起。就IPFS而言,用戶尋找的是存儲在某地方的內容(這些內容分散在不同的服務器節點),而不是某地址,就只需確認驗證內容的哈希,這樣就能過獲得速度更快、安全、健壯、持久的網頁。

我們將探討分佈式存儲將如何帶來互聯網基礎構架的變革,將創造怎樣的新的應用場景和市場。

2.1以IPFS協議為代表的分佈式存儲帶來新思路

IPFS協議是一個將多種成功的分佈式系統思路與區塊鏈相結合的文件存儲和內容分發網絡協議,為用戶提供統一的可尋址數據存儲。 IPFS(Inter-Planetary File System)由Protocol Lab提出,字面意義是星際文件系統。其本質是一個P2P的分佈式存儲系統,將所有具有相同文件系統的計算設備連接在一起,目標是補充甚至替代超文本傳輸協議HTTP。

與現有Web協議不同的是,對於一個存放在IPFS網絡的文件資源,不是用基於域名的地址去訪問,而是通過基於文件內容生成的唯一編碼去訪問,不需要驗證發送者的身份,只需要驗證內容的哈希,可以讓網頁的速度更快、更安全。 IPFS的網絡上運行著一條區塊鏈,即用來存儲互聯網文件的哈希值表,每次有網絡訪問,即要在鏈上查詢該內容(文件)的地址。 IPFS協議最大的特色是系統的耦合及設計的綜合性,其整合的分佈式技術包括BitTorrent協議、版本控制系統Git、MerkelDAG、分佈式哈希表DHT和自認證文件系統SFS。因此在IPFS系統中,人人都可以作為存儲文件的服務器。

IPFS協議借鑒了BitTorrent協議諸多優點,並進行了創新,打造持久且分佈式存儲和共享文件的網絡傳輸協議。 BitTorrent(簡稱BT)是一種廣泛應用的內容分發協議,特點是充分利用用戶的上載帶寬,使得下載用戶越多,下載速度越快。在中心化存儲的FTP、HTTP協議中,每個用戶下載所需文件,各個用戶之間沒有交互。如HTTP,每次當同時訪問和下載文件的用戶過多時,由於服務器處理能力和帶寬的限制,下載速度會急劇下降,部分用戶甚至會無法訪問服務器。而BT協議下,分配器或文件持有者將文件發送給一名用戶,再由這名用戶轉發給其它用戶,用戶之間相互轉發自己所擁有的文件部分,直到每個用戶的下載全部完成。這種方法可以使下載服務器同時處理多個大體積文件的下載請求,而無須佔用大量帶寬,因此常用於大型文檔和自由軟件的發布以降低服務器負擔。

IPFS團隊對BitTorrent進行了創新,增加了信用和帳單體係來激勵每個節點分享數據,稱為BitSwap協議。用戶在BitSwap里分享數據會增加信用分,從其他節點接受數據則會降低信用分。如果用戶只去檢索數據而不分享數據,信用分就會越來越低,而被其它節點忽略。

類似於於互聯網的七層協議模型,IPFS構架分為八層子協議棧。 IPFS作為分佈式存儲協議,核心功能包括:文件內容多人協調和版本可回溯、不可篡改,DHT管理帶來的離散性、伸縮性和良好的容錯性,以及基於IPNS的文件域名系統。

內容版本方面,IPFS使用分佈式版本控制系統Git,支持多人協同工作,記錄每次更新並標記不同的版本號,一旦發生問題,可以將文件回溯到之前的任何一個版本。本地版本控制系統和集中化的版本控制系統都是由單一服務器保存所有文件的修訂版本,一旦服務器發生故障,則面臨丟失所有數據的風險。 Git是分佈式版本控制系統(DVCS)的一種,客戶端除了保存最新版本的文件,還把代碼倉庫和歷史記錄都完整地鏡像下來。這樣,任何一處協同工作的服務器發生故障,都可以用任何一個本地倉庫進行恢復。 Git還可以比較文件變化細節,查出誰進行了什麼修改,從而可以在發生問題時快速準確的找出原因。更進一步,許多DVCS系統都可以指定和若干不同的遠端代碼倉庫進行交互,用戶可以在同一個項目中和不同工作小組的人相互協作,根據需要設定不同的協作流程,而這在以前的系統中是無法實現的。

IPFS團隊對Git數據結構進行改造,在Merkle Tree的基礎上得到了Merkel DAG,擁有內容尋址、防篡改、去重三大功能。 IPFS將文件劃分成單個大小不超過256kB的數據塊,每個數據塊擁有唯一的哈希值,並構造一個Merkel DAG將所有文件碎片組織起來。 Merkel DAG是實現版本化文件系統的一種核心數據結構,比Merkle Tree的限制更少,但是保留了其兩點精髓:1)父節點哈希由子節點哈希決定,即父節點哈希由子節點哈希拼接的字符串再次哈希而成;2)父節點中包含指向子節點的信息。任何一個下層節點的改動都將導致上層節點哈希值的變動,最終根節點的哈希值也將變動,因此Merkle DAG的三大功能得以實現:1)內容尋址:使用多重哈希來唯一識別一個數據塊的內容;2)防篡改:數據接受方只需一段Merkle路徑上的哈希值,就可以檢查數據是否被篡改;3)去重:內容相同的數據塊的哈希是相同的,可據此刪除重複數據,節省存儲空間。

IPFS的路由功能採用分佈式哈希列表DHT,幫助客戶節點快速找到所需數據所在的節點,具有離散性、伸縮性和良好的容錯性。 DHT是一種分佈式哈希表,通過存儲的鍵值對提供查詢服務:鍵值對存儲在DHT中,節點可以檢索給定鍵對應的值,鍵值對的映射由網絡中所有的節點維護。在不需要服務器的情況下,每個節點負責一小部分路由和數據存儲,從而實現整個DHT網絡的尋址和存儲。即使有節點加入或離開,對整個網絡的影響也很小,因此DHT可以擴展到非常龐大的節點(上千萬)。 DHT具有以下性質:1)離散型:構成系統的節點之間都是對等的,沒有中央控制機制進行協調;2)伸縮性:不論系統有多少節點,都要求高效工作;3)容錯性:不斷有節點加入和離開,不影響整個系統的工作。

IPNS是IPFS的文件域名系統,像HTTP系統的域名(網址)一樣,使用戶搜索文件時只需查詢文件名,而不受文件內容變更的影響。 IPFS中文件的哈希值完全取決於文件內容,不僅難以記憶,一旦修改文件內容其哈希值也會發生改變,每次更新文件後都需更新引用的哈希值,十分不便。為了能夠在不破壞其鏈接的情況下更改文件內容,IPFS團隊使用了一種標記更新網址哈希的域名系統,即星際名稱系統IPNS。 IPNS是一個去中心化的命名系統,使用類似哈希的地址安全地指向可變內容,每個文件都可以被協作命名為易讀的名字,通過搜索就可以找到文件。自認證文件系統SFS對文件進行命名,同時提供了IPNS以解決傳播問題,很好地解決了當前用戶不習慣輸入哈希值訪問文件的問題,在現有的互聯網系統和IPFS系統間搭建了一個橋樑。

簡單的說,基於IPFS協議存儲的文件是打散成許多可驗證的碎片文件(數據通過哈希值編碼進行唯一標記),分佈在網絡中,訪問者通過內容編碼找到這些文件的位置後進行下載,由於是分散存儲(同一個內容可能多台服務器存儲),不必須要求所有節點服務器都必須在線,以此IPFS希望達到創建持久且分佈式存儲和共享文件的網絡傳輸協議的目標。而HTTP為代表傳統的中心化存儲差別十分明顯——HTTP的文件是中心化的方式存儲,通過文件的域名進行訪問,且域名文件服務器需要保持在線,否則將無法訪問。

2.2分佈式存儲將帶來互聯網基礎架構變革

隨著互聯網與通信、人工智能、物聯網、雲計算/邊緣計算等技術的發展,萬事萬物都可以被記錄並用數據表達,數據從單一內部小數據向多元動態大數據轉變。據IDC預測,全球數據圈的規模將由2018年的33ZB增長至2025年的175ZB,且文本、圖片、視頻等非結構化數據將擁有更高的增長率,在整體數據圈的佔比也將持續增加。因此,需要更先進的互聯網基礎架構來對數據進行採集、存儲和利用。

目前,中心化互聯網架構下的主要問題集中在安全性、時效性和集中化三個方面,而以IPFS為代表的分佈式存儲協議將通過解決以下問題帶來互聯網構架的變革:

傳統的HTTP協議使用非對稱架構實現網絡的高並發,但是中心服務器難以負擔過大的傳輸數據量,影響用戶體驗,雲計算廠商和電信運營商需要為此付出較大的設備成本。 IPFS協議解決了熱點文件的存儲問題,但一個文件只有被不斷訪問才能確保其存儲有效性,冷門且具有價值的文件容易丟失,主要原因是激勵層缺失導致的節點不穩定性。目前,一種對標IPFS的分佈式技術HTTPX(網格裂變系統)也在悄然崛起,提供去中心化的CDN服務、存儲服務和GPU算力服務。 HTTPX兼顧了HTTP協議的優勢,對路由和傳輸邏輯進行重新定義,採用對稱架構,將網絡的分裂做到了前所未有的程度。

HTTPX是一種更輕量化、更靈活、性能更加完善的P2P技術。 HTTPX的技術架構設計屬於網格設計,每一個節點既是獨立個體也是全局功能體,可以支持存儲、計算和傳輸數據。用戶連接最近的節點接入HTTPX網絡,該節點將尋址找到臨近節點,發現百萬級別的信息,定位資源存儲節點,並通過最優網絡傳輸路徑回傳到用戶臨近節點。 HTTPX和IPFS相比具有明顯優勢,有望將雲計算服務推向新的高峰:

1)高性能:網格系統設計大幅縮短用戶到節點的物理距離和網絡距離,實際測試中TTL下降60%,提供更低延時的優質服務響應;

2)低成本:為產業鏈服務,定價較低;硬件兼容性高,可部署到家庭、社區、辦公場所;

3)兼容性強:兼容HTTP、HTTPS協議,同時提供高級HTTPX開源代碼接入模式;

4)實力雄厚:採用P2P思想,CDN支撐能力出眾;提供存儲、GPU資源的挖礦模式,真正做到一機多用。

5)快速發布:帶寬需求大,發布週期短,資源提供方不用擔心項目延期帶來的資本周轉問題。

3 分佈式存儲開闢互聯網基礎設施產業新格局

3.1分佈式存儲開發新的存儲市場

全球數據量的爆發式增長推動雲存儲市場的快速發展。雲存儲是一種以數據存儲和管理為核心的雲計算服務,指通過集群應用、網絡技術或分佈式文件系統等,將網絡中大量不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的系統。換句話說,雲存儲就是將資源放到雲上供人存取,用戶可以在任何時間、任何地點,通過可連網裝置連接到雲上方便地存取數據。

根據云存儲服務性質的不同,可以分為公有云、私有云和混合雲。其中,公有云面向包括個人、家庭、企業在內的多種客戶;私有云由企業或組織使用及維護,用戶在個性化等方面有更多的控制權;混合雲將公有云和私有云進行混合和匹配,達成相對高性價比解決方案。據IDC預測,2025年中國數據規模將達到48.6ZB,其中超過80%為非結構化數據,且由於發展滯後北美4-5年,中國雲市場增速高於全球水平。 2018年中國雲計算整體市場規模達962.8億元,增速為39.2%。其中,公有云市場規模達到437億元,增速為65.2%,預計接下來三年內仍將快速增長。

分佈式存儲將開闢新的應用場景,充分激發個人存儲資源和內容貢獻的市場價值,創新互聯網商業模式。隨著分佈式存儲技術和生態的發展,將充分激發個人存儲資源市場的資源配置,激勵更多的個人存儲資源進入市場——即個人可以將閒置的存儲資源投入到分佈式存儲系統進行市場交換,這在傳統互聯網巨頭控制中心雲模式下是無法實現的。更重要的是,個人在互聯網上的內容共享將可以安全地進行發布、交換和價值共享。如D.Tube是一個加密分佈式視頻平台,建立在STEEM區塊鍊和IPFS點對點網絡之上,目標是成為YouTube的替代品,允許用戶在IPFS基礎上觀看或上傳視頻,並在不可變的STEEM區塊鏈上進行分享或評論,同時賺取加密通證。 D.Tube的所有數據都是公開的,任何有互聯網連接的人都可以對其進行分析,無需廣告即可運行,提供了最佳的用戶體驗。可以這樣說,幾乎任何現有的互聯網應用都可以遷移到分佈式文件系統上,獲得新的體驗和創新商業模式,這裡面的想像空間是無限的。

邊緣雲計算和小型數據中心成為行業趨勢,分佈式存儲有望率先打開個人云存儲市場空間。 2019年11月,手機上網用戶規模達13.1億,個人網盤月度活躍用戶超1億,個人存儲市場仍有龐大的潛在用戶基礎和可利用存儲空間。面對數據規模的高速增長,邊緣雲計算和分佈式存儲成為行業趨勢,利用分佈式文件系統將個人閒置的存儲資源投入到網絡中,進行市場交換,將成為分佈式存儲率先進入的領域之一,目前已有這方面的初創應用。

3.2分佈式存儲已和傳統存儲不斷融合應用

在分佈式存儲的實際應用中無法避免一定程度的中心化,因此常和傳統存儲方案融合應用。分佈式存儲會帶來系統性能和管理成本的問題,因此現有的存儲解決方案通常將分佈式技術與傳統存儲方案相結合:一方面,對數據進行分佈式備份保存,使數據更接近邊緣側,同時避免數據的物理損壞和人為篡改;另一方面,通過一定程度的集中存儲和集中管理來降低系統運維成本,提高服務質量。

案例1):儲迅的分佈式存儲雲服務

上海儲迅信息技術有限公司(StorSwift)是一家專注於企業生產數據存儲和管理的高新技術企業,核心團隊來自於美國存儲公司Rasilient,有超過15年的存儲行業研發和運維經驗。儲迅在大規模存儲運維、存儲安全及性能優化領域擁有核心的硬件軟件技術,迄今為止已部署和存儲超過300PB的關鍵業務存儲數據,其中對圖像數據的存儲和處理在業界處於領先地位。儲迅已在安防、醫療、媒資等行業提供了成功的存儲解決方案,和因特爾、中國移動等多家企業開展業務合作。

儲迅為企業提供專業的分佈式數據存儲方案,在數據存儲優化、I/O優化、大規模系統運維管理等方面經驗豐富。主打產品有高性能分佈式文件系統、分佈式塊存儲、分佈式對象存儲網關等,同時提供從硬件選型到挖礦程序優化、存儲性能優化、運維調度等一整套的Filecoin解決方案。和傳統的集中數據中心存儲相比,分佈式存儲的優點在於數據存儲更加分散,對地理位置的依賴性更弱,可以規避多種風險,實現企業輕資產運營,降低運維成本。

案例2):CRUST鏈接分佈式雲

CRUST是基於有意義工作量證明機制(MPoW)和擔保權益證明共識(GPoS)構建的數字加密應用層,同時也是一種支持去中心化存儲與計算的新一代區塊鏈技術。 CRUST實現了去中心化存儲的激勵層協議,適配包括IPFS在內的多種存儲層協議,並對應用層提供支持:第一層量化資源和工作量,提供了一個讓所有人都能認可的計算方式MPoW,這是解決問題的根本;第二層利用GPoS達成共識,共同維護網絡;第三層為用戶提供去中心化的存儲服務和檢索服務,同時CRUST的架構也有能力對去中心化計算層提供支持,構建分佈式雲生態。

CRUST與Filecoin最大的不同點是採用了可信執行環境(TEE),核心概念是用一個第三方硬件為載體,保證其中創建和運行的數據不可被攻擊和篡改。主流的芯片廠家如Intel、AMD、ARM等,生產的CPU內都有TEE空間,可以在其中運行開源的、通過CRUST社區成員認可的程序包,實現對資源量化工作的監督,進而把量化證明通過簽名發送到區塊鍊網絡。

Filecoin對節點工作量的證明採用的方法是零知識證明和網絡交叉驗證,同樣是開源算法,但是帶來了硬件消耗和帶寬需求的問題,還需要刻意提高算法的複雜度來保證節點短時間內不能作弊。 TEE則解決了這些問題,在本地就可以完成資源證明過程,降低網絡資源佔用,簡化工作量量化的過程。另外,由於TEE內程序對數據進行封裝保存時無須擔心被篡改,算法效率更高,用戶可以獲得更好的使用體驗。

4 分佈式存儲面臨的技術瓶頸與發展機遇

4.1 數據價值分層是分佈式存儲經濟激勵的關鍵

不同數據的市場價值是不同的,不同個體對相同數據的價值判斷也並不一致。而存儲節點並不知道數據的內容、難以評判數據價值的情況下,如何有效將存儲激勵與數據市場價值做到優化配置?

數據價值分層是甄別數據價值以及實現有效激勵的關鍵。分佈式的節點負責存儲數據碎片,但並不知道數據內容以及數據的價值,也就是說,礦工的工作量衡量如果不能考慮數據價值的因素,就很難實現更優化的市場激勵調節。以Filecoin採用的時空證明(PoST)機制為例,礦工節點的存儲工作量衡量,與文件碎片內容的數據價值無關。 Filecoin目前並沒有對數據價值進行具體分層,只做了垃圾數據和可驗證數據的區分。目前現存的共識機制,均僅限於礦工的存儲工作量衡量,而無法代表數據價值。礦工節點的物理損毀、網絡服務質量差的成本是以經濟激勵來衡量,但因此造成的用戶數據服務質量和數據價值損失並不對等。簡單說,礦工最多損失的是系統經濟激勵,而用戶損失的可能是數據的損毀或極差業務服務質量——畢竟對於礦工來說,數據的價值是的核心衡量因素是存儲容量。

應考慮底層構架和應用層結合的方式解決數據分層問題。解決數據價值分層,對分佈式存儲的經濟激勵十分關鍵。在基礎構架層面難以單獨解決,必須結合應用層來實現。結合應用場景,在應用層實現數據的分層,從而實現礦工節點的分層;如,對於一些服務質量、內容價值較高的數據,則可以圈定一個激勵價格較高的礦工市場,同時對礦工節點的硬件配置、服務質量做更高的要求。這類應用在私有網絡、局域網更方便實現。針對不同的應用場景,採用不同的應用層策略。也就是說,廣泛而統一的分佈式存儲網絡很難滿足各個場景和用戶個體的需求,針對不同場景採取不同的應用層解決方案來完成數據價值分層是可行的方案。

4.2 I/O性能瓶頸需要底層和應用層聯合優化解決

分佈式存儲會帶來系統I/O性能問題。和傳統存儲系統相比,分佈式存儲需要將文件打碎、多節點備份保存,在查詢使用數據時需要進行大量碎片文件的調度工作,工程量極大。另外,當文件較大時,用於內容尋址的哈希表也會很大,尋址時間也會更長。更為關鍵的是,礦工節點的網絡資源狀況對網絡I/O性能的影響也存在諸多不確定性,尤其是那些流媒體數據,若某些數據碎片的節點網絡狀況較差,則會影響整個數據文件的訪問服務質量。中心化存儲下,通過CDN等手段可以解決這些問題,擁有較好的客戶體驗。因此,現有的分佈式存儲系統的I/O效率是技術性能方面首要考慮的問題之一,從代碼實現到協議層都有很大的優化空間,還需要進一步突破。

實驗測試顯示IPFS的I/O性能還有待進一步改善。由於採用分佈式存儲,文件的讀取受到節點自身及全網其它節點的影響,主要包括:節點數量和穩定性、帶寬、網絡(地理)位置等。來自複旦大學的研究人員對IPFS的I/O性能做了一項實驗,並和HTTP進行對比,以驗證IPFS網絡處理請求時的延遲和吞吐量表現。遠程讀取操作的平均延遲方面,當請求是小的請求時,在1k-4k間,HTTP延遲比IPFS低。遇到16-256k之間的文件,IPFS的延遲狀況優於HTTP。當處理大文件請求時,IPFS在延遲上的表現不盡人意,尤其是請求大小超過16MB時,IPFS的處理時間接近了20秒。超過64MB時,延遲更是可以達到70秒,是HTTP(10秒)的7倍。當然,這是實驗室測試條件下的結果,在實際應用過程中,尚未有具有說服性的案例;無論如何,IPFS等分佈式存儲方案若想替代HTTP等中心化方式,還有很多底層技術構架、協議和應用生態方面的改進與探索。

分佈式網絡的傳輸效率還非常依賴網絡規模,激勵機制有待完善。 P2P的文件交互傳輸協議採用的是打散文件、多點續傳的方式,傳輸效率十分依賴分佈式網絡中的節點數量。因此,需要完善激勵機制,使節點用戶在自己無下載需求時仍積極接入網絡,為其他用戶提供存儲服務。當去中心化網絡中在線的節點數比較穩定之後,傳輸速度會更快。從長遠來看,協調好多點續傳以後的去中心化存儲系統擁有十萬甚至百萬級的節點數量,系統I/O效率才有望比擬當下中心化+CDN存儲的系統效率。

4.3 服務質量保障

去中心化系統的服務質量還有很大的優化空間。分佈式存儲市場上現有的落地應用不多,普遍面臨節點數量規模不足、應用層開發不夠完善等問題,用戶使用體驗無法和成熟的中心化存儲產品相比,因此付費意願也較弱。因此,要解決如何用不可靠的分佈式節點提供可靠的存儲服務這個問題,首先要設定共同認可激勵和懲罰機制,其次還需要通過經濟激勵之外的手段(如運營機制檢查)來規範礦工行為。

存儲數據價值較高的用戶需要承擔更大的服務質量風險,亟待應用層解決方案。區塊鏈只負責監控礦工工作量的完成情況並予以獎懲,但是無法彌補用戶損失,因此服務質量問題交由應用層來解決。比如,可以根據礦工的歷史懲罰記錄區分服務質量等級,用戶需要存儲重要數據時,可以資源選擇收費更多的、質量更高的存儲服務。只有當越來越多的用戶願意消費,網絡中的節點越來越多時,去中心化存儲系統的整體效率才能提升,服務質量才更有保障。因此,考慮到系統運維成本、服務質量和宏觀監管等問題,分佈式存儲系統無可避免地會存在一定程度的集中管理和控制。

4.4 在應用、運營層面中心化組織與分佈式存儲將進一步融合

顯然,分佈式存儲在I/O瓶頸、數據價值分層和應用服務質量方面需要引入中心化組織形式來彌補運營成本。分佈式存儲所面臨的上述問題,給應用帶來了較高的運營成本,因此可以引入中心化的組織方式來彌補高昂的運營成本,就像BitTorrent採用中心化的方式來管理哈希表DHT一樣。簡單說,數據碎片可以分佈式存儲,但在不同的應用場景可以引入一些限制。例如,I/O瓶頸方面,針對那些對I/O性能較高的應用,如流媒體數據,則以激勵方式鼓勵節點在適當的物理位置或提高節點I/O性能。在數據價值分層方面,對於一些特別重要的數據,核心數據採用中心化的存儲、一般數據採用分佈式存儲,這類相結合的方式是較為現實的解決方案。應用服務質量方面,限制數據文件存儲的物理和網絡位置、QoS保障,來確保數據文件的安全,因此,需要對此類礦工進行一些激勵補償。另外,在應用層面,複雜且較長IPNS對於用戶是較難記憶和操作的,類似於DNS服務實現IP地址和域名之間的管理一樣,利用中心化的方式解決IPNS用戶不友好的,引入類似文件存儲域名的服務,這也是中心化與分佈式存儲進一步融合的方向。