作者:Mohit Pandit, IOSG Ventures
摘要
- GPU短缺是現實,供需緊張,但未充分利用的GPU數量可以滿足當今供應稀缺的需求。
- 需要一個激勵層來促進雲端運算的參與,然後最終協調用於推理或訓練的運算任務。 DePIN車型正好適合此用途。
- 因為供應方的激勵,因為計算成本較低,需求方發現這很吸引人,。
- 並非一切都是美好的,選擇Web3雲端時必須做出某些權衡:例如'延遲'。相對於傳統的GPU雲,面臨的權衡還包括保險、服務等級協議(Service Level Agreements) 等。
- DePIN模型有潛力解決GPU可用性問題,但碎片化模型不會讓情況變得更好。對於需求呈指數級增長的情況,碎片化供應和沒有供應一樣。
- 考慮到新市場參與者的數量,市場聚合是不可避免的。
引言
我們正處於機器學習和人工智慧的新時代邊緣。雖然AI已經以各種形式存在一段時間(AI是被告知執行人類可以做的事情的電腦設備,如洗衣機),但我們現在見證了複雜認知模型的出現,這些模型能夠執行需要智能人類行為的任務。顯著的例子包括OpenAI的GPT-4和DALL-E 2,以及Google的Gemini。
在迅速成長的人工智慧(AI)領域,我們必須認識到發展的雙重面向:模型訓練和推理。推理包括AI模型的功能和輸出,而訓練包括建立智慧模型所需的複雜過程(包括機器學習演算法、資料集和計算能力)。
以GPT-4為例,最終使用者關心的只是推理:基於文字輸入從模型取得輸出。然而,這種推理的品質取決於模型訓練。為了訓練有效的AI模型,開發者需要獲得全面的基礎資料集和龐大的運算能力。這些資源主要集中在包括OpenAI、Google、微軟和AWS在內的產業巨頭。
公式很簡單:更好的模型訓練>> 導致AI模型的推理能力增強>> 從而吸引更多用戶>> 帶來更多收入,用於進一步訓練的資源也隨之增加。
這些主要玩家能夠存取大型基礎資料集,更關鍵的是控制大量運算能力,為新興開發者創造了進入障礙。因此,新進入者經常難以以經濟可行的規模和成本獲得足夠的數據或利用必要的計算能力。考慮到這種情況,我們看到網路在民主化資源取得方面具有很大價值,主要是與大規模獲取運算資源以及降低成本有關。
GPU供應問題
NVIDIA的CEO Jensen Huang在2019年CES上說「摩爾定律已經結束」。現今的GPU極度未充分利用。即使在深度學習/訓練週期中,GPU也沒有被充分利用。
以下是不同工作負載的典型GPU利用率數字:
- 空閒(剛啟動進入Windows作業系統):0-2%
- 一般生產任務(寫作、簡單瀏覽):0-15%
- 影片播放:15 - 35%
- PC遊戲:25 - 95%
- 圖形設計/照片編輯主動工作負載(Photoshop、Illustrator):15 - 55%
- 影片編輯(主動):15 - 55%
- 影片編輯(渲染):33 - 100%
- 3D渲染(CUDA / OptiX):33 - 100%(常被Win任務管理器錯誤回報- 使用GPU-Z)
大多數有GPU的消費設備屬於前三類。
GPU運行時利用率%。 Source: Weights and Biases
上述情況指向一個問題:運算資源利用不良。
需要更好地利用消費者GPU的容量,即使在GPU利用率出現高峰時,也是次優的。這明確了未來要進行的兩件事:
- 資源(GPU)聚合
- 訓練任務的平行化
可以使用的硬體類型方面,現在有4種類型用於供應:
· 資料中心GPU(例如,Nvidia A100s)
· 消費者GPU(例如,Nvidia RTX3060)
· 客製化ASIC(例如,Coreweave IPU)
· 消費者SoCs(例如,蘋果M2)
除了ASIC(因為它們是為特定目的而建構的),其他硬體可以被匯集以最有效地利用。隨著許多這樣的晶片掌握在消費者和資料中心手中,聚合供應方的DePIN模型可能是可行的道路。
GPU生產是一個量體金字塔;消費級GPU產量最高,而像NVIDIA A100s和H100s這樣的高級GPU產量最低(但效能更高)。生產這些高階晶片的成本是消費者GPU的15倍,但有時並沒有提供15倍的效能。
整個雲端運算市場今天價值約4,830億美元,預計未來幾年將以約27%的複合年增長率成長。到2023年,將有大約130億小時的ML運算需求,以目前標準費率,這相當於2023年ML計算的約560億美元支出。這整個市場也在快速成長,每3個月成長2倍。
GPU需求
計算需求主要來自AI開發者(研究人員和工程師)。他們的主要需求是:價格(低成本運算)、規模(大量GPU運算)和使用者體驗(易於存取和使用)。在過去兩年中,由於對基於AI的應用程式的需求增加以及ML模型的發展,GPU需求量巨大。開發和運行ML模型需要:
- 大量運算(來自存取多個GPU或資料中心)
- 能夠執行模型訓練、微調( fine tuning) 以及推理,每個任務都部署在大量GPU上並行執行
計算相關硬體支出預計將從2021年的170億美元成長到2025年的2,850億美元(約102%的複合年增長率),ARK預計到2030年計算相關硬體支出將達到1.7兆美元(43%的複合年增長率)。
ARK Research
隨著大量LLM處於創新階段,競爭驅動對更多參數的運算需求,以及重新訓練,我們可以預期在未來幾年內對高品質運算的持續需求。
隨著新的GPU供應緊縮,區塊鏈在哪裡發揮作用?
當使用資源不足的時候,DePIN模型就會提供出其幫助:
- 啟動供應方,創建大量供應
- 協調和完成任務
- 確保任務正確完成
- 為完成工作的提供者正確獎勵
聚合任何類型的GPU(消費者、企業、高效能等)可能會在利用方面出現問題。當計算任務被分割時,A100晶片不應該執行簡單的計算。 GPU網路需要決定他們認為應該包含在網路中的GPU類型,根據他們的市場進入策略。
當計算資源本身分散(有時是全球性的)時,需要由使用者或協定本身做出選擇,決定將使用哪種類型的計算框架。提供者像io.net允許使用者從3種運算框架中選擇:Ray、Mega-Ray或部署Kubernetes叢集在容器中執行運算任務。還有更多分散式運算框架,如Apache Spark,但Ray是最常使用的。一旦所選GPU完成了運算任務,將重構輸出以給出訓練有素的模型。
一個設計良好的代幣模型將為GPU提供者補貼運算成本,許多開發者(需求方)會發現這樣的方案更具吸引力。分散式計算系統本質上具有延遲。存在計算分解和輸出重構。所以開發者需要在訓練模型的成本效益和所需時間之間做出權衡。
分散式運算系統需要有自己的鏈嗎?
網路有兩種運作方式:
- 按任務(或計算週期)收費或按時間收費
- 按時間單位收費
第一種方法,可以建構一個類似Gensyn所嘗試的工作證明鏈,其中不同GPU分擔「工作」並因此獲得獎勵。為了更無信任的模型,他們有驗證者和告密者的概念,他們因保持系統的完整性而獲得獎勵,這是基於解算者生成的證明。
另一個工作證明系統是Exabits,它不是任務分割,而是將其整個GPU網路視為單一超級電腦。這種模型似乎更適合大型LLM。
Akash Network增加了GPU支持,並開始聚合GPU進入這一領域。他們有一個底層L1來就狀態(顯示GPU提供者完成的工作)達成共識,一個市場層,以及容器編排系統,如Kubernetes或Docker Swarm來管理用戶應用程式的部署和擴展。
一個系統如果要是無信任,工作證明鏈模型將最有效。這確保了協議的協調和完整性。
另一方面,像io.net這樣的系統並沒有將自己建構成一個鏈。他們選擇解決GPU可用性的核心問題,並按時間單位(每小時)向客戶收費。他們不需要可驗證性層,因為他們本質上是「租用」GPU,在特定租賃期內隨意使用。協定本身沒有任務分割,而是由開發者使用像Ray、Mega-Ray或Kubernetes這樣的開源框架來完成。
Web2與Web3 GPU雲
Web2在GPU雲端或GPU即服務領域有許多參與者。這一領域的主要玩家包括AWS、CoreWeave、PaperSpace、Jarvis Labs、Lambda Labs、Google雲端、微軟Azure和OVH雲端。
這是一個傳統的雲端業務模型,客戶需要計算時可以按時間單位(通常是一小時)租用GPU(或多個GPU)。有許多不同的解決方案適用於不同的用例。
Web2和Web3 GPU雲端之間的主要差異在於以下幾個參數:
1. 雲端設定成本
由於代幣激勵,建立GPU雲端的成本顯著降低。 OpenAI正在籌集1兆美元用於計算晶片的生產。看來在沒有代幣誘因的情況下,打敗市場領導者需要至少1兆美元。
2. 計算時間
非Web3 GPU雲端將會更快,因為已租用的GPU叢集位於地理區域內,而Web3模型可能有一個更廣泛分佈的系統,延遲可能來自於低效的問題分割、負載平衡,最重要的是頻寬。
3. 計算成本
由於代幣激勵,Web3計算的成本將顯著低於現有的Web2模型。
計算成本對比:
當有更多供應和利用叢集提供這些GPU時,這些數字可能會改變。 Gensyn聲稱以低至每小時0.55美元的價格提供A100s(及其等價物),Exabits承諾類似的成本節省結構。
4. 合規性
在無許可系統中,合規性並不容易。然而,像io.net、Gensyn等Web3系統並不會將自己定位為無許可系統。在GPU上線、資料載入、資料共享和結果共享階段處理了GDPR和HIPAA等合規性問題。
生態系統
Gensyn、io.net、Exabits、Akash
風險
1. 需求風險
我認為頂級LLM玩家要么會繼續累積GPU,要么會使用像NVIDIA的Selene超級電腦這樣的GPU集群,後者的峰值性能為2.8 exaFLOP/s。他們不會依賴消費者或長尾雲供應商匯集GPU。目前,頂級AI組織在品質上的競爭大於成本。
對於非重型ML模型,他們將尋求更便宜的運算資源,像基於區塊鏈的代幣激勵GPU叢集可以在優化現有GPU的同時提供服務(以上是假設:那些組織更喜歡訓練自己的模型,而不是使用LLM)
2. 供應風險
隨著大量資本投入ASIC研究,以及像張量處理單元(TPU)這樣的發明,這個GPU供應問題可能會自行消失。如果這些ASIC可以提供良好的效能:成本權衡,那麼大型AI組織囤積的現有GPU可能會重新回歸市場。
基於區塊鏈的GPU叢集是否解決了一個長期問題?雖然區塊鏈可以支援GPU以外的任何晶片,但需求方的所作所為將完全決定這一領域內專案的發展方向。
結論
擁有小型GPU叢集的碎片化網路不會解決問題。沒有「長尾」GPU叢集的位置。 GPU供應商(零售或較小的雲端玩家)將傾向於更大的網絡,因為網路的激勵更好。會是良好代幣模型的功能,也是供應方支援多種計算類型的能力。
GPU叢集可能會像CDN一樣看到類似的聚合命運。如果大型玩家要與AWS等現有領導者競爭,他們可能會開始共享資源,以減少網路延遲和節點的地理接近性。
如果需求方成長得更大(需要訓練的模型更多,需要訓練的參數數量也更多),Web3玩家必須在供應方業務發展方面非常積極。如果有太多的集群從相同的客戶群中競爭,將會出現碎片化的供應(這使整個概念無效),而需求(以TFLOPs計)呈指數級增長。
Io.net已經從眾多競爭者中脫穎而出,以聚合器模型起步。他們已經聚合了Render Network和Filecoin礦工的GPU,提供容量,同時也在自己的平台上引導供應。這可能是DePIN GPU叢集的贏家方向。