本文由分布式資本提供研究支持,以及儲迅信息技術、Crust Network等代表性企業的交流分享。
基于分布式存儲的前景:分布式存儲為互聯網基礎構架和商業模式帶來的變革與創新空間,將開辟新的存儲應用市場。分布式存儲采用不同于傳統中心化存儲的資源和市場激勵方式,可以解決中心化互聯網架構下安全性、時效性及成本問題,將帶來互聯網基礎架構變革。另一方面,分布式存儲為個人節點加入市場交換創造了基礎,可以深度挖掘數據內容價值,開辟全新的存儲空間和應用市場。目前的分布式存儲仍面臨I/O性能問題、數據價值分層、應用服務質量等技術瓶頸,在實際應用中需要引入中心化組織進行彌補。
以IPFS協議為代表的分布式存儲系統帶來存儲新思路,將成為下一代互聯網基礎設施。IPFS協議是一種文件存儲和內容分發網絡協議,整合了多種成功的分布式系統與區塊鏈技術,為用戶提供統一的可尋址數據存儲。其本質是一個P2P的分布式存儲系統,人人都可以作為存儲文件的服務器,通過基于文件內容生成的唯一編碼去訪問網絡中的文件資源。分布式存儲系統可以與去中心化的區塊鏈技術相結合,解決中心化互聯網架構下數據存儲的安全性、用戶協作的時效性和存儲與帶寬成本的問題,將帶來互聯網基礎架構的變革。
分布式存儲將充分激發個人存儲資源和內容貢獻的市場價值,創新互聯網商業模式。全球數據量的爆發式增長推動云存儲市場的快速發展,邊緣云計算和小型數據中心成為行業趨勢,分布式存儲有望率先打開個人云存儲市場空間。個人可以將閑置的存儲資源投入到分布式存儲系統進行市場交換,可以在互聯網上安全地進行內容發布、交換和價值共享,分布式存儲就這樣推動著個人存儲資源市場的資源配置,而這在傳統互聯網巨頭控制中心云模式下是無法實現的。
分布式存儲已和傳統存儲不斷融合應用,現有的技術瓶頸需引入中心化組織形式進行彌補。現有的存儲解決方案通常將分布式技術與傳統存儲方案相結合:一方面,對數據進行分布式備份保存,使數據更接近邊緣側,同時避免數據的物理損壞和人為篡改;另一方面,通過一定程度的集中存儲和集中管理來降低系統運維成本,提高服務質量。
現有的分布式存儲仍面臨若干技術瓶頸:
第一,目前的分布式存儲暫時無法實現數據價值分層,難以實現有效激勵,可以考慮將底層構架和應用層策略相結合;
第二,分布式存儲從代碼實現到協議層都有很大的優化空間,還會受到網絡規模限制,存在I/O性能問題;
第三,存儲數據價值較高的用戶需要承擔更大的服務質量風險,付費意愿較弱,需要應用層解決方案。總之,考慮到系統運維成本、服務質量和宏觀監管等問題,未來的分布式存儲系統需要引入中心化組織形式來彌補運營成本。
![]()
1 核心觀點
1.1 核心推薦邏輯
基于分布式存儲,將開辟新的存儲應用市場。分布式存儲采用不同于傳統中心化存儲的資源和市場激勵方式,不僅僅是充分利用分布式節點資源,而是為個人節點貢獻的內容投入市場交換創造了基礎,從而深度挖掘數據內容價值、開辟全新的應用市場,這在傳統的互聯網公司控制中心云平臺數據的情況下是無法實現的。同時,分布式存儲與中心化存儲將不斷融合,改變現有的互聯網構架和商業模式。
1.2 我們區別于市場的觀點
1. 市場低估了分布式存儲為互聯網基礎構架和商業模式帶來的變革與創新空間。市場通常將分布式存儲視為一種新的技術,而忽略了分布式存儲帶來的個人存儲資源、用戶內容貢獻價值挖掘和市場交換的潛力。在分布式文件系統的互聯網上,個人存儲資源可以投入到市場進行資源交換,為用戶貢獻的內容在數據確權、安全的基礎上進行內容價值提供市場交換的平臺。因此,分布式文件系統將會催生更多的全新的互聯網應用,而非傳統互聯網的技術迭代。
2. 分布式存儲將成為下一代互聯網基礎設施目前,互聯網將海量計算機(智能移動)終端連接在一起,使得用戶能夠訪問存儲其他計算機終端上的海量數據。數據的傳輸與訪問,是基于HTTP(超文本傳輸協議)為代表的互聯網協議實現的,數據是以計算機(服務器)終端IP(或者說域名)為地址進行中心化存儲的,具體存儲數據的服務器節點就像一個集中式的倉庫,要承擔巨大流量訪問、數據傳輸壓力。能否將數據文件分散存在網絡不同服務器節點上,革新互聯網基礎構架?
類似IPFS這種分布式存儲協議逐漸興起,作為HTTP的補充,打造面向全球、點對點的分布式版本文件系統,能將所有具有相同文件系統的計算設備連接在一起。就IPFS而言,用戶尋找的是存儲在某地方的內容(這些內容分散在不同的服務器節點),而不是某地址,就只需確認驗證內容的哈希,這樣就能過獲得速度更快、安全、健壯、持久的網頁。
我們將探討分布式存儲將如何帶來互聯網基礎構架的變革,將創造怎樣的新的應用場景和市場。
2.1以IPFS協議為代表的分布式存儲帶來新思路
IPFS協議是一個將多種成功的分布式系統思路與區塊鏈相結合的文件存儲和內容分發網絡協議,為用戶提供統一的可尋址數據存儲。IPFS(Inter-Planetary File System)由Protocol Lab提出,字面意義是星際文件系統。其本質是一個P2P的分布式存儲系統,將所有具有相同文件系統的計算設備連接在一起,目標是補充甚至替代超文本傳輸協議HTTP。
與現有Web協議不同的是,對于一個存放在IPFS網絡的文件資源,不是用基于域名的地址去訪問,而是通過基于文件內容生成的唯一編碼去訪問,不需要驗證發送者的身份,只需要驗證內容的哈希,可以讓網頁的速度更快、更安全。IPFS的網絡上運行著一條區塊鏈,即用來存儲互聯網文件的哈希值表,每次有網絡訪問,即要在鏈上查詢該內容(文件)的地址。IPFS協議最大的特色是系統的耦合及設計的綜合性,其整合的分布式技術包括BitTorrent協議、版本控制系統Git、MerkelDAG、分布式哈希表DHT和自認證文件系統SFS。因此在IPFS系統中,人人都可以作為存儲文件的服務器。
![]()
IPFS協議借鑒了BitTorrent協議諸多優點,并進行了創新,打造持久且分布式存儲和共享文件的網絡傳輸協議。BitTorrent(簡稱BT)是一種廣泛應用的內容分發協議,特點是充分利用用戶的上載帶寬,使得下載用戶越多,下載速度越快。在中心化存儲的FTP、HTTP協議中,每個用戶下載所需文件,各個用戶之間沒有交互。如HTTP,每次當同時訪問和下載文件的用戶過多時,由于服務器處理能力和帶寬的限制,下載速度會急劇下降,部分用戶甚至會無法訪問服務器。而BT協議下,分配器或文件持有者將文件發送給一名用戶,再由這名用戶轉發給其它用戶,用戶之間相互轉發自己所擁有的文件部分,直到每個用戶的下載全部完成。這種方法可以使下載服務器同時處理多個大體積文件的下載請求,而無須占用大量帶寬,因此常用于大型文檔和自由軟件的發布以降低服務器負擔。
IPFS團隊對BitTorrent進行了創新,增加了信用和帳單體系來激勵每個節點分享數據,稱為BitSwap協議。用戶在BitSwap里分享數據會增加信用分,從其他節點接受數據則會降低信用分。如果用戶只去檢索數據而不分享數據,信用分就會越來越低,而被其它節點忽略。
![]()
類似于于互聯網的七層協議模型,IPFS構架分為八層子協議棧。IPFS作為分布式存儲協議,核心功能包括:文件內容多人協調和版本可回溯、不可篡改,DHT管理帶來的離散性、伸縮性和良好的容錯性,以及基于IPNS的文件域名系統。
內容版本方面,IPFS使用分布式版本控制系統Git,支持多人協同工作,記錄每次更新并標記不同的版本號,一旦發生問題,可以將文件回溯到之前的任何一個版本。本地版本控制系統和集中化的版本控制系統都是由單一服務器保存所有文件的修訂版本,一旦服務器發生故障,則面臨丟失所有數據的風險。Git是分布式版本控制系統(DVCS)的一種,客戶端除了保存最新版本的文件,還把代碼倉庫和歷史記錄都完整地鏡像下來。這樣,任何一處協同工作的服務器發生故障,都可以用任何一個本地倉庫進行恢復。Git還可以比較文件變化細節,查出誰進行了什么修改,從而可以在發生問題時快速準確的找出原因。更進一步,許多DVCS系統都可以指定和若干不同的遠端代碼倉庫進行交互,用戶可以在同一個項目中和不同工作小組的人相互協作,根據需要設定不同的協作流程,而這在以前的系統中是無法實現的。
![]()
IPFS團隊對Git數據結構進行改造,在Merkle Tree的基礎上得到了Merkel DAG,擁有內容尋址、防篡改、去重三大功能。IPFS將文件劃分成單個大小不超過256kB的數據塊,每個數據塊擁有唯一的哈希值,并構造一個Merkel DAG將所有文件碎片組織起來。Merkel DAG是實現版本化文件系統的一種核心數據結構,比Merkle Tree的限制更少,但是保留了其兩點精髓:1)父節點哈希由子節點哈希決定,即父節點哈希由子節點哈希拼接的字符串再次哈希而成;2)父節點中包含指向子節點的信息。任何一個下層節點的改動都將導致上層節點哈希值的變動,最終根節點的哈希值也將變動,因此Merkle DAG的三大功能得以實現:1)內容尋址:使用多重哈希來唯一識別一個數據塊的內容;2)防篡改:數據接受方只需一段Merkle路徑上的哈希值,就可以檢查數據是否被篡改;3)去重:內容相同的數據塊的哈希是相同的,可據此刪除重復數據,節省存儲空間。
![]()
IPFS的路由功能采用分布式哈希列表DHT,幫助客戶節點快速找到所需數據所在的節點,具有離散性、伸縮性和良好的容錯性。DHT是一種分布式哈希表,通過存儲的鍵值對提供查詢服務:鍵值對存儲在DHT中,節點可以檢索給定鍵對應的值,鍵值對的映射由網絡中所有的節點維護。在不需要服務器的情況下,每個節點負責一小部分路由和數據存儲,從而實現整個DHT網絡的尋址和存儲。即使有節點加入或離開,對整個網絡的影響也很小,因此DHT可以擴展到非常龐大的節點(上千萬)。DHT具有以下性質:1)離散型:構成系統的節點之間都是對等的,沒有中央控制機制進行協調;2)伸縮性:不論系統有多少節點,都要求高效工作;3)容錯性:不斷有節點加入和離開,不影響整個系統的工作。
![]()
IPNS是IPFS的文件域名系統,像HTTP系統的域名(網址)一樣,使用戶搜索文件時只需查詢文件名,而不受文件內容變更的影響。IPFS中文件的哈希值完全取決于文件內容,不僅難以記憶,一旦修改文件內容其哈希值也會發生改變,每次更新文件后都需更新引用的哈希值,十分不便。為了能夠在不破壞其鏈接的情況下更改文件內容,IPFS團隊使用了一種標記更新網址哈希的域名系統,即星際名稱系統IPNS。IPNS是一個去中心化的命名系統,使用類似哈希的地址安全地指向可變內容,每個文件都可以被協作命名為易讀的名字,通過搜索就可以找到文件。自認證文件系統SFS對文件進行命名,同時提供了IPNS以解決傳播問題,很好地解決了當前用戶不習慣輸入哈希值訪問文件的問題,在現有的互聯網系統和IPFS系統間搭建了一個橋梁。
簡單的說,基于IPFS協議存儲的文件是打散成許多可驗證的碎片文件(數據通過哈希值編碼進行唯一標記),分布在網絡中,訪問者通過內容編碼找到這些文件的位置后進行下載,由于是分散存儲(同一個內容可能多臺服務器存儲),不必須要求所有節點服務器都必須在線,以此IPFS希望達到創建持久且分布式存儲和共享文件的網絡傳輸協議的目標。而HTTP為代表傳統的中心化存儲差別十分明顯——HTTP的文件是中心化的方式存儲,通過文件的域名進行訪問,且域名文件服務器需要保持在線,否則將無法訪問。
2.2分布式存儲將帶來互聯網基礎架構變革
隨著互聯網與通信、人工智能、物聯網、云計算/邊緣計算等技術的發展,萬事萬物都可以被記錄并用數據表達,數據從單一內部小數據向多元動態大數據轉變。據IDC預測,全球數據圈的規模將由2018年的33ZB增長至2025年的175ZB,且文本、圖片、視頻等非結構化數據將擁有更高的增長率,在整體數據圈的占比也將持續增加。因此,需要更先進的互聯網基礎架構來對數據進行采集、存儲和利用。
![]()
目前,中心化互聯網架構下的主要問題集中在安全性、時效性和集中化三個方面,而以IPFS為代表的分布式存儲協議將通過解決以下問題帶來互聯網構架的變革:
![]()
![]()
傳統的HTTP協議使用非對稱架構實現網絡的高并發,但是中心服務器難以負擔過大的傳輸數據量,影響用戶體驗,云計算廠商和電信運營商需要為此付出較大的設備成本。IPFS協議解決了熱點文件的存儲問題,但一個文件只有被不斷訪問才能確保其存儲有效性,冷門且具有價值的文件容易丟失,主要原因是激勵層缺失導致的節點不穩定性。目前,一種對標IPFS的分布式技術HTTPX(網格裂變系統)也在悄然崛起,提供去中心化的CDN服務、存儲服務和GPU算力服務。HTTPX兼顧了HTTP協議的優勢,對路由和傳輸邏輯進行重新定義,采用對稱架構,將網絡的分裂做到了前所未有的程度。
![]()
HTTPX是一種更輕量化、更靈活、性能更加完善的P2P技術。HTTPX的技術架構設計屬于網格設計,每一個節點既是獨立個體也是全局功能體,可以支持存儲、計算和傳輸數據。用戶連接最近的節點接入HTTPX網絡,該節點將尋址找到臨近節點,發現百萬級別的信息,定位資源存儲節點,并通過最優網絡傳輸路徑回傳到用戶臨近節點。HTTPX和IPFS相比具有明顯優勢,有望將云計算服務推向新的高峰:
1)高性能:網格系統設計大幅縮短用戶到節點的物理距離和網絡距離,實際測試中TTL下降60%,提供更低延時的優質服務響應;
2)低成本:為產業鏈服務,定價較低;硬件兼容性高,可部署到家庭、社區、辦公場所;
3)兼容性強:兼容HTTP、HTTPS協議,同時提供高級HTTPX開源代碼接入模式;
4)實力雄厚:采用P2P思想,CDN支撐能力出眾;提供存儲、GPU資源的挖礦模式,真正做到一機多用。
5)快速發布:帶寬需求大,發布周期短,資源提供方不用擔心項目延期帶來的資本周轉問題。
3 分布式存儲開辟互聯網基礎設施產業新格局
3.1分布式存儲開發新的存儲市場
全球數據量的爆發式增長推動云存儲市場的快速發展。云存儲是一種以數據存儲和管理為核心的云計算服務,指通過集群應用、網絡技術或分布式文件系統等,將網絡中大量不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問功能的系統。換句話說,云存儲就是將資源放到云上供人存取,用戶可以在任何時間、任何地點,通過可連網裝置連接到云上方便地存取數據。
