當前位置:工程項目OA系統(tǒng) > 泛普各地 > 吉林OA系統(tǒng) > 長春OA系統(tǒng) > 長春OA行業(yè)資訊
三大熱門數(shù)據(jù)存儲技術的類比分析
由于存儲經(jīng)理們急需降低備份數(shù)據(jù)量,重復數(shù)據(jù)刪除(data de-duplicantion)技術從而成為近來十分熱門的技術。但是大家對于重復數(shù)據(jù)刪除技術的基本概念卻知之甚少,經(jīng)常把重復數(shù)據(jù)刪除技術、壓縮算法技術和單一實例存儲技術混為一談。
在本篇文章中,我們將會從多方面探討重復數(shù)據(jù)刪除技術,并澄清以下問題:
什么是重復數(shù)據(jù)刪除技術? 為什么該技術適合備份應用?
重復數(shù)據(jù)刪除技術的重大意義及其客戶價值
影響重復數(shù)據(jù)刪除效率因素
與傳統(tǒng)數(shù)據(jù)壓縮技術比較,有哪些不同之處?
對比單一實例存儲技術,它的優(yōu)勢又在哪里?
什么是重復數(shù)據(jù)刪除技術?
按照ESG(Enterprise Strategy Group)的定義,重復數(shù)據(jù)刪除技術是一個減少或消除冗余文件、字節(jié)或數(shù)據(jù)塊的過程,從而確保只有“獨一無二”的數(shù)據(jù)被存儲到磁盤。重復數(shù)據(jù)刪除技術又被業(yè)界稱為容量優(yōu)化保護技術(簡稱為COP技術)。COP技術被用來降低數(shù)據(jù)保護時對容量的需求。
由于我們存儲的數(shù)據(jù)具有很高的共性——用戶之間、服務器之間甚至同一文件(如Office文檔)的內容是通用的。重復數(shù)據(jù)刪除技術按自然邊界把數(shù)據(jù)拆分為非常細粒度的子塊單元,用指針代替相同的子塊單元,從而達到顯著降低存儲空間的目的。利用重復數(shù)據(jù)刪除技術,1TB的備份數(shù)據(jù)可根據(jù)備份數(shù)據(jù)的共性,存儲為300-700GB不等。
重復數(shù)據(jù)刪除技術的真正價值在于處理已存儲過的數(shù)據(jù),特別是以下情況:
• 從不同的服務器備份相同的數(shù)據(jù)(公用操作系統(tǒng)文件、應用程序文件甚至電子郵件和附件)
• 大部分內容為“靜止”的“活躍”數(shù)據(jù),例如數(shù)據(jù)庫、文檔、電子表格和演示文稿
• 已備份過一次的數(shù)據(jù)
最值得注意的是最后一種類別。由于備份操作具有高重復性的特征,日備份和周備份的數(shù)據(jù)大致相同,變化率至多只有5-10%。因此,可以利用數(shù)據(jù)重復刪除技術進行高效的后續(xù)備份。特別是針對完全備份的應用場景,如果每天都做完全備份,在這種情形下,每月實現(xiàn)10:1到50:1的備份比率是完全可能的。
重復數(shù)據(jù)刪除技術的重大意義?
重復數(shù)據(jù)刪除技術的客戶價值是多方面的,但是最顯著的優(yōu)點是解決了一直困擾備份恢復業(yè)界多年的“容量膨脹”問題,因為重復數(shù)據(jù)刪除技術可以在后端大為減少備份數(shù)據(jù)量。
見下圖圖示:該圖中以相同顏色的塊表示重復數(shù)據(jù)塊。重復數(shù)據(jù)刪除的效率取決于應用和數(shù)據(jù)類型,就像圖示中具有相同顏色的塊除保留一個外,其余的都會被過濾掉。
重復數(shù)據(jù)刪除的處理粒度越細,則重復數(shù)據(jù)刪除的效率越高。一般的重復數(shù)據(jù)刪除是在文件級實現(xiàn)的,雖然有減少備份數(shù)據(jù)的作用但其效率明顯不如在字節(jié)級實現(xiàn)的重復數(shù)據(jù)刪除技術。同樣,在塊級實現(xiàn)的重復數(shù)據(jù)刪除比字節(jié)級實現(xiàn)的效率更高。
我們通過以下的例子來說明處理粒度對重復數(shù)據(jù)刪除技術而言的重要性:我們創(chuàng)建一個1MB的PPT演示文檔,然后通過電子郵件將其發(fā)送給20位員工,在傳統(tǒng)的備份環(huán)境中,由于沒有重復數(shù)據(jù)刪除技術,每天晚上執(zhí)行全備份作業(yè)時,這20位員工所接收到的PPT演示文檔將作為郵件附件備份,即使沒有一位員工對收到的PPT演示文檔做過任何修改,備份作業(yè)同樣要保存20份相同的文檔,占用相當大的存儲空間(20x1MB)。即使在一家小型企業(yè)組織,同樣的問題仍然會使浪費寶貴的磁盤空間、能耗和冷卻系統(tǒng)。
在上例中,如果采用文件級的重復數(shù)據(jù)刪除技術,系統(tǒng)會只保留一份PPT演示文檔,而其他19份相同的PPT演示文檔附件將被指針代替。而指針的數(shù)據(jù)量比實際的文檔要小得多,所以我們可以節(jié)省大量的磁盤空間,用來存儲其他應用數(shù)據(jù)或者提高備份數(shù)據(jù)的保留周期。
基于字節(jié)級和塊級的重復數(shù)據(jù)刪除技術作了進一步的優(yōu)化,它將1MB的PPT演示文檔看成是由很多的數(shù)據(jù)塊或字節(jié)單元組合而成,與已經(jīng)存儲的數(shù)據(jù)塊或字節(jié)單元進行比較,相同的組成單元被指針替換。
除了處理粒度之外,影響重復數(shù)據(jù)刪除比的因素還有數(shù)據(jù)類型、數(shù)據(jù)的變化率以及數(shù)據(jù)的保留時間等等,這些都會影響實際的重復數(shù)據(jù)刪除效率。根據(jù)ESG實驗室對幾種不同的重復數(shù)據(jù)技術的測試結果來看,在不考慮處理粒度的情況下,基本上都能達到10倍或20倍的重復數(shù)據(jù)刪除效率。
備份的最終目的是恢復,以往備份管理員在制定備份策略時,通常采用每天增量備份方式結合階段全備份方式,如每月或每周全備份。從恢復速度的角度出發(fā),哪一種備份方式更有利呢?顯然是全備份方式(full backup),那為什么90%以上的備份管理員還在使用增量備份呢?原因是由于一次全備份的數(shù)據(jù)量太大,無法滿足日益苛刻的備份窗口要求,完全屬于不得已而為之。現(xiàn)在是采用完全備份模式的時候了,由于完全備份模式的數(shù)據(jù)塊重復率是所有備份模式中最高的,所以重復數(shù)據(jù)刪除技術非常適合完全備份的場合,因為它能夠顯著降低每次完全備份的實際存儲的數(shù)據(jù)塊數(shù)量,從而使用戶能在短暫的備份窗口期間完成關鍵作業(yè)的備份,在需要恢復時,又能較快地恢復出保留周期內任意一天的數(shù)據(jù)。
在部署備份和恢復的普通磁盤時,經(jīng)濟因素限制了從磁帶上卸載并轉存到磁盤的數(shù)據(jù)量。使用數(shù)據(jù)重復刪除技術,在相同的磁盤空間內,以前只能保存最近一周的數(shù)據(jù),現(xiàn)在可以存儲一個月或更長時間的數(shù)據(jù),因此大大增強了恢復選項。
這一優(yōu)勢使 IT 部門能夠成本有效地在磁盤上保留數(shù)月的備份數(shù)據(jù),適合從 250GB 到超過 10TB 的主數(shù)據(jù)集。其結果可以實現(xiàn)更快、更可靠的恢復,并能大幅度增加數(shù)據(jù)恢復點的數(shù)量。
什么是單一實例存儲技術?
如果當存儲的裝置里面有很多的數(shù)據(jù)或文件,它是相同的內容而且是重復的時候,用戶往往會浪費大量的磁盤空間,這對于用戶來講是很高的管理成本和使用成本,單一實例存儲這個技術就會幫用戶解決管理問題和大量的節(jié)省存儲的空間。SIS被啟用后,就會作為一個后臺的服務運行,把內容重復的文件合并到一個共用的存儲空間。重復的文件被該文件的鏈接替代,對于用戶和應用程序來講就像原始文件一樣。SIS技術已經(jīng)實施于大型企業(yè)環(huán)境,并極大的節(jié)約了重復文件占用的磁盤空間,從而最大限度地利用目前的存儲資源。Single Instance Storage (SIS) 通過減少冗余數(shù)據(jù)釋放更多的磁盤空間,識別相同的文件,僅僅在中心位置保存一個副本,并在SIS公共存儲區(qū)域保存文件的指針而不是保存文件本身。
數(shù)據(jù)重復刪除技術如何打包?
數(shù)據(jù)重復刪除技術集成在昆騰的DXi系列設備中,在后臺為現(xiàn)有備份流程提供支持。用戶繼續(xù)使用現(xiàn)有備份軟件和策略,他們察覺不到重復刪除的過程;存儲的數(shù)據(jù)也因此增加了10到50倍。
重復數(shù)據(jù)刪除處理的數(shù)據(jù)種類越多,容量減少就越大??傮w來看,文件級的重復數(shù)據(jù)刪除雖然有效,但其檢測的重復數(shù)據(jù)要少于塊級或字節(jié)級的重復數(shù)據(jù)刪除。同樣,字節(jié)級重復數(shù)據(jù)刪除在檢測數(shù)據(jù)重復上比塊級的重復數(shù)據(jù)刪除通常更有效。
下面例子是說明在粒度上的差別:某終端用戶制作了1MB的PowerPoint演示文檔,然后以郵件附件形式發(fā)給內部20個人審閱。在傳統(tǒng)備份環(huán)境下(沒有重復數(shù)據(jù)刪除),雖然文件沒有任何變化,但每個附件都會在每晚完全備份過程中被全部備份,耗費不必要的磁盤容量(20×1MB)。即使是小公司,考慮到磁盤物理容量、功率和冷卻等情況,此冗余成本也頗為可觀。
然而,文件級重復數(shù)據(jù)刪除只保存一份PowerPoint文檔備份,所有其他附件(如重復的拷貝)都被“指針”替代,從而釋放磁盤空間容量,并在客戶需要的情況下延長保留時長。
更多粒度的重復刪除方法—塊級和字節(jié)級重復數(shù)據(jù)刪除技術將此流程推進了一步。這些方法查看構成新1MB文件的每個片段,與重復數(shù)據(jù)刪除系統(tǒng)先前遇到的元素相比較,在新文件中用指針替代重復元素,而不用重新存儲。(e-works)
- 1Gartner:高能效不是真正的綠色數(shù)據(jù)中心
- 2數(shù)據(jù)丟失防護 企業(yè)何去何從?
- 3如何巧妙利用防火墻拒絕內網(wǎng)入侵
- 4分析:虛擬化技術給企業(yè)應用帶來的優(yōu)勢
- 5分支機構網(wǎng)絡管理影響企業(yè)的IP電話管理
- 6把握最后一公里 中小企業(yè)網(wǎng)絡建設技術淺析
- 7探討路由器基礎配置與數(shù)據(jù)傳輸
- 8虛擬化是實現(xiàn)綠色IT的關鍵因素
- 9如何削減虛擬化策略的存儲需求
- 10資深網(wǎng)管教你搭建防注入系統(tǒng)
- 11生物識別技術能否滿足您的安全需求?
- 12云計算模式層出不窮 哪種會在競爭中勝出
- 13文檔安全加密系統(tǒng)的技術研究和實現(xiàn)方式
- 14中國的管理軟件可粗略劃分為兩大陣營
- 15Oracle數(shù)據(jù)庫中表的四種連接方式講解
- 16關于云計算我們無法回避的五個真相
- 17PHP程序不適用大型系統(tǒng)之九大原因
- 18下一代網(wǎng)絡業(yè)務的發(fā)展特征與趨勢分析
- 19企業(yè)從Unix遷移到Linux真有必要嗎
- 20中小企業(yè)服務器虛擬化應用成本分析
- 21數(shù)據(jù)庫管理員災難恢復和業(yè)務持續(xù)性計劃
- 22深度分析云計算
- 23三大熱門數(shù)據(jù)存儲技術的類比分析
- 24IDC稱亞洲數(shù)據(jù)中心變革將遭遇挑戰(zhàn)
- 25優(yōu)化企業(yè)網(wǎng)絡應用 網(wǎng)絡管理勢在必行
- 26注意提防統(tǒng)一通信帶來的安全威脅
- 27實例演示:如何將數(shù)據(jù)中心遷移到云上
- 28采取7項措施來建設更綠色數(shù)據(jù)中心
- 29重復數(shù)據(jù)刪除技術的安全性如何
- 30局域網(wǎng)連接緩慢源自端口模式的不匹配
成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓