?

細粒度云數據自適應去重方法研究

2024-01-14 09:54王小紅
電腦與電信 2023年9期
關鍵詞:細粒度存儲空間字符串

王小紅

(宜春職業技術學院,江西 宜春 336000)

1 引言

數據粒度能夠有效地描述數據的詳細程度,粒度越小,數據包含的信息越具體,對于獲取數據本質與規律越有幫助[1]。細粒度云數據指的是各個方面信息都非常詳細具體的云數據,具有多層次化與高效化的特點。與傳統意義上的云數據存在一定差異,細粒度云數據獲取的難度較高,需要經過大量的訓練與學習才能獲得。隨著數據量的快速增長,細粒度云數據中不可避免會存在各類重復數據。相似重復的數據一方面消耗了大量不必要的存儲空間與人力開支,另一方面增大了云數據的管理難度,降低了云數據管理的效率與質量[2]。

基于此,科學合理的細粒度云數據去重方法至關重要。當前,傳統的云數據去重方法逐步成熟完善,在實際應用過程中,重復數據去除效果較好。文獻[3]采用哈希算法聚類、監督判別投影降維、代數簽名預估數據和最小哈希樹生成校驗值等技術路徑,實現對網絡單信道數據的高效去重。文獻[4]采用基于廣義去重的跨用戶安全去重框架,通過將原始數據分解為基和偏移量,對基進行跨用戶去重,并在云端對偏移量進行去重。

然而,傳統的去重方法在細粒度云數據去重操作中仍然存在不足,主要體現在去重覆蓋范圍有限,不能從多個維度對細粒度云數據中重復的數據作出處理,去重質量較低,實時性較差。針對上述問題,本文在傳統數據去重方法的基礎上,開展了細粒度云數據自適應去重方法的深入研究。

2 細粒度云數據自適應去重方法設計

2.1 檢測相似重復細粒度云數據

本文設計的細粒度云數據自適應去重方法中,首先,需要采用相似重復數據檢測方法,對細粒度云數據作出全方位的檢測,判斷云數據集中是否存在相似重復數據,為后續的數據自適應去重奠定基礎。

通常情況下,重復的細粒度云數據包括兩種類型,分別為細粒度云數據完全重復與細粒度云數據相似重復[7]。本文對兩種重復類型的特征作出了分析:

(1)細粒度云數據完全重復,指的是云數據標記相同,標記的屬性及元素內容也相同的記錄。

(2)細粒度云數據相似重復。由于細粒度云數據的靈活性較強,同一實體會有不同的表現形式,受到云數據格式差異、拼寫差異、完整性差異等因素影響,數據庫無法準確地識別出數據部分屬性及元素內容,即為細粒度云數據相似重復[8]。

綜合考慮兩種類型的重復細粒度云數據特征后,本文采用基于邊界距離的云數據字段匹配檢測算法。該算法是基于一系列字符串編輯操作而實現的,通過計算細粒度云數據字符串之間的邊界距離,來判斷字符串之間的相似重復性。

邊界距離是一種衡量字符串相似性的度量方法,它考慮了字符串中字符之間的位置關系。通過比較字符串的邊界距離,我們可以判斷字符串之間是否存在相似的重復數據。

通過采用基于邊界距離的云數據字段匹配檢測算法,本文能夠有效地發現并識別細粒度云數據中的相似重復數據。這種算法的應用可以提高數據處理的準確性和效率,并為后續的數據去重和優化提供基礎[9]。本文設計的相似重復細粒度云數據檢測流程,如圖1所示。

圖1 相似重復細粒度云數據檢測流程

如圖1所示,首先,從海量數據源中提取云數據,并根據云數據的結構特征,設置關鍵字排序。設定dist(a,b)表示細粒度云數據字符串A與字符串B之間的邊界距離,其中,a、b均表示字符串A與字符串B的長度。依據動態規范思想,獲取細粒度云數據動態規劃的狀態轉移方程式,如下:

通過細粒度云數據動態規劃的狀態轉移方程式,獲取云數據字符串A與字符串B之間的邊界距離,此時,dist(a,b)即為云數據字符串A與字符串B的重復相似度。當云數據字符串重復相似度超過一定的值,則認為這些細粒度云數據存在相似重復。根據相似度,判定細粒度云數據是否存在相似重復,輸出檢測結果。

2.2 提取細粒度云數據去重特征

在上述相似重復細粒度云數據檢測完畢后,可以得知云數據是否存在相似重復,并根據字符串相似度,判定云數據重復類型。接下來,壓縮存在相似重復性質的細粒度云數據,提取云數據去重特征。

首先,設定Ya表示引用細粒度云數據塊;Yb表示相似細粒度云數據塊,利用差量壓縮方法,對上述輸出的相似重復數據進行壓縮,壓縮過程表達式為:

其中,?表示差量編碼;△a,b表示細粒度云數據差量數據。通過該表達式,獲取細粒度云數據塊與相似細粒度云數據塊之間的差量數據。相似重復云數據壓縮完畢后,提取云數據的超級指紋,即去重超級特征值,能夠表示多個細粒度云數據的多個去重特征?;谠茢祿卣髦讣y,進行相似重復細粒度云數據的數據融合,融合后的特征即能夠代表一類相似重復云數據的去重特征,進而實現細粒度云數據去重特征提取的目標。

2.3 刪除重復數據

完成細粒度云數據去重特征提取后,能夠獲取各類相似重復云數據的去重特征。在此基礎上,采用重復數據刪除技術,刪除細粒度云數據中的相似重復數據。本文采用的是重復數據刪除技術中的數據分塊去重技術,其技術原理示意圖,如圖2所示。

圖2 重復數據分塊去重技術原理示意圖

如圖2所示,本文采用的技術能夠多維度地將相同數據塊指向唯一的實例,避免數據集內存儲相同數據,進而節省存儲空間。

本文采用了一種基于細粒度云數據分塊去重的新方法,旨在解決云存儲系統中的數據冗余和存儲效率問題。傳統的去重方法通常是以文件為單位進行去重,而這種細粒度的分塊去重方法可以更精細地處理數據,提高去重的準確性和效率。

具體而言,本文首先對細粒度云數據備份流中的所有文件進行分塊處理。通過將大文件劃分為更小的數據塊,可以實現對數據的精細管理和處理。接下來,采用哈希算法計算每個數據塊的哈希指紋,并將其與之前提取到的超級指紋共同設置為該數據塊的標識。哈希指紋是數據塊的唯一標識,可以用于后續的去重比對。

當云存儲系統接收到每個數據塊時,會將該數據塊的指紋與系統中已有的數據塊指紋進行比對。如果數據塊指紋已經存在于系統中,說明接收到的數據塊是冗余的,即已經存在相同的數據塊。為了避免存儲重復數據,云存儲系統需要在網絡的兩個端點,即發送端和接收端,消除冗余數據包,并對該數據包進行編碼。通過編碼技術,可以將冗余數據包轉換為校驗信息,減少上傳到服務器端的數據傳輸量,提高云數據去重的效率和速度。

另一方面,如果數據塊指紋在云存儲系統中不存在,則存儲該數據塊,并及時更新系統的指紋庫。這樣就能保證云存儲系統中只保存唯一的數據塊,避免了冗余存儲,節省了存儲空間。

綜上所述,本文所采用的細粒度云數據分塊去重方法能夠有效地解決云存儲系統中的數據冗余和存儲效率問題。通過分塊處理、哈希指紋比對、冗余數據包消除和數據編碼等關鍵步驟,可以實現高效的云數據去重,提高存儲效率和數據處理速度。這種方法在大規模的云存儲系統中具有重要的應用價值。

3 實驗分析

3.1 實驗準備

上述內容,便是本文提出的細粒度云數據自適應去重方法的全部設計流程。在提出的數據去重方法投入實際使用前,進行了如下文所示的實驗分析,檢驗方法的可行性與去重效果,確認整個去重過程中無異常問題后,方可投入使用。

首先,對細粒度云數據自適應去重實驗的環境配置進行設置,為實驗的順利開展奠定良好基礎。實驗環境配置如表1所示。

表1 細粒度云數據自適應去重實驗環境配置

按照表1的配置,設置好實驗所需環境。其次,為了提高此次去重實驗測試的準確性,選用重復度較大的細粒度云數據集,如表2所示。

表2 細粒度云數據集說明

表2 中的Web 數據集中包含了100,000 個網頁,其中包括不同主題的新聞、博客、論壇等頁面。每個網頁的URL、標題和正文內容都被提取存儲在數據集中。此外,還記錄了網頁之間的鏈接關系,如頁面A鏈接到頁面B等;同時,還包含了網頁的HTML 結構和標簽信息,用于進一步的分析和處理。Linux 源碼數據集中包含了Linux 操作系統的源代碼文件。每個源代碼文件包含了函數定義、變量定義以及相關的注釋。源代碼組織成目錄結構,每個目錄代表不同的子系統或功能模塊;此外,還包含了Makefile、README文件等輔助信息。

實驗所需的細粒度云數據集準備完畢后,按照上述本文提出的云數據自適應去重方法步驟,對云數據集進行去重處理,獲取細粒度云數據去重結果,進而檢驗方法的有效性與去重效果。

3.2 結果分析

在此次實驗中,本文特意引入了文獻[2]提出的基于最小哈希的數據去重方法、文獻[3]提出的基于Reed-Solomon 數據去重方法,分別作為對照組1與對照組2,將上述本文提出的細粒度云數據自適應去重方法設置為實驗組,分別對比三種方法應用后云數據的去重結果。采用對比分析的實驗方法,能夠更加直觀地得出此次云數據去重實驗的結果,避免結果存在偶然性,增強說服力。本次實驗選取細粒度云數據的空間壓縮率作為此次實驗的性能評價指標,云數據空間壓縮率越高,說明細粒度云數據中重復數據自適應去重效果越好,反之則說明去重效果越差,不能有效消除數據集中的相似重復數據。

分別在云數據集1與云數據集2中,選取3個不同大小的細粒度云數據文件,將其編號為SJJ-101、SJJ-102、SJJ-103、SJJ-201、SJJ-202、SJJ-203。利用上述三種數據去重方法,對6個細粒度云數據文件進行去重處理,通過MATLAB 軟件的模擬作用與SPSS 軟件的數據統計作用,模擬云數據去重全過程,并統計三種方法的空間壓縮率,繪制成如圖3所示的性能評價指標對比圖。

圖3 實驗性能評價指標對比結果

通過圖3的性能評價指標對比結果可以得知,三種云數據去重方法應用后,性能指標結果存在較大的差異。其中,本文提出的云數據自適應去重方法應用后,6 個不同大小的細粒度云數據文件的空間壓縮率始終高于對照組1與對照組2 提出的方法,空間壓縮率均達到了98%以上。由此對比結果不難看出,本文提出的細粒度云數據自適應去重方法具有較高的可行性,能夠最大限度地去除細粒度云數據中的重復數據,去重準確性優勢顯著,可以大規模投入使用。

某個算法在相同數據集規模下處理時間較短,即呈現較低的計算開銷,相對于其他算法來說更高效,具有更高的去重效率。根據給定的實驗組別編號對不同組別的實驗結果進行了測量,并將結果匯總如表3所示。

表3 去重耗時對比/ms

通過對表3中的數據進行分析,可以得到以下結論:實驗組的平均去重耗時為254.8ms,對照組1 的平均去重耗時為485ms,對照組2 的平均去重耗時為492.5ms。由此可見,實驗組采用的細粒度云數據分塊去重方法相較于對照組1和對照組2的文件級別去重方法,在平均去重耗時上具有更好的性能表現,進一步說明實驗組的計算開銷較小,可以有效提高去重效率。因此,根據實驗結果的平均值分析,得出結論:實驗組采用的細粒度云數據分塊去重方法相較于傳統的文件級別去重方法,在平均去重耗時上具有更好的性能表現。

存儲開銷是一個關鍵指標,可以影響系統的性能和擴展性。較低的存儲開銷意味著在處理數據時,所需的存儲空間較小,從而減少了存儲引擎的負載和磁盤IO操作,提高了系統的響應速度和吞吐量。此外,較低的存儲開銷也意味著系統具有更大的擴展能力,能夠適應更大規模的數據處理需求。為了進一步驗證本文提出的細粒度云數據自適應去重方法的應用性能,對比同一細粒度云數據文件下不同算法所需的存儲空間。如圖4所示。

圖4 存儲空間對比結果

通過圖4的存儲空間對比結果可知,三種云數據去重方法應用后,對云數據進行去重處理時所占用的存儲空間有所不同。其中,應用本文提出的云數據自適應去重方法后,對于不同云數據文件進行去重處理時,所占用的存儲空間低于4GB;對照組1和對照組2所占用的存儲空間均低于8GB,較實驗組占用的存儲空間較大,表明本文提出的細粒度云數據自適應去重方法具有較低的儲存開銷,相對于其他算法來說更高效。

4 結語

在當前云數據存儲能力指數級不斷提升的背景下,用戶對云數據私密性、安全性的重視程度大幅度提升。由于網絡信息安全系統長期處于工作運行狀態,會實時產生大量的云數據,其中存在較多的重復細粒度云數據,占用存儲空間的同時,降低了云數據傳輸、加密、解密的效率。為了改善這一問題,本文提出了細粒度云數據自適應去重方法的研究。通過本文的研究,有效地降低了細粒度云數據的重復率,且去重正確率較高,全方位滿足了網絡信息安全系統細粒度云數據去重實時性與準確性的要求,具有良好的應用前景。

猜你喜歡
細粒度存儲空間字符串
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
基于多種群協同進化算法的數據并行聚類算法
細粒度的流計算執行效率優化方法
基于文本挖掘的語詞典研究
蘋果訂閱捆綁服務Apple One正式上線
用好Windows 10保留的存儲空間
基于雙線性卷積網絡的細粒度圖像定位
支持細粒度權限控制且可搜索的PHR云服務系統
一種新的基于對稱性的字符串相似性處理算法
依據字符串匹配的中文分詞模型研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合