桑 振,胡 建
(河北農業大學,河北 保定 071000)
伴隨互聯網和物聯網等技術的逐漸成熟,各類數據量呈爆發式增長,其中蘊含大量具有科學價值與應用價值的信息,其不僅能為互聯網帶來發展機遇,還能為人們生活生產提供更好的服務。但與此同時,網絡也時刻都需要面臨海量數據的采集、分析、存儲問題,再通過挖掘不同用戶數據中的有效信息,創造符合用戶需求的服務,從而提升產業價值。然而信息大爆炸時代的到來使大數據集快速、有效存儲成為互聯網公司當前面臨的新挑戰[1,2]。已有存儲設備易發生老化、故障等情況,且難以確保信息絕對安全傳輸,導致信息丟失或泄露現象頻發。另外,已有存儲設備的內存空間有限會約束存儲信息的規模,導致其對大數據集的存儲和傳輸能力較差,且有關技術的發展速度與數據集規模擴大速度不匹配[3],因此,信息壓縮存儲方法逐漸引起相關領域的關注。該方法是指通過使原信息損失或不損失的形式,對重復信息進行壓縮,以達到信息數據量降低、存儲空間減少的目的,包含可擴展性良好、負載均衡、成本較低等優勢,是影響大數據集存儲最深遠的一項技術。
很多相關專家學者均在此類技術的研究上取得杰出成就,例如楊耀森[4]等人使用多核架構實現對圖像信息的壓縮存儲,該方法的信息傳輸速率高達35MB/s,且兼容性較高,但方法架構不能完全適應所有應用系統。王鶴[5]等人使用分布式壓縮感知和邊緣計算實現對電力信息的壓縮存儲,該方法壓縮后的信息完整性較高,且通信開銷大大降低,但對大規模數據的計算復雜度有待提升。
窄帶物聯網是萬物互聯網絡的重要組成部分,具有帶寬消耗低等特點,能實現較高要求設備的高效連接,且能提供全面的數據連接覆蓋。因此,本文提出基于窄帶物聯網的信息壓縮存儲方法,通過移動采集感知層、網絡層和應用層的相互協作,實現信息壓縮存儲,以滿足目前不斷增長的大數據集有效存儲需求。
引入窄帶物聯網對信息進行管理,構建如圖1所示的基于窄帶物聯網的信息管理模型。
圖1 基于窄帶物聯網的信息管理模型
圖1中,LoRa網絡和若干智能終端采集裝置共同構成移動采集感知層,該網絡以星型網絡作為架構,該裝置能夠自主獲取需要的農業信息,使用LoRa網絡將所得信息傳輸到網絡層的LoRa網關匯聚節點;TCP/IP協議包含于匯聚節點內,其接收到傳輸的信息后,經過整合處理將信息傳輸至應用層;應用層是信息管理模型的核心部分,包含壓縮存儲模塊、數據庫、管理計算機等。其中,壓縮存儲模塊通過基于規范Hadamard矩陣的信息壓縮存儲方法對接收到的信息進行壓縮存儲,并將結果保存至數據庫,用戶利用管理計算機可以操作數據庫中的信息,以及查看返回結果。
該矩陣在信息處理、通信等領域應用十分廣泛。假設A=(aij)表示實數方陣,其階數用m描述,該方陣滿足式(1)所示表達式
(1)
設置Hadamard矩陣階數為m,如果它是行規范的H-矩陣,那么該矩陣滿足第一行元素均為1;如果它是列規范的H-矩陣,那么該矩陣滿足第一列元素均為1;如果它是規范的H-矩陣,那么該矩陣應該同時滿足上述兩個條件[6,7]。下述為Hadamard矩陣性質。
H-矩陣用Hm描述,其階數為m,可獲得如式(2)所示表達式
(2)
若H為H-矩陣,通過行或列換序、多行或多列與-1相乘、轉置操作的任意組合處理H,獲得H′,其仍是H-矩陣。
(3)
式內,h1j和h2j相加等于±2或0,h1j和h3j相加同樣等于±2或0,所以可得,上式各項與等號左邊均為4的倍數[8]。
假設H是m階H-矩陣,能得到2m階H-矩陣。若某整數用t描述,其值大于等于0,則存在2t階H-矩陣。
在上述Hadamard矩陣性質的基礎上,可將其描述為式(4)所示的遞推關系
(4)
(5)
通過上述內容得出,Hadamard矩陣為滿秩矩陣,且經過初等變換所得結果仍為滿秩矩陣。
假設存在n階矩陣,采用n維數組描述其在計算機內的形式,抽象數據對象數組表達式用式(6)描述
Array{D={aj1,j2…jn}|j=0,…,bi-1,i=1,2,…,n}
(6)
式內,數組維數用n描述,其值大于0;處于i維位置,數組的維界用bi描述;處于i維位置,數組元素的下標用ji描述;數組元素用aj1,j2…jn描述。
在n等于1的條件下,可使用長度固定的線性表描述n維數組;在n大于1的條件下,可將n維數組看作線性表位于n維空間的拓展,因此可將二維數組的各元素看作長度固定的線性表。以式(7)描述的數組為例,具體如下
A={am-1,n-1}m×n
(7)
能夠將上式當作線性表,用A=(α0,α1,…,αp)描述,且p=m-1或p=n-1。
若各元素為行向量線性表,則p=m-1,用αi=(αi0,αi1,…,αi,n-1)描述,且0≤i≤m-1;若各元素為列向量線性表,則p=n-1,用αj=(α0j,α1j,…,αm-1,j)T描述,且0≤j≤n-1,使矩陣A變成一維數組的存儲形式。
若二維數組將行序當作主序,其占用的存儲單元數量為L,可利用下式描述某元素αij的存儲地址
Loc(i,j)=Loc(0,0)+(b2·i+j)L
(8)
式內,元素的基址用Loc(0,0)描述。上式可轉換為式(9)所示形式,是在維界等于b1、b2的情況下
Loc(b1-1,b2-1)=Loc(0,0)b1b2L
=Loc(0,0)+[b2·(b1-1)+b2]L
(9)
將上式的L和Loc(i,j)=0分別設置成1、0,可使用b1b2描述二維數組的歸一化存儲空間[11,12]。
根據Hadamard矩陣定義,N階規范Hadamard矩陣具有對稱性,其中N=2m、m∈Z。通常使用上、下三角N階矩陣完成對稱矩陣的存儲。
設置一維數組用h[N(N+1)/2]描述,將其當作階數為N的規范Hadamard矩陣的存儲結構,那么h[k]與各元素aij相互匹配,具體用式(10)描述
(10)
以某市東北方向農業區域作為實驗對象,使用本文方法采集106條農業信息,根據領域將所得信息劃分成10個子集,通過本文方法實現采集信息的壓縮存儲,以驗證該方法的有效性。
引入壓縮比衡量信息壓縮效果,其值越大,壓縮性能越優異,計算過程為:(1-壓縮后大小/壓縮前大小)×100%。不同信息規模下,使用本文方法與未使用本文方法的壓縮時間、解壓縮時間、壓縮比結果用表1描述。
表1 不同信息規模的信息壓縮結果
分析表1可以看出,隨著信息規模不斷擴大,本文方法使用前后的壓縮時間和解壓縮時間均呈上升趨勢。相較于本文方法使用前,使用本文方法后的兩個時間都節約50%以上,本文方法后的壓縮比始終在75%~90%之間變使用化,而本文方法使用前的最大壓縮比僅為45.3%。對比以上結果表明,本文方法的信息壓縮效果良好且效率高。
使用本文方法對土地信息集進行壓縮存儲,其中信息高度密集區域及其經過壓縮處理后的可視化結果用圖2描述,圖中方塊表示信息。通過分析圖2中的結果可以看出,信息高度密集區域的信息規模較為龐大,存儲時會占用較多存儲空間,使用本文方法處理后,該區域的信息量大大降低,且能將描述該區域基本特征的臨界信息保留,因此表明,本文方法具有較優異的信息壓縮效果,對降低存儲空間壓力起著重要作用。
圖2 土地信息集的壓縮效果
使用本文方法對10個農業信息子集進行壓縮存儲,各子集的信息失真率結果用圖3描述。
圖3 不同子集的信息失真率結果
通過分析圖3中的結果可以看出,經過本文方法處理后的各子集信息失真率均處于10%~14%之間,其中信息失真率最高和最低的子集分別為農藥、土地,值為13.5%、10.5%左右。由此可知,本文方法的信息壓縮存儲效果較理想,存儲的信息失真率較低,真實度高。
測試不同信息子集分別采用直接存儲,以及本文方法的壓縮存儲所需信息存儲空間,結果用圖4描述。通過分析圖4中的結果可以看出,對各信息子集采用直接存儲方式時,所需信息存儲空間在700~900Mb范圍內變化,使用本文方法進行各信息子集壓縮存儲時,所需信息存儲空間始終低于200Mb,存儲空間節約71%~78%左右。以上結果表明,本文方法的信息壓縮存儲效果優勢顯著,可極大地減少存儲空間。
圖4 不同信息子集的信息存儲空間結果
隨著互聯網普及范圍逐漸擴大,以及各行各業的快速發展,每日都會產生海量信息,給現有存儲設備帶來巨大壓力,針對這一背景,本研究提出基于窄帶物聯網的信息壓縮存儲方法,解決了當前存在的信息冗余過大和存儲設備的存儲空間與信息增長量不匹配等問題。該方法通過創建基于窄帶物聯網的信息管理模型,結合基于規范Hadamard矩陣的信息壓縮存儲方法,實現大規模信息壓縮存儲。經實驗驗證可知,該方法具有良好的信息壓縮效果,且壓縮效率較高。該方法通過信息壓縮存儲能使信息存儲空間大幅度減少,因此,其能夠為數據挖掘領域和互聯網的進一步發展提供支持。