?

幾種降維算法的研究及應用

2016-06-29 20:50隋易潔李峰郝多虎芮小平陳民
科技視界 2016年16期
關鍵詞:降維經濟發展數據挖掘

隋易潔 李峰 郝多虎 芮小平 陳民

【摘 要】空間數據往往具有海量、高維特點,如何從冗余、有噪音的數據提取有效信息成為人們研究的重點。降維作為高維數據壓縮中,及高效提取所含信息的一種有效途徑,近年來正引起可視化等領域研究者的高度重視。不同降維技術由于其數學理論依據和適用范圍不同,可視化結果有差異。本論文首先分析了不同降維算法,即主成分分析、非線性映射、自組織特征映射、支持向量機。作者以2013年京津冀區市尺度為研究單元,運用上述算法對京津冀區市經濟統計數據進行聚類分析,同時基于京津冀經濟發展的實際狀況,對成果的差異性展開了深入討論。

【關鍵詞】降維;數據挖掘;經濟發展

0 引言

近年來,空間信息科學蓬勃發展,在各個行業都得到了較為深入的應用。隨著空間信息技術的進一步普及,涉及到的空間數據也日益增多,呈現海量多維的特點??臻g多維數據不僅具有多維屬性,每條記錄同時還對應著空間目標,由于這種關系的存在,使得多維可視化和模式識別過程具有特殊性,這為空間數據的分析帶來了新的挑戰。由于空間信息具有明顯的時空分布特征,而這些特征通過可視化的方式進行描述和表達,能夠幫助人們更好的理解空間多維信息所反映的事物內在空間規律。

在常用的空間多維信息可視化系統中,一般采用選維方式和多維可視化技術來實現高維數據的顯示和知識挖掘。多維信息的可視化通常采用降維算法把高維信息轉換到人類視覺能夠感知的三維空間以內來實現,從而發現數據之間的關聯性和發展趨勢,了解數據的時空分布規律,進而做出及時和正確的判斷和決策。在實際應用中,各種降維算法由于數學理論和適用范圍的不同,結果也具有很大的差異,所以需要針對特定的應用分析來研究合適的數據降維算法。

在傳統的多維信息分析中使用的降維和可視化技術沒有考慮空間位置因素的影響,如地理位置接近的目標之間往往具有更加相似的特征,這些特征在多維信息中也有所體現,即地理位置本身對多維數據的產生是有影響的??臻g自相關作為一種揭示數據空間聚集信息的技術已經得到廣泛應用,但其對于展現高維數據的綜合聚集情況顯得無能為力;同時該技術能對空間單元進行分類,但反映的是局部情況,而不能反映出全局的聚類情況,這也需要借助一定的方式來分析數據的低維表達形式。作者以京津冀省的縣域經濟統計數據為研究對象,進行降維算法和可視化技術實驗,以期從理論和實證研究中,對空間多維可視化技術研究獲得一定的理解和取得一定的進展。

1 研究結果及討論

1.1 數據說明

本文以2013年京津冀經濟統計數據為例,對京津冀地區經濟發展狀況進行分析。在地級尺度的經濟統計數據中,大量數據的屬性維度統計缺失?;诮稻S過程的維度應盡量最大化考慮,本文選擇最能反映地區經濟發展情況的17個屬性,分別是:第一產業人均生產總值、第二產業人均生產總值、第三產業人均生產總值、規模以上工業以上企業情況(資產總計和負債總計)、貨物進出口總額、人民幣存貸額、財政收入和支出、城鎮就業情況(人員數和人均工資)、社會消費品零售總額、全社會固定資產投資、人口密度。由于河北與北京、天津地級單位面積相差較大,總額指標不能準確反映地區真實的發展狀況,所以本文將以上屬性折合成人均指標。

1.2 算法的分類結果分析

本文依次采用PCA-NaturalBreaks、NLM-KMeans、PCA-SVM、SOFM將京津冀地區經濟數據進行分類,依照各種算法的分類特點以及京津冀地區特點對京津冀區域經濟的發展現狀進行分析。

1.2.1 PCA-NaturalBreaks分類結果分析

基于PCA[17],并設置方差舍棄閾值為90%,作者對京津冀經濟數據進行分析,并對結果進行分類。使用PCA方法整體上能體現出京津冀區域經濟的發展狀況,呈現出濱海新區在天津成為新的經濟增長極,以及唐山、石家莊在河北市的龍頭作用。第二等級城市滄州、保定的劃分體現了北京、天津的輻射作用,河北北部由于地形的阻擋受兩個直轄市的影響不大。第五等級城市北京北部郊區以及門頭溝因位于山區,交通不便,發展滯后。天津中心城劃分為第五等級,體現了天津環城區迅猛發展的勢頭。但是,PCA分類結果未能體現出北京的中心作用, 實際上北京中心區縣經濟較河北各市發達。

1.2.2 NLM-KMeans分類結果分析

基于NLM[5]降維算法,并將統計數據集降至一維?;诰┙蚣降慕洕l展現狀,該結果能反映真實的經濟發展情況,但等級之間的分類細節無法得到證實。該分類結果將北京中心城區、天津濱海新區和河北石家莊、唐山劃分為第一等級,將保定、滄州、邯鄲劃分為第二等級,將河北大部分劃分為第三等級,而北京平原郊區、天津環城四區被劃為第四等級,將北京山地郊區、天津外圍郊區以及中心城區被劃為第五等級。這從整體上充分體現了環渤海經濟區域北京、天津、河北發展不協調、各自為政的現狀,肯定了濱海新區作為新的經濟增長極的地位。說明京津冀一體化的進程仍然不顯著,濱海地區開發力度強勁,逐步成為京津冀都市圈經濟發展日益隆起的地帶。

1.2.3 SOFM分類結果分析

SOFM[4]的分類結果,與NLM的結果類似,SOFM的分類結果從整體上體現了京津冀經濟發展格局,但在將唐山、石家莊也被劃分為第二類,未能體現河北的核心發展格局;其等級之間的分類細節也無法得到驗證。

1.2.4 PCA-SVM分類結果分析

PCA-SVM的分類結果,修正了PCA的結果,將北京中心城區劃分為第一等級,使PCA-SVM的分類結果更加合理,北京、天津郊區發展不協調的狀況也能體現。但在石家莊、唐山被劃至第二類,未能體現出河北經濟核心發展格局。

綜合以上算法結果(見表1),總結京津冀發展現狀[19-20]如下:第一,京津冀發展總體仍然發展不協調,這點由等級劃分界限與行政界限基本相符得到證實。說明京津冀發展離“一體化”的目標還有很大一段距離。第二,北京、天津內部發展不協調。因為所有的分類結果都顯示北京中心城區與郊區等級差距很大以及天津中心城區等級很低,其中PCA和PCA-SVM將北京郊區南北劃分為兩級,說明北京中心城區與郊區發展差距明顯,北部和南部發展不一天津基本成同心圓狀發展,且環城區比中心城區發展要好[18],第三,SOFM將河北只劃分兩個等級,說明河北西北和東南發展有所差距,但是差距不明顯?!毒┙蚣蕉际腥^域規劃》重點建設的天津濱海新區發展快速,儼然成為環渤海經濟區域的新經濟核心。

2 結論

利用可視化技術研究和分析高維數據集的內在結構和規律時,需要采用降維方法將其轉換到三維以內的空間。而不同降維技術由于其數學理論和適用范圍不同,最終的結果也必定有差異。結果如下:(1)PCA能粗略地反映京津冀的發展狀況,對于廣大京津郊區以及河北的經濟狀況無法體現;(2)NLM能較正確地揭示京津冀地區北京、天津兩大經濟增長極的發展現狀,并能大致地反映河北的經濟發展狀況;(3)SOFM總的劃分界限和NLM相似,但是有錯分情況;(4)SVM在非監督分類應用中依賴于樣本的選取,不能完全挖掘出數據內在結構。

【參考文獻】

[1]吳昌友.神經網絡的研究及應用[D].東北農業大學,2007.

[2]畢達天,邱長波,張晗.數據降維研究現狀及其進展[J].情報理論與實踐,2013, 36(2):125-128.

[3]翟永杰.基于支持向量機的故障智能診斷方法研究[D].華北電力大學(河北),2004.

[4]武國正.支持向量機在湖泊富營養化評價及水質預測中的應用研究[D].內蒙古農業大學,2008.

[5]阮曉芳.支持向量機方法在醫學和環境化學中的應用研究[D].蘭州大學,2007.

[6]尹飛,馬大政.基于PCA算法的人臉識別[J].計算機技術與發展,2008,30(10):1642-1646.

[7]郭素芳.天津區域經濟協調發展模式及路徑選擇[J].現代城市研究,2010(10):55-59.

[8]賈琦,運迎霞.京津冀都市圈城鎮化質量測度及區域差異分析[J].干旱區資源與環境,2015,29(3):8-12.

[9]王明浩,翟毅,劉玉娜.京津冀經濟區的研究[J].城市經濟.2015,12(1):70-77.

[10]陳陽.京津冀地區城市體系演化研究——基于關聯網絡和價值區段的分析方法[C]//多元與包容——2012中國城市規劃年會論文集.云南:云南科技出版社,2012:209-218.

[11]丁碩,常曉恒,巫慶輝.基于自組織特征映射神經網絡的聚類分析[J].信息技術,2014(6):18-21.

[12]張超.基于支持向量機的汽輪機軸系振動故障智能診斷研究[D].華北電力大學(河北),2009.

[責任編輯:楊玉潔]

猜你喜歡
降維經濟發展數據挖掘
混動成為降維打擊的實力 東風風神皓極
降維打擊
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
拋物化Navier-Stokes方程的降維仿真模型
基于特征聯合和偏最小二乘降維的手勢識別
基于GPGPU的離散數據挖掘研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合