?

大數據與統計學分析方法比較

2017-12-19 21:42杜泇儀
科學與財富 2017年33期
關鍵詞:分析方法數據挖掘可視化

杜泇儀

在這個大數據占主導的時代,數據逐漸進入了人們的視野并且逐步發揮著越來越重要的作用。如何合理利用大數據解決實際問題,并做出科學有效的決策成為了當今社會各行各業廣泛關注的問題??茖W技術的發展與普及使得信息數據在社會發展過程中的各個方面都大展拳腳。而在數據處理和分析方法方面,統計學的相關知識一直是理論的主力和中心,這些方法協助人們從雜亂無章的數據中挖掘有價值的信息,并為其相關決策提供理論支撐和方法支持。但是,隨著處理數據的數量逐漸龐大,傳統的理論方法在面對大量數據時遇到了瓶頸,向我們暴露了了較多的不足。傳統統計方法和分析軟件無法處理大規模的數據。如果人們要緊隨大數據的潮流,利用相關的科技更好的收集和處理信息,首先要對原有的統計學方法進行改進,使其與大數據所需要的處理方法更加的貼合。

首先需要明確的是大數據的定義,根據維基百科上對于大數據的定義:大數據指的是那些因為數據過于復雜和龐大從而傳統軟件分析方法不足以應對的數據群,主要技術模塊包括數據的獲取,數據的儲存和數據的分析,搜尋,轉移,可視化,排列等??偟膩碚f,大數據的特征可以概括為是數據量大,數據流動性大: 例如現在熱門的各種軟件如snapchat,微博和知乎。再者就是數據種類多,有豐富的多樣性,包括結構化數據,也有其他類型的非結構數據。最后是數據價值大,這些大規模數據可以為企業或組織創造出巨大的商業或社會價值。大數據的方法最主要的包括:Analytic Visualizations(可視化分析):數據可視化是數據分析工具最基本的要求??梢暬梢灾庇^的展示數據,讓數據自己說話,讓觀眾聽到結果。Data Mining Algorithms(數據挖掘算法):可視化是給人看的,而數據挖掘是給機器展示。集群、分割等算法讓我們深入數據內部,挖掘價值。Predictive Analytic Capabilities(預測性分析能力):數據挖掘可以讓分析員更好的理解數據,而預測性分析則可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。Semantic Engines(語義引擎):由于非結構化數據的多樣性帶來了數據分析的新的挑戰,需要一系列的工具去解析,提取,分析數據。Data Quality and Master Data Management(數據質量和數據管理):數據質量和數據管理是一些管理方面的最佳實踐。通過標準化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。Victor在其最新著作《大數據時代――生活、工作與思維的大變革》中指出,大數據時代,人們的思維方式要發生3個變革:第一,要分析與事物相關的所有數據,而不是依靠分析少量數據樣本;要總體,不要樣本。第二,要樂于接受數據的紛繁復雜,而不再追求精確性。第三,不再探求難以捉摸的因果關系,應該更加注重相關關系。上述與計算機結合的新進方法和變革反映出了大數據處理方式與傳統統計學分析方法的很多關聯以及主要不同。

接下來討論大數據與統計學分析方法的聯系,其二者均采用量化分析。大數據分析的基礎是數據化,也就是一種把各種各樣現象轉變為可制表分析的量化形式的過程。不論是傳統統計學中所應用的數據還是大數據時代即將被轉化和采用其他多種形式的數據最終都是通過量化分析方法來對數據進行有效的分析并且揭示數據中所蘊含的事物特征。

現在將討論的重點還是放在統計學分析與現今大數據的分析過程中的差異。統計學的定義是通過搜索、整理、分析數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。其中用到了大量的基礎數學知識及其它學科的專業知識,使用范圍非常的廣泛。雖然統計學也在跟著不斷的發展更新,理論知識的更新速度很難一下子跟上社會拋出的一系列新問題。而現在大數據價值就像是一座寶藏,絕大部分都隱藏在表面下等待挖掘。相關領域的專家表明大數據的來臨使人類第一次有機會和條件,在非常多的領域和非常深入的層次獲得和使用全面數據、完整數據和系統數據,深入探索現實世界的規律,獲取過去不可能獲取的知識。大數據傾向于盡可能利用所有能獲取的數據。

在傳統的數理統計學中,由于記錄,存儲,分析數據的工具并沒有那么的先進,傾向于從總體中抽取樣本來分析,用樣本簡單有效的估計整體,最主要的就是利用樣本參數估計對應的總體參數。采樣分析的準確性的確會隨著采樣隨機性的增大而提高,但是與樣本數量的增大關系并不是很大。當樣本數量達到了某個值的時候,從新個體身上得到的信息會越來越少。在大數據時代,隨機分析的方法將不再被采用,人們會選擇去利用所有的數據。即“樣本=總體”。統計抽樣產生的契機是為了解決存在的一些特定問題而產生的。在技術逐漸成熟之后,樣本分析就會被逐漸拋棄。?

大數據的其中一個很重要的特質就是讓人們學會接受不精確,對小容量的數據來說,統計學或許已經可以把數據處理的較為合理。但是在大數據時代,原始統計方法并不能有效的解決問題,因為數據量的大幅增加會導致量化分析的結果包含誤差。執迷于絕對的精確性是信息缺乏時代和模擬時代的產物,只有接受不精確性才能帶領我們進入新的領域。

另外,大數據時代數據的來源沒有原先那么簡單。一般情況下,統計學中要想得到一些數據是需要通過各種不同實驗方法測量和記錄,數據的收集是較為耗時,同時也需要大量的精力。但是隨著科技的發展,數據有時候可以從你意想不到的地方得到。也許在精心地設計實驗或是研究測試之后,真正操作才會發現事情并不像想象的簡單。大數據時代所提出的“數據化”方式,將使得對所需數據的收集變得更加容易和高效。除了傳統的數字化數據,就連圖像、方位、文本的字、段落等等,世間萬物都可以成為大數據分析的原料。

至于數據的利用方式,在統計學中,對數據的利用主要包括對數據進行分析,求統計的各種數值中的聯系,如身高的遺傳問題,不僅要分析其父母的身高,還要分析孩子的身高,先估計合適的模型,再實際代入檢驗模型判斷是否合適,進行合理分析從而得出自己的結論。在大數據時代,數據沒有這樣較為定性的檢驗和分析手段,對數據的利用方法也隨著情況的不同而不同,要學會具體情況具體分析。另外,大數據的發展使得機器學習,云計算等原來計算機領域的方法逐漸進入人們的視野,與原來的統計分析方法和途徑有效結合和互補從而實現數據的收集,存儲和分析。

總的來說,只有更好的了解統計知識并結合大數據的特點進行分析,這樣才能研究出最好的分析方法,提高分析效率。

參考文獻

[1]孟小峰,慈祥.大數據管理:概念,技術與挑戰[J].計算機研究與發展,2013,50(1):146169.

[2]俞立平.大數據與大數據經濟學[J].中國軟科學,2013,(7):177183.

[3]維克托·邁爾·舍恩伯格,肯尼斯·庫克耶.大數據時代―生活、工作與思維的大變革[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2012.

猜你喜歡
分析方法數據挖掘可視化
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
基于EMD的MEMS陀螺儀隨機漂移分析方法
探討人工智能與數據挖掘發展趨勢
一種角接觸球軸承靜特性分析方法
基于CGAL和OpenGL的海底地形三維可視化
中國設立PSSA的可行性及其分析方法
“融評”:黨媒評論的可視化創新
基于并行計算的大數據挖掘在電網中的應用
一種基于Hadoop的大數據挖掘云服務及應用
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合