?

統計學在大數據領域發展思考

2020-04-08 09:30王賀超
電腦知識與技術 2020年3期
關鍵詞:互聯網技術大數據統計學

王賀超

摘要:伴隨互聯網技術的突飛猛進,大數據領域發展迅猛。門戶網站、電子商務、社交網絡、影視游戲等應用中產生了海量數據,這些數據需要統計學發揮作用來挖掘其中的價值。統計學作為交叉性、實用性很強的方法論科學,面對大數據這一新興事物,需要積極變革,發展新的統計方法和工具。一方面幫助大數據領域有效地處理數據,另一方面借助大數據技術推動統計學的不斷進步。在大數據時代,統計學要正視嚴峻的挑戰,研究切實有用的方法,抓住新時代的發展機遇。

關鍵詞:統計學;大數據;互聯網技術

中圖分類號:TP393 文獻標識碼:A

文章編號:1009-3044(2020)03-0007-02

1 統計學需要在大數據領域發展

統計學能夠提供很多有效的工具和手段幫助大數據領域挖掘數據價值。大數據技術包含數據采集技術、數據存儲技術、數據處理技術,其中至關重要的就是數據處理技術中的挖掘數據價值。傳統IT數據所產生的數據量級小、單位價值高,可以看作是在黑土地上精耕細作。大數據時代的數據量級大、單位價值低,可以看作是在沙漠中淘金。在大數據領域經常需要分析某批數據的宏觀特征、某批數據背后隱藏的要素相關性,傳統IT的數據分析方法已經無法實現這些目標,這時就需要統計學發揮自己的特長,在不同時期、從不同角度挖掘數據價值。

統計學在解決大數據領域問題時會展示出統計工作的新生命力。統計作為一種古老的活動一直參與到生活、社會、經濟領域中。起初統計服務于社會管理需要,搜集、整理有關歷史、行政、科學、藝術、人口、資源、財富等社會和經濟情況,并進行一定的分析和描述,展示數據的宏觀特征。而后隨著數據資料積累到一定規模,人們要求統計能夠提供揭示事物內在規律的研究方法,以達到推斷數據本質、甚至預測數據未來趨勢的目的。在大數據時代,統計學需要面對更為龐大、更為豐富的數據,會產生新的統計方法,衍生出新的統計思路。

統計學在解決大數據問題過程中,借助大數據技術豐富和擴充統計工具。信息爆炸和互聯網技術更新給大數據帶來一系列的新技術,涵蓋了數據采集、數據存儲、數據處理。從數據采集上講,傳統統計經常使用統計報表、典型調查、電話訪談、調查問卷等方法,大數據領域有行為數據收集、內容數據記錄等方式。從數據存儲上講,傳統統計使用紙張文檔、Excel表格、關系型數據庫等載體,大數據領域有文件系統、日志系統、NoSQL數據庫系統等工具。從數據處理上講,傳統統計使用人工分析、專用軟件計算等方法,大數據領域有可視化分析、數據挖掘算法、語義引擎、流式計算等方式。這些技術能夠被統計工作所吸收、采納,推動統計學的發展。

大數據的意義不止于管理龐大的數據信息,更在于發現這些數據背后的潛在價值,這就需要統計學的分析能力參與其中,實現數據的增值。在大數據和統計學的合作過程中,后者也需要進行自我變革。

2 大數據領域的特點

大數據有很多種定義,獲得廣泛認可的是:大數據(big da-ta),是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據的數量級巨大。根據國際數據公司(IDC)的研究報告得知,2018年全球產生的數據為33ZB(約33萬億GB)。市場研究機構Synergy Research發布數據,2018年全球新增超大規模數據中心40個,每個超大規模數據中心一般擁有5萬-10萬服務器。騰訊董事局主席馬化騰曾披露騰訊數據中心存儲總量超過1000PB(約10億GB),而且每天新增500TB(約50萬GB)的數據;騰訊用戶每天在微信朋友圈和QQ空間上傳的圖片達10億張,騰訊視頻(含微信公眾號H5視頻)每天播放量達20億次,除夕當天紅包支付超過25億筆,每天移動支付超過5億筆。由此可見,大數據時代的數據體量巨大,并且持續快速增長。

大數據的種類多樣。傳統的IT數據主要以數據庫記錄為主,這是一種規范的、層次分明的結構化數據。但是在大數據時代,數據不僅限于數據庫記錄,經常以行為日志、電子文檔、語音視頻、地圖圖片等形式存在,形成非結構化數據。

大數據的速度很快。這個“速度”包括數據的生成速度、數據的增長速度、數據的更新速度,從而要求數據的獲取速度、數據的傳輸速度、數據的存儲速度、數據的處理速度也要很快。進一步對數據的分析和解釋速度提出了更高的要求。

大數據依賴互聯網技術。大數據作為互聯網發展的產物,其采集、存儲、處理同互聯網技術密不可分。數據采集是指將數據寫入數據倉庫,通常使用Flume NC、NDC、Logstash等工具實現數據的收集。數據存儲用于存放大量數據、同時給數據的處理提供便利,通常采用Hadoop、HBase等分布式存儲方案實現。數據處理是非常重要的環節,可以使用MapReduce、Oozie等技術實現數據的管理、計算,挖掘數據特性和價值。

統計工作者應該了解大數據領域的特點,掌握大數據的共性和特性。面對不同體量、不同形態、不同表現的數據,應該思考如何找到辦法、工具將數據轉化為可以進行統計研究的對象。在實際工作中,將統計工具同互聯網技術相結合,采用合適的統計方法,分析和處理現實問題。

3 統計學在大數據領域的具體實踐

統計學一直以數據作為研究對象,幾百年來深入不同領域進行研究,逐步發展出成體系的收集和分析數據的方法,這些統計方法旨在發現事物特征,探索事物規律。在面對大數據,統計學繼續發揮自己的作用,大數據的擁有者也在自發地進行統計工作。

3.1 統計工作發掘大數據中的價值

雙十一購物節作為全網購物狂歡節,吸引了億萬消費者參與其中,2019年全網成交額超過4000億,消費數據背后隱藏著巨大的價值。

中國人民銀行公布雙十一期間網絡支付業務數據:網聯、銀聯共處理網絡支付業務17.79億筆、金額14820.70億元,同比分別增長35.49%、162.60%?!?7.79億筆”指明了金融支付系統需要在雙十一當天完成交易筆數,這對其電子支付系統提出了嚴峻的挑戰。為此多家銀行、支付機構提前擴充系統資源、準備應急方案,在統計數據的幫助下,實現電子支付系統平穩運行。

京東雙十一購物節的數據顯示:3000元以上價位段手機銷量同比增長200%,70英寸及以上電視成交額同比增長超過400%,2000元以上高端美容器產品成交額同比增170%,有機牛奶成交額是去年同期四倍,定制旅游行產品成交額同比增長6倍。由統計數據得知:中國消費者需要更高端的電子產品,更有機的食品,更個性化的定制服務,追求品質化的生活。商家會傾向于提供更多的類似產品,消費者能夠獲得更豐富的產品。

根據國家郵政局的監測數據,雙十一全天各郵政、快遞企業共處理5.35億快件,是二季度以來日常處理量的3倍,同比增長28.6%。通過這些數據,物流行業能夠識別出物流壓力,并尋找合適的辦法撫平波動,充分利用社會資源,提高物流效率。

通過對數據的分類整理、定量計算,進行計數分析、分布特征分析、評價判定分析,結合實際應用場景,評估出數據統計特征背后的潛在價值。

3.2 統計工作探求事物規律

百度地圖發布了春運出行預測報告,基于鐵路車次大數據、高速公路信息大數據、地圖定位大數據等歷年春運出行數據的統計特征,對春運期間人口遷徙情況、交通擁堵進行了預測。通過統計分析得出了諸如:上海地區用車訂單或將是平日兩倍且易擁堵、泰國大皇宮熱度較高等具有指導意義的預判。

阿里巴巴以阿里電商數據為核心,基于網站瀏覽量、瀏覽人次、供求產品數量、公司數量等指標統計計算得出阿里指數。經過統計分析后發布市場行情、熱門行業的綜合趨勢,進一步提供產業內貿易聯系、行業上下游關系。

通過對數據的估計推算分析、動態預測分析、關聯關系分析、系統評審分析、數據挖掘分析,解釋信息要素之間關系,發現事物規律。

3.3 統計工作使用大數據工具

Python是一種面向對象的計算機程序設計語言,也是一種解釋性腳本語言。由于Python簡單易用、能夠快速處理大數據,在大數據時代被廣泛用作大數據處理工具,也成了統計分析的有力助手。第一,Python有專門的可算計算擴展庫,例如:NumPy(數組處理)、SciPy(數值運算)、matplotlib(繪圖功能)等,能夠幫助研究人員快速進行數值分析。第二,用Python可以寫簡單爬蟲,從而快速地獲取大量網頁數據,同時Pvthon提供了簡單的文檔處理功能,可以通過極短的代碼完成大部分文檔的處理。

大數據雖然量級大、種類多,但仍然是一種數據,一種統計學研究的對象。統計學作為方法論科學,結合大數據領域現狀,深入研究各類現實問題,形成一系列具有實際價值的實踐。4統計學在大數據領域面臨的問題

大數據領域給統計學帶來了新發展的同時,也給其帶來了更多的挑戰。統計學需要認真思考如何處理大數據帶來的問題,才能實現自我變革。

大數據和樣本。有人持有一種觀點:大數據不用隨機分析法(抽樣調查)這樣傳統的分析方法處理數據,而是對所有的數據進行分析處理,所以大數據是總體。雖然大數據量級大、大數據技術可以做到對全部數據進行處理,但是這并不意味著已經掌握的大數據就是總體。結合現實來講,已有數據不完全等同于所有數據,采集大數據的過程,只是從某一方面、某一時間段從遠遠不斷地信息流中抓取數據。大數據雖然大,但仍然是客觀事實的一個樣本。這就引發了一系列思考:采集的大數據能否具有充分代表性,通過對大數據(樣本)的分析能否獲得總體的特征。

非結構化數據和統計方法。在采集、記錄數據時,往往不知道這些數據有何用途,通常是為了記錄而記錄數據,這就導致了非結構化數據的大量存在。按照傳統統計方法,在獲取數據之前已經能夠明確目標數據的類型,統計方法的確定早于數據采集。在大數據領域,一方面統計工作通常晚于數據采集,另一方面需要從多個角度對大數據進行多種統計分析。如何處理非結構化數據對統計方法有很大影響。

大數據技術和統計工作者。大數據時代的來臨離不開信息技術的發展,傳統的統計工具不足以實現大數據的分析處理。統計工作者需要學習掌握大數據技術,結合統計方法,創造出大數據時代的統計工具,才能充分發掘大數據的價值。

5 總結

統計學作為一門綜合學科,從社會、經濟統計向多分支學科發展,統計的范疇已覆蓋了社會生活的一切領域,幾乎無所不包,成為通用的方法論科學。在互聯網蓬勃發展的年代,大數據領域陡然出現,既幫助統計學收集、處理數據,也向統計學提出了新的要求。統計學應該及時開拓進取,進行自我變革,擴展統計學的應用領域,創造大數據時代的統計方法。

參考文獻:

[1]符一平,淺談統計學在大數據時代面臨的機遇、挑戰及其發展趨勢[J].中國管理信息化,2016,19(14):245-246.

[2]朱艷麗.大數據背景下對統計學課程建設的思考[J].科技經濟導刊,2019(20):133-134.

[3]徐延軍,左宇曉,王茹川.大數據時代下的統計探討[J]市場研究,2019(9):24-26.

[4]趙博.基于大數據的戰略預見研究[D].北京:中共中央黨校,2016.

[5]張燕南,大數據的教育領域應用之研究[D].上海:華東師范大學,2016.

[6]李金昌,基于大數據思維的統計學若干理論問題[J].統計研究,2016,33(11):3-10.

[7]胡前防,連鵬偉,陳乾坤.Python在統計數據處理中的應用[J]市場研究,2019(8):33-35.

[8]齊慧.基于python的WEB數據挖掘技術實現與研究[J].軟件工程,2019,22(8):21-23.

[9]耿直.大數據時代統計學面臨的機遇與挑戰[J].統計研究,2014,31(1):5-9.

[10]劉旭.探析大數據時代對傳統統計學變革的思考[J].才智,2016(35):244.

[11]朱建平,張悅涵,大數據時代對傳統統計學變革的思考[J]統計研究.2016,33(2):3-9.

[12]打造“智能教育云”平臺標桿案例滬江與騰訊云達成戰略合作,新華網[EB/OL].http://www. xinhuanet. com/itown/2017-04/28/c_13 6242662.htm.

[13]透過“雙十一”數據單看中國消費市場新活力.人民網[EB/OL]. http://finance. people. com. cn/nl/2019/1112/c1004-3 1450983.html.

猜你喜歡
互聯網技術大數據統計學
關于投稿的統計學要求
統計學符號使用的說明
統計學符號使用的說明
本刊對來稿中統計學處理的有關要求
網絡時代大學生信仰教育問題探析
互聯網技術在廣播電視領域的應用與探究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合