?

大數據時代統計工作面臨的問題及對策

2016-11-27 16:02楊云渝
決策與信息 2016年35期
關鍵詞:統計數據結構化個體

楊云渝

云南省公路局 云南昆明 650041

大數據時代統計工作面臨的問題及對策

楊云渝

云南省公路局 云南昆明 650041

“大數據”的本質實際上是數據生產的社會化,其對統計工作的沖擊是重大的,不僅涉及到整個統計流程,更加對當前的統計管理體制、機構設置、數據價值等方面形成了挑戰。統計工作者必須正視這種變革,順應這種潮流,本文就大數據時代統計工作面臨的的問題及其應對策略進行探討。

大數據;統計工作;問題;對策

一、大數據時代統計工作面臨的的問題

(一)統計工作的硬件環境問題。影響數據處理的因素,歸結起來主要有計算、存儲和網絡三大方面的因素。數據計算要依靠服務器來實現,服務器整體表現出來的性能,是影響大數據處理的關鍵因素。大數據的“4V”特征使得統計數據在存儲、傳輸、分析、處理等方面均帶來本質變化,隨著統計數據量的快速增長,統計部門現有的存儲容量和技術、網絡帶寬能力等面臨挑戰。

(二)統計工作的數據質量問題。美國諺語云“除了上帝,任何人都必須用數據來說話”,數據質量如何,決定了說話的分量。我們仍然缺乏以數據為基礎的精確管理,有時甚至是刻意回避數據。隨著數據的公開細化程度不斷提高,由于部分民眾對統計指標和數據理解不確切,加上數據采集流程欠完善、地方政府干擾統計數據等原因導致部分統計數據質量不高,國民對統計數據的公信度較低。

(三)統計工作的數據應用問題。應用數據并不是簡單的數據匯總或數據羅列,而是要按照科學方法挖掘數據,對這些原始的數據進行加工、整理和上升為重要的結論。統計部門既是數據的生產者,又是數據的消費者,統計數據的應用應該貫穿政策倡議、決定、執行、評估、復議的全過程,通過數據來指導行動,用數據提高政府的決策效率和決策質量。

(四)統計工作的數據安全性問題。目前大部分統計原始數據由企業通過“一套表”聯網直報,在線對話活動頻繁;主要統計數據通過統計局域網直接公布更新;各種辦公軟件需要實名制操作,并捆綁固定IP或電腦物理信息?,F在黑客的組織能力、作案工具、作案手法及隱蔽程度非常之高,很容易通過對用戶數據的深度分析,了解個人用戶行為和習慣喜好等隱私,甚至企業用戶的商業機密等,數據安全性受到全面挑戰。

二、大數據時代統計工作的應對策略

(一)改變對樣本的定義方式。大數據是先有數據,再有總體。而不同網絡系統的相同符號也未必就是同一個個體,而且還經常存在個體異位的情況,但對大數據的分析,仍然有一個總體口徑問題,依然需要識別個體身份。這就需要我們改變總體與個體的定義方式。與此對應,如果要從大數據庫中提取樣本數據,那么樣本的定義方式也需要改變。當然,考慮到大數據的流動變化性,任何時點的總體都可以被理解為一個截面樣本。

(二)改變對不確定性的認識。對于大數據,仍然存在著個體的差異性,大數據的不確定性就不再是樣本的獲取與總體的推斷,而是數據的來源、個體的識別、信息的量化、數據的分類、關聯物的選擇、節點的確定,以及結論的可能性判斷等方面??梢哉f,大數據的不確定性只來自于其來源的多樣性與混雜性,以及由于個體的可變性所引起的總體多變性,而不是同類個體之間的差異性——因為我們已經掌握了一定條件下的完全信息。

(三)建立新的數據梳理與分類方法。對于大數據,由于新的網絡語言、新的信息內容、新的數據表現形式不斷出現,使得會產生哪些種類的信息、有哪些可以利用的分類標識、不同標識之間是什么關系、類與類之間的識別度有多大、信息與個體之間的對應關系如何等,都無法事先加以嚴格設定或控制,往往需要事后進行補充或完善。面對超大量的數據,我們只能從數據本身入手,從觀察數據分布特征入手。根據大數據的特點,創新與發展數據的梳理與分類方法,是有效開展大數據分析的重要前提。

(四)強化結構化數據與非結構化數據的對接。出于針對性與安全性考慮,如何既能有針對性地收集所需的結構化數據,又能從大量非結構化數據中挖掘出有價值的信息,使兩者相輔相成、有機結合,成了一個新的課題,值得探討的問題包括非結構化數據如何結構化或結構化數據能否采用非結構化的表現形式等。通過特定的方法,實現結構化數據與非結構化數據的轉化與對接是完全可能的。要實現這種對接,必須增強對各種類型數據進行測度與描述的能力。如果說傳統的基于樣本數據的統計分析側重于推斷,那么基于大數據的統計分析需要更加關注描述。

(五)歸納推斷法與演繹推理法并用。歸納推斷法是最主要的統計研究方法,而歸納推斷的依據通常是樣本數據。大數據是一個信息寶庫,光重視一般特征的歸納與概括是不夠的,還需要分析研究子類信息乃至個體信息,以及某些特殊的、異常的信息,還需要通過已掌握的分布特征和相關知識與經驗去推理分析其他更多、更具體的規律,去發現更深層次的關聯關系,去對某些結論做出判斷,這就需要運用演繹推理法。只要歸納法與演繹法結合得好,我們就既可以從大數據的偶然性中發現必然性,又可以利用全面數據的必然性去觀察、認識、甚至利用偶然性。

(六)統計技術與云計算技術融合。面對大數據中大量的非結構化數據,要求我們在不斷創新與發展統計技術的同時,必須緊緊依靠現代信息技術、特別是云計算技術。借助云計算技術可以將網格計算、分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術與現代網絡技術融合起來,把多個計算實體整合成一個具有強大計算能力的系統??梢?,統計技術與云計算技術的融合是一種優勢互補,只有這樣統計技術才能在大數據時代一展身手、有所作為,才能真正把統計思想在數據分析中得到體現,實現統計分析研究的目的。

[1]李金昌.大數據與統計新思維[J].統計研究,2014-3.

[2]程鑫.大數據時代傳統相關分析的局限與拓展[J].統計與決策,2015-5.

楊云渝(1981-)女,云南石屏縣人,云南省公路局主任科員,中級統計師。

猜你喜歡
統計數據結構化個體
創新視角下統計數據的提取與使用
改進的非結構化對等網絡動態搜索算法
深度學習的單元結構化教學實踐與思考
結構化面試方法在研究生復試中的應用
左顧右盼 瞻前顧后 融會貫通——基于數學結構化的深度學習
關注個體防護裝備
明確“因材施教” 促進個體發展
國際統計數據
2017年居民消費統計數據資料
How Cats See the World
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合