?

大數據背景下數據科學分析工具現狀及發展趨勢

2019-07-24 10:33周琪棟薛冰潔
智富時代 2019年6期
關鍵詞:大數據背景發展趨勢

周琪棟 薛冰潔

【摘 要】在大數據背景下,利用云計算等智能型平臺對大數據進行相應的分析,已經成為一種必然的趨勢,而開放式共享與個性化定制也逐漸成為軟件發展的一種主流途徑。本文基于大數據背景下,首先介紹了數據科學分析工具的發展現狀,接著探討了數據分析工具在未來的發展趨勢,以期為相關人員提供一定的參考。

【關鍵詞】大數據背景;數據科學;發展趨勢

大數據的出現,也衍生出一門全新的科學——“數據科學”,其作用則是利用自動化的方式去分析大量的數據,然后從中得到一些有用的信息。但是從現階段的發展現狀來看,數據分析工具在實際應用的時候,還面臨著一些難題,基于此,相關人員就應該強化對這些數據分析工具的研究工作,著重突顯出大數據的分析能力。

一、數據科學分析工具的現狀

大數據正改變著人們的生活方式和思維模式,對于文化和一些學術研究也產生了一定的影響。一方面,大數據時代給各個學科領域都帶來了一些機遇,將“知識范式”逐漸的轉變成為“數據范式”。但是另一方面,也增加了數據獲得與儲存的難度性,各個學科領域中的傳統知識與新興數據之間的矛盾也愈加突出,當傳統知識已經無法有效的適應現階段的新型知識時,就會促使傳統理論和方式發生一些革命性的變化。同時,從現階段的發展情況來看,大數據已經受到了各個領域的高度重視,也成為計算機學和統計學等多個科學領域研究的重點內容,這也表示當前不同領域中數據研究開始向著一個高度融合的趨勢發展。

二、現階段數據科學分析工具面臨的挑戰

(一)數據的多樣性

大數據可以看作是數據科學的一部分,無論是在科學領域,還是在教學范疇中,都為這些行業的發展提供了巨大的機會,但是在發展的過程中,也存在著諸多的挑戰。首先就是數據格式的多樣化,當我們開始進入大數據時代的時候,數據量也會有所上升,數據的格式也開始向著一個多樣化的方向發展。如企業、銀行的數據一般是以文本的形式存在的,而YouTube中的數據則是以視頻或者是語音的方式出現。這些數據形式除了傳統的關系數據之外,還包含了一些網頁搜索、電子郵件和社交媒體軟件等,這些實際上就是屬于一種非結構和半結構的數據。因此,在面對數據量如此龐大的情況下,就要求在應用數據分析工具的時候,最好是可以將結構與非結構的數據有效的聯系在一起。

(二)傳統數據算法的失效

現階段,數據科學還沒有一個比較明確的基礎理論,所以人們對于它的定義也各不相同。而在進行數據分析的時候,就需要選擇一個有效的數據算法,傳統的數據算法是聚類算法,這是一種非常典型的N立方規模,當N變大的時候,一些方式就會實效。因此,在如此龐大的數據背景下,就必須要選擇一些適合時代發展的數據算法,這樣才能更好的應對PB級別的數據。此外大數據還具備實時性的特點,這種情況下,就需要在準確性與實時性之間選擇一個比較平衡的方式。

三、數據科學分析工具的發展趨勢

(一)一體化和可視化的發展趨勢

科學大數據智能分析中包含了數據處理、分析,而現有的大數據框架和平臺中,也存在著曲線高、開發代價大的問題。因此,在傳統化的“編程式”的開發模式中,還需要為該領域的科學家們提供一些簡單而且方便的“拼裝式”發展環境。最好是利用一些高質量以及可重復的模型與算法,這樣在進行大數據分析的時候,就可以實現數據集中、流程設計等一體化的支撐體系。例如Data Analytics,這是一種輕量級的業務數據可視化分析平臺,可以將各種數據源類型和海量的數據集合在一起,然后接入Excel等數據文件和服務平臺等,這樣便能輕松的整合相關業務。數據分析實際上就是數據處理的重點內容,但是如果最后分析的結果是正確的,但是缺乏一個合適的方式來解釋它的結構,這就會讓用戶難以理解。而直觀有效的展示出整體的分析結果,往往更容易讓人接受數據分析所傳遞的信息。尤其是在大數據背景下,龐大而且繁瑣的數據量,能夠幫助人們更為直觀的去發現數據中潛在的信息與知識,而可視化的發展則是最為有效的方式之一。

(二)云服務的發展趨勢

云服務的科學大數據智能分析軟件,不需要在本地進行數據的安裝和維護,一方面,瀏覽器逐漸成為數據挖掘與分析的一種工具,另一方面,模型和數據源則是以在線API的形式進行共享與復用,這一種形式也可以被稱之為“功能性的服務”。同時,大數據時代下,則是要求數據科學分析工具可以更好的適應海量數據的分析工作,其次,數據的價值同數據的種類之間也有著一定的聯系,通常情況下,數據種類越多,那么包含的信息量也就越大,挖掘的潛在信息也越多。因此,為了實現全數據分析的發展,就要求數據分析工具應該具備一些格式多樣化的分析模式。無論是直接統計分析,還是可視化分析,數據科學工具對于數據的建設都具有積極的作用,例如Keras數據分析工具,這是使用Python編寫的開源神經網絡庫,通過深度神經網絡來進行實驗,就可以直接運行微軟Cognitive,它的優勢點在于高位模式匹配。同時,在圖像和自然語言的處理中,也支持一些完善的深度學習分析模式,在實際應用的時候,可以節省掉大量的時間。而在添加這項新工具時的主要標志則是讓數據科學家的工作變得更加的簡單。

(三)開放共享的發展趨勢

交叉科學在發展的過程中,包含了多領域的分析模型與算法,匯聚跨領域的共性模型,實際上可以形成一種類型豐富而且性能優異的算法庫,這極大的降低了該領域交叉綜合分析模型的開發難度,提高了整體的開發效率。同時,各個領域科學團隊也通過共享的模型和算法,讓軟件系統得以繼續的演練,系統更具備吸引力。例如R語言算法庫,這就是CRAN交叉領域算法的一種典型,而且從現階段的發展情況來看,這種算法在未來也會有非常廣的應用空間。除此之外,在數據時代下,如果僅僅是依靠單一的數據分析工具,這是無法滿足現階段的發展需求的,而采用開放共享的模式,用于提高系統的擴展性已經成為一種必然。在這種情況下,R語言則受到了很多數據科學專業人員的喜愛,它能幫助科研人員更加簡單和專注的進行數據科學研究。具有非常復雜的機器學習和統計作用,可以快速的查看平均值、中位數,還能創建圖表,以及創建測試數據集,輕松的共享并導出CSV格式。

四、結束語

在傳統的數據研究中,主要是強調將一些復雜的數據轉變成為簡單的數據。而在大數據背景下,如果可以更加有效的組織和使用這些數據,人們才能更好的利用科學技術來推動現代社會的發展。因此,在數據分析工具不斷發展的過程中,準確、高效的利用數據中的潛在價值,實際上就是衡量數據分析工具的關鍵所在。當數據科學逐漸成為一門獨立性學科的時候,相關的研究人員也應該完善相應的理論技術和學科技術,這樣才能被更多的人所理解與認同。

【參考文獻】

[1]徐禮文. 大數據背景下工科院校理學院數據科學創新團隊與平臺建設[J].教育教學論壇, 2017(22):95-96.

[2]佚名. 數據科學與大數據人才專業課程體系分析[J].計算機工程與科學, 2018, 40(z1).

[3]數據科學研究的現狀與趨勢[J].計算機科學, 2018, 45(1):1-13.

猜你喜歡
大數據背景發展趨勢
淺析大數據背景下財務工作問題與創新
大數據背景下企業績效管理的探討
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合