?

基于Hadoop技術的大數據就業崗位數據分析

2021-12-18 12:35梁天友邱敏
電腦知識與技術 2021年31期
關鍵詞:統計分析可視化大數據

梁天友 邱敏

摘要:大數據是一門新興技術,為了進一步了解與之有關的就業崗位情況,通過使用Java程序爬取出真實的大數據就業崗位數據,再結合Hadoop技術進行統計分析,最后使用可視化技術呈現大數據技術崗位不同地區招聘的薪資、數量、職業技能需求等詳細信息,為各應聘者做參考和決策分析。

關鍵詞:大數據;崗位招聘;Hadoop;統計分析;可視化

中圖分類號:TP391 ? ? ?文獻標識碼:A

文章編號:1009-3044(2021)31-0047-04

Big Data Employment Data Analysis Based on Hadoop Technology

LIANG Tian-you, QIU Min

(School of Information Engineering, Nanning University, Nanning 530200,China)

Abstract: Big data is a new technology, in order to further understand the related employment situation, through the use of Java program climb out real big jobs data, combining the Hadoop technologies were analyzed, and finally using visualization techniques to present big data technology jobs in different area, the hiring salary, quantity, detailed information, such as professional skill requirements for the candidates for your reference and decision analysis.

Key words: Big data; Job recruitment; Hadoop; Statistical analysis; visualization

據IBM統計,全球近90%的數據是在過去2年中生成的,每天都在增加2.5 EB(1 EB=1 024 PB)數據。其中,約有90%的數據是非結構化的。所以這些來自網絡和云平臺的大數據為價值創造和商業智能提供了新的機會。隨著大數據的到來,大數據崗位人才稀缺,治理大數據技術問題成為政府和各公司的問題【1】。政府治理(government governance)主要管理政府大數據和利用政府大數據,收集突發公共安全、突發衛生健康、犯罪、自然災害、恐怖主義、國防等,并且向社會輸送大數據技術人才,根據教育部公布的2017-2020年普通高等學校本科專業備案和審批結果顯示,獲批新增“數據科學與大數據技術”專業的高校高達616所【2】。公司治理(corporation governance)以信息技術(information technology)治理,即IT治理為主,更新技術處理設備,招納大數據技術人才。

在如此的大數據技術背景下各公司會把所需人才崗位發布到互聯網上,求職者根據自身需求和技能對位各公司的崗位,而使用爬蟲和大數據相關技能爬取、統計、分析出來的數據能夠幫助求職者起到一個借鑒和決策的作用。

1研究數據及技術方法

本次研究以Java和Hadoop技術為基礎,“大數據”為關鍵詞,爬取某IT互聯網招聘網站各公司的招聘信息到Hadoop分布式文件系統(HDFS)上,爬取信息包括地區、崗位名稱、薪資、教育背景、經驗要求、公司福利六個字段,對爬取的數據進行處理后存儲在Hive數據倉庫上,使用MapReduce對數據進行統計分析,然后再使用大數據遷移工具Sqoop把數據導入到本地MySQL數據庫中,最后按地區招聘數量、薪資、教育背景、經驗要求、公司福利等使用Echarts進行可視化分析展示。

1.1 Hadoop

Hadoop是一個由Apache基金會旗下的開源分布式系統基礎架構。具有高可靠性、高效、高可擴展性、高容錯性、低成本、支持多種語言編程等特點。它可以充分利用集群的威力實現高速運算和存儲。Hadoop有兩大核心分別是分布式文件系統(Hadoop Distributed File System)和MapReduce。HDFS是針對谷歌文件系統(Google File System,GFS)的開源實現,具有高容錯性、較高的讀寫速度、可伸縮性支持大規模數據存儲等特點。HDFS放寬了一部分(relax)POSIX的約束,可以實現以流的形式訪問(streaming access)文件系統中的數據。MapReduce是針對谷歌MapReduce的開源實現,為海量的數據提供了計算,并且允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序。

1.2 Sqoop

Sqoop是一款開源的工具,是SQL-to-Hadoop的縮寫,主要用于在Hadoop與傳統的關系型數據庫間進行數據的交換,可以將一個關系型數據庫(如:MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。主要通過JDBC(Java DataBase Connectivity)進行交互【3】。

1.3 Echarts

Echarts是一個純Javascript的圖表庫,通過Web頁面引入該庫,就可在PC和移動設備的瀏覽器中以表、圖等方式繪制數據。通過輕量級ZRender類庫內部的MVC(Stroage(M)、Painter(V)、Handler(C))封裝,開源實現圖形的顯示、視圖渲染、動畫擴展和交互控制等,為用戶提供了生動、直觀、可交互、高度個性化設計的可視化圖表。Echarts具有支持多種坐標系獨立使用與組合、可按需打包、支持大規模數據顯示、支持多維數據顯示、可通過圖表的方式展現動態數據等特點【4】。

1.4整體流程

此項目整體構架與流程如圖1所示:

2 研究結果及分析

本次項目爬取了450條崗位信息發布記錄,包含了全國18個熱門城市,即此網站18個熱門城市中大數據技術崗位需求量至少為450。大數據崗位職稱有93個,其中大數據開發工程師和大數據架構師獨占多數,大數據崗位所要用到的技術包括了Hadoop、Spark、Java、數據倉庫、Flink、ETL、Python等91種,學歷包括了不限學歷、大專、本科、碩士,工作經驗在0到10年之間。

2.1地區崗位需求量

從數據分析及可視化展示圖2可知,全國18個城市地區大數據技術崗位需求量各不相同,其中,北京市需求量最高,占比29.56%,其次往下的是上海和深圳,分別達到了18.89%和16%占比量的崗位需求,石家莊、蘇州、金華和青島對大數據技術崗位需求比例最少。分析原因,后者這幾個城市科技發展和經濟發展沒有前者高,而北京市的中關村又是科技之鄉,所以對于處理數據方面的需求后者沒有前者高。

2.2大數據崗位薪資情況

從數據分析及可視化展示圖3和圖4可知,全國大數據崗位薪資最高為100k,最低為3k,大數據技術崗位薪資大多集中在10k-30k之間,低于6k的很少。由圖5可知在城市大數據崗位平均薪資上,可以看出北京的大數據崗位的平均薪資最高,達到27.7k,后四位為金華、杭州、上海、深圳。分析原因,北京有字節跳動、美團、京東、百度、新浪等互聯網巨頭的加持、并且這些企業產生的數據量都是巨大的,所以要引入具有大數據技術高技術人才處理這些海量的數據,類似的,其他企業也需要技術型人才處理他們公司的數據,所以這些企業帶動了崗位工資的提升,而后四位平均薪資也不低于23k,這是由于這幾個城市都是我國的經濟發展區并且都與國際對軌,高新科技發展也都離不開這幾個城市,公司注冊總數也在全國前列,所以這些公司也會花上巨資來鞏固公司的數據量與安全。而平均薪資最低的城市也不低于9.8k,從此可以看出各個地方對于大數據技術人才都比較渴望,也可以看出對于大數據技術崗位的未來也擁有光明的前景。

2.3教育背景及經驗分析

從數據分析及可視化展示圖6可知,各公司對求職者學歷上的要求占比最多為本科,占比88.89%,而不限學歷的占比僅為3.33%,由此可知在應聘大數據這些崗位上學歷的確是塊敲門磚,而針對于大數據這門技術開設的專業本科院校就高達616所。再從圖7看,平均薪資對學歷最高的也為本科,由于國內市場的需求和本科院校開設專業的原因,國內各公司都肯花錢聘請本科層次以上的大數據專業人才來處理公司產生的大量數據。從圖8和圖9分析圖可知,各公司對于招聘的要求不僅是學歷的要求,在工作經驗上也要做上1到3年,一部分企業還要招聘工作經驗在6年以上的,因為很少有企業把自己公司的數據交給一個本科在讀或是剛畢業的年輕小伙去處理,不僅加大了處理數據的時間,還加大了數據安全的風險,得不償失。而薪資方面,當然也是工作經驗越久,薪資也就越高。

2.4技能分析

從數據分析及可視化展示圖10可知,絕大多部分企業需要求職者掌握Hadoop、Spark、Java等技能,因為現在主流的大數據框架都是Hadoop和Spark,而這兩個開源集群的大數據計算集群底層是用Java語言編寫,所以各公司會讓你了解熟悉Hadoop和Spark的生態環境,再用Java語言去開發編寫相應的程序處理數據集。圖11為大數據崗位需要掌握的主流開發技能薪資對比,從數倉建模再到大數據生態環境各組件的熟悉,也體現了學習大數據環境技能所對應的價值。

2.5公司福利分析

從數據分析及可視化展示圖12可知,全國大部分企業都有帶薪年假、五險一金、績效獎金、彈性工資、年底雙薪這五項福利,而往后的幾項福利也很不錯,這些都是公司特色,同時也可以吸引有技術的求職者入職,在同等薪資的情況下福利越好越吸引人,求職者也可以按照自己對福利的需求來選擇合適企業。

2.6總體分析

從以上的可視化分析,再結合所獲取的數據可以得知,北京、上海和深圳這三個城市是大數據崗位需求量最大的城市,同時也是薪資最高的城市,這也取決于這三座城市經濟的快速發展和國際化,面對大數據人才缺口,這些城市的企業都會花上重金去聘請有能力的大數據技術人才,隨著時代的發展,大數據的普及,大數據技術應用的領域越來越廣,醫療、公共衛生、人口普查、智能科學等都能夠應用上,所以大數據所帶來崗位也越來越多,其他城市的企業也同樣重視大數據領域技術的應用,所以也會從薪資上福利上想盡辦法吸引大數據人才,大部分企業的需求都是本科畢業,工作經驗在3-5年,熟悉大數據集群Hadoop或Spark的生態環境并用Java語言去開發,這也為現在開設數據科學與大數據技術專業的高校提供了教學方向,讓學生在學校就能吸收到實踐項目所帶來的經驗與方法,對以后就業就有很大的幫助,而社會自學者也可以根據崗位需求不斷調整學習方向和吸收開發經驗就可以跨上更好的公司升職加薪。

3結束語

此次爬取分析也為大數據技術實現的基本流程之一,包括了數據爬取、數據清洗、數據轉換、數據導入與導出、數據分析再到可視化的過程,爬取的數據量雖然不是很多,但是也基本能體現大數據技術崗位上的整體狀況?;ヂ摼W招聘由于時代的發展,也成為IT人員應聘的主流方式之一,獲取其中數據,分析挖掘便可得知未來規劃發展的方向,大數據崗位求職者閱讀此文章也可以為自己的職業規劃與選擇做出合理的決策做參考。

參考文獻:

[1] 楊孟輝,杜小勇.政府大數據治理:政府管理的新形態[J].大數據,2020,6(2):3-18.

[2] 梁婷婷,邱素貞,陸珊.本科層次大數據人才需求可視化分析[J].智能計算機與應用,2020,10(4):276-279.

[3] 林子雨.大數據技術原理與應用[M].北京.2版:人民郵電出版社,2017:28-32.

[4] 何光威.大數據可視化[M].北京:電子工業出版社,2018.

【通聯編輯:唐一東】

收稿日期:2021-06-25

基金項目:本文為南寧學院大學生創新訓練項目階段性成果,項目名稱:視途,視在必行——大數據可視化分析服務,項目編號:202011549097

作者簡介:梁天友(1999—),男,廣西人,本科在讀,專業:數據科學與大數據技術;邱敏(1998—),女,廣西人,本科在讀,專業:數據科學與大數據技術。

猜你喜歡
統計分析可視化大數據
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運行動態分析與可視化展示
基于CGAL和OpenGL的海底地形三維可視化
“融評”:黨媒評論的可視化創新
如何發揮新時期統計工作的作用之我見
以統計分析為基礎的房地產稅收優化分析
SPSS在高校圖書館服務體系中的應用研究
基于大數據背景下的智慧城市建設研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合