基于數據挖掘技術的數據類崗位招聘信息分析與研究

2024-04-14 02:12王姣姣姚華平

現代信息科技 2024年2期

王姣姣姚華平

DOI：10.19850/j.cnki.2096-4706.2024.02.004

收稿日期：2023-06-14

摘? 要：通過對招聘網站信息的挖掘分析了解崗位的需求分布和發展趨勢，能夠為求職者提供重要的指導。首先采用爬蟲技術獲取“拉勾網”和“前程無憂”招聘網站的數據類崗位相關信息，經過數據預處理，采用jieba分詞進行數據特征分析，以可視化形式展示數據類崗位數據分布特點，并得到福利待遇和公司類型的詞云圖；然后采用TF-IDF算法對五類數據類崗位的崗位要求提取關鍵詞，使得求職者能夠根據職位畫像選擇最佳崗位；最后基于LDA主題模型確定最優主題數，進而挖掘得到崗位要求。

關鍵詞：崗位需求分析；爬蟲技術；數據挖掘；可視化技術；LDA主題模型

中圖分類號：TP391? ? 文獻標識碼：A? ? 文章編號：2096-4706（2024）02-0013-05

Analysis and Research on Recruitment Information for Data Related Positions

Based on Data Mining Technology

WANG Jiaojiao， YAO Huaping

（Luoyang Institute of Science and Technology， Luoyang? 471023， China）

Abstract： By mining and analyzing information from recruitment websites， we can understand the distribution of job demands and development trends， which can provide important guidance for job seekers. Firstly， crawler technology is used to obtain relevant information on data related positions on the recruitment websites of “Lagou Net” and “51job”. After data preprocessing， Jieba segmentation is used for data feature analysis to visually display the distribution characteristics of data in data related positions， and a word cloud map of welfare benefits and company types is obtained; then， the TF-IDF algorithm is used to extract keywords from the job requirements of five types of data related positions， enabling job seekers to select the best position based on the job profile; finally， based on the LDA topic model， the optimal number of topics is determined， and then job requirements are mined.

Keywords： analysis of position requirement; crawler technology; data mining; visualization technology; LDA topic model

0? 引? 言

如今數字經濟席卷全球，網絡招聘信息平臺現已成為企業發布招聘信息和求職者找工作的主要渠道，相比于傳統的招聘方式，網絡招聘沒有空間和時間的限制，且招聘信息全、工作機會多，也避免了地域性限制，求職者可以通過在網上投簡歷從而找到心儀工作[1]。在此背景下，也可以發現目前Web招聘網站發布的招聘信息最能反映市場對技能的需求，其中就包含了公司對各類求職者在學歷上、技能上、工作經驗等一些具體要求，但這些招聘信息都是存儲在網站上，只是對求職者的無組織的文本信息，需要求職者花費大量的精力去篩選與自身能力匹配的崗位信息，而通過對這些信息進行有效的詳細分析和文本挖掘，可以準確獲取企業用人需求分布以及發展趨勢，給求職者提供有效幫助。本文從招聘網站對數據類崗位的社會需求入手，從拉勾網和前程無憂招聘網站兩大主流招聘網站爬取信息，利用大數據技術和文本挖掘方法，對崗位信息進行分析，挖掘得到企業對數據類人才技能的特征，掌握數據類崗位用人特點，對于廣大求職者來說，這些信息具有重要參考價值。

1? 技術介紹

1.1? Python語言

Python是一種動態解釋型的編程語言，具有面向對象的特性，提供了內置的數據結構[2]，包括元組、列表、字典、集合等，擁有大量的現成庫，廣泛用于數據分析、網絡爬蟲以及Web開發等。近年來隨著人工智能、數據科學的興起，Python使用量呈線性增長，成為目前世界上最受歡迎的編程語言之一[3]。

1.2? Echarts工具

Echarts的全稱為Enterprise Charts，是一個使用JavaScript實現的開源可視化庫[4]，提供了豐富的圖表庫，包括樹圖、餅圖、熱力圖、關系圖等多種圖表類型。使用Echarts能夠實現圖形的動態展示，增強了界面的美觀性。并且Echarts能夠實現與數據庫的交互，常被用來制作可視化大屏[5，6]。

1.3? TF-IDF算法

詞頻-逆文件頻率（Term Frequency-Inverse Document Frequency， TF-IDF）用于詞條的加權，本質上是作為一種統計方法計算一個字詞在一篇文章中的重要程度[7]。在一篇文章中，一個詞語的重要程度往往與它的出現頻率成正比，但是又會隨著它在語料庫中的出現頻率成反比。因此，當一個詞語在一篇文章中出現的頻率越大，同時又在語料庫中出現的頻率越少，說明這個詞語比較能夠表達文章的主題。

詞頻（Term Frequency， TF）為詞條出現在文本中的頻率[8]，通常情況下會對其進行歸一化，防止它偏向長的文件。TF用公式表示為：

（1）

其中，ni， j為詞條ti在文檔dj中出現的次數，TFi，j為詞條ti在文檔dj中出現的頻率。

逆文件頻率（Inverse Document Frequency， IDF）為詞條的普遍程度。IDF用公式表示為：

（2）

其中，| D |為所有文檔的數量，| j：t_i ∈ d_ j |為包含詞條t_i的文檔數量，為了防止包含詞條t_i的數量為0而導致運算出錯，對| j：t_i ∈ d_ j |進行加1。

TF-IDF就是詞頻與逆文件頻率的乘積，其公式為：

（3）

TF-IDF的范圍可以從0到無窮大，當一個詞語在文本中沒有出現時，TF值為0，TF-IDF值也為0，當一個詞語在文本中出現的頻率越高，TF值越大，TF-IDF值也越大。當一個詞語在整個文本集合中的重要程度越高，則TF-IDF值越大[9]。

2? 數據獲取與預處理

2.1? 數據采集

網絡爬蟲（又被稱為網頁蜘蛛、網絡機器人）主要是一種程序，通過程序模擬瀏覽器向服務器發送網絡請求，在服務器接收請求響應后，按照一定的規則，自動地抓取信息，進行批量的數據下載[10]。爬蟲的具體流程如圖1所示。

2.2? 數據保存

通過對“拉勾網”和“前程無憂”兩個網站全國的數據類崗位進行爬取，共采集了23 000多條數據。此次采集的數據含有：崗位名稱、工作地點、工作經驗、學歷要求、薪資水平、融資階段、公司規模、行業領域、職位標簽、福利待遇等。將獲取的數據存儲至csv文件中。部分采集結果如圖2所示。

2.3? 數據預處理

2.3.1? 結構化數據預處理

對于結構化數據的預處理是先使用Excel自帶的刪除重復項功能對全局進行重復項刪除，像工作經驗和公司類型數據，通過指定分隔符進行分割，像爬取的崗位薪資列是一個范圍，所以使用split函數指定分割符將其劃分為最高工資和最低工資，并將其轉化為整型后計算平均薪資，便于后期進行數據分析。

2.3.2? 非結構化數據預處理

在采集的數據中，存在部分的文本數據，如：福利待遇、公司行業領域、崗位職責和崗位要求等。對于這些非結構化的文本數據通過Python的jieba分詞庫對其進行中文分詞。jieba分詞支持以下三種分詞模型[11]：

1）精準模式：精確的切分文本，沒有冗余。

2）全模式：將文本中有可能是詞語的都進行掃描，速度較快，存在冗余。

3）搜索引擎模式：在精準模式的基礎上，對長詞再次切分。

本文采取全模式對文本數據進行分割，但是由于中文語言的不確定性，并且數據類崗位有一定的特性，在崗位要求描述上存在許多技能性的詞語，在一定程度上會影響分詞結果。所以對特殊的關鍵性詞語構建技能詞典，部分技能特征詞如表1所示。

通過jieba.load_userdict函數加載自定義的詞典，對文本數據進行分詞[12]，分詞后的詞匯中有很多詞匯如：“或”“的”“等”。這類詞語對于我們后期提取數據類崗位特征詞是沒有意義的，因此將以上這些語氣詞、介詞、標點符號等統一作為停用詞對上述分詞結果進行過濾，本文采用百度停用詞表并做部分修改，如表2所示。

通過加載停用詞后，對jieba分詞的結果進行遍歷，過濾掉停用詞。將停用詞過濾結果進行保存，經過上述分詞后的數據便于后期進行可靠的文本挖掘分析[13]。

3? 實驗結果分析

3.1? 數據類崗位特征可視化分析

使用可視化技術對數據類崗位進行分析，從學歷來看，學歷占比排序為本科>大專>學歷不限>碩士>博士，本科占比為86.49%，說明招聘以本科學歷為主，如圖3所示；從薪資來看，可以看出整體上來看學歷與薪資呈正比例關系，學歷越高則薪資水平越高，但差別不大，高出范圍并不明顯，如圖4所示。

3.2? 基于文本的詞云圖分析

對福利待遇和公司類型數據進行jieba分詞后統計詞頻制作詞云。先將分詞結果放入txt文件中，引入第三方庫WordCloud根據詞頻生成詞云圖[13]，結果如圖5和圖6所示。

由圖5和圖6展示的詞云圖結果可知：福利待遇在五險一金、六險一金、雙休、氛圍、帶薪年假等出現的詞頻較高。而發布的數據類崗位招聘需求的公司，其中做服務咨詢、數據服務、軟件服務、技術服務、電商和短視頻的占比較大。

3.3? 基于TF-IDF的數據類職位網絡架構

對進行分詞處理后的數據分析工程師、數據挖掘工程師、數據開發工程師、數據運維工程師、數據庫工程師這5類數據類崗位的崗位要求分析結果進行TF-IDF權重計算，結果如表3至表7所示。

通過上述TF-IDF對數據分析、數據開發、數據挖掘、數據運維、數據庫5類崗位的關鍵詞權重計算結果，選取權重最大的10個關鍵詞，通過Echarts繪制網絡圖，如圖7所示。

從網絡圖的展示結果可知每個崗位對應的各個關鍵詞，說明這些是從事數據類崗位必須掌握的技能；不同類型的數據類崗位之間含有相同的關鍵詞，如數據庫、Linux、Python等，說明行業之間有著技術交

叉，需要求職者具備這些基礎技能；各個數據類崗位分別有著各自唯一關鍵詞，說明這是該崗位區別于其他崗位需要的必備技能，對于求職目標明確的求職者來說可以有重點地增加該技能?？傊?，根據這些職位畫像，求職者可以結合自身實力來選擇適合自己的崗位。

4? 結? 論

本文首先采用爬蟲技術獲取招聘網站數據類崗位信息，通過去重、去異常值、設停用詞以及分詞等預處理，對信息中的地區、學歷、薪資等關系進行分析并以可視化形式進行展示，最后使用數據挖掘算法得到崗位要求關鍵詞，為求職者提供準確有效的參考。通過對網絡招聘信息的分析與挖掘，可以掌握當前社會數據類行業的需求特點與發展趨勢。根據分析挖掘結果，可以讓相關求職者有針對性地補充專業知識，增強對口技能，也能方便計算機相關專業學生了解自己應該掌握的技能側重點以及學校對工作單位所需要的人才的技能進行有針對性的培養。本次研究結果具有為高校的人才培養以及大學生自身能力構建、就業選擇以及職業規劃等提供參考依據的意義。

參考文獻：

[1] 徐晗，趙鑫.互聯網時代網絡招聘面臨的機遇、問題及對策分析 [J].江蘇科技信息，2022，39（20）：53-56.

[2] 宋永生，黃蓉美，王軍.基于Python的數據分析與可視化平臺研究 [J].現代信息科技，2019，3（21）：7-9.

[3] 鐘機靈.基于Python網絡爬蟲技術的數據采集系統研究[J].信息通信，2020（4）：96-98.

[4] 任妮，吳瓊，栗薈荃.數據可視化技術的分析與研究 [J].電子技術與軟件工程，2022（16）：180-183.

[5] 謝美英.基于Anaconda的嬰兒用品數據爬取及可視化分析 [J].現代信息科技，2021，5（14）：90-93.

[6] 馮洪熙，王林，魏嘉銀，等.基于回歸分析的網絡招聘信息爬取及可視化 [J].現代信息科技，2021，5（10）：1-5.

[7] 劉宇韜，施莉，劉詩含.基于TF-IDF與Word2vec的用戶評論分析研究 [J].成都航空職業技術學院學報，2022，38（4）：89-92.

[8] 鐘曉旭.基于Web招聘信息的文本挖掘系統研究 [D].合肥：合肥工業大學.

[9] 殷漫漫.基于電商化妝品評論主題的挖掘研究——以京東平臺化妝品為例 [J].營銷界，2022（21）：161-163.

[10] 馮曉磊.基于Python的拉勾網網絡爬蟲設計與實現 [J].現代信息科技，2023，7（6）：85-87+91.

[11] 陳佳楠.招聘網站中數據分析類崗位的現狀及其影響因素 [D].桂林：廣西師范大學，2020.

[12] 劉暢.基于Web文本挖掘的數據分析崗位需求研究 [J].中國管理信息化，2018，21（10）：76-79.

[13] 涂曉彬.基于大數據技術的網絡招聘崗位需求分析方案 [J].信息技術與信息化，2022（12）：31-34.

作者簡介：王姣姣（1994—），女，漢族，河南洛陽人，助教，碩士，研究方向：大數據技術、計算機應用；姚華平（1976—），女，漢族，河南洛陽人，講師，碩士，研究方向：軟件工程、計算機應用。

現代信息科技2024年2期

現代信息科技的其它文章: 基于GIS的自然資源確權登記數據平臺建設與應用; 基于區塊鏈技術的福州大學校慶數字藏品設計與實現; 基于K-means的駕駛行為離散化特征聚類分析與研究; 基于聯盟鏈和IPFS的教育公益捐贈方案與平臺設計; 基于時空數據融合技術的人員軌跡預測系統設計; 基于nFLH的2017—2021年間福建海域赤潮的時空分布特征分析