?

融合語義特征和統計特征的虛假招聘檢測模型?

2024-01-23 13:38謝寧寧楊新凱
計算機與數字工程 2023年10期
關鍵詞:級聯職位語義

謝寧寧 楊新凱

(上海師范大學 上海 200000)

1 引言

近年來,網絡招聘已逐步成為企業招聘人才的首選方式。然而,網絡招聘平臺由于其開放性以及相關制度不健全等原因,使得一些不法企業可以利用其功能發布虛假招聘信息,吸引求職者上鉤,謀取不正當利益。虛假的招聘信息可能使求職者陷入就業詐騙,造成經濟、精神損失。更有甚者,部分求職者被騙入傳銷組織,危害人身安全。虛假招聘信息是指不以招聘人才為目的或招聘內容具有煽動性且缺乏真實性的招聘信息。將虛假招聘信息檢測抽象為二分類問題,通過算法區分出招聘信息的真假,可以有效降低就業詐騙的發生率。

2 相關工作

目前常用的虛假信息檢測方法有基于統計特征的機器學習方法和基于語義特征的深度學習的方法[1]。Vidros 等基于文本挖掘的方法,對招聘信息中特殊短語、HTML 元素等進行分析,提出了21個基本特征表示招聘信息,使用隨機森林進行分類[2~3]。Mahbub 等對公司介紹進一步挖掘,將公司介紹中是否提供網址、網站成立是否大1 年等統計特征加入到基本特征集中,提升了模型性能[4]。lal等沿用了Vidros 提出的21 個基本特征,使用集成方法構建虛假招聘信息檢測模型[5]。Alghamdi 等使用SVM 進行特征選擇,提升了隨機森林的預測效果[6]。Mehboob 等首先基于企業特征、職位特征和薪資特征構建了24 個統計特征表示招聘信息,然后使用互信息和相關系數選擇了13 個重要特征,輸入XGBoost 進行分類[7]。李力釗[8]、李奧[9]等將謠言檢測問題抽象為基于語義特征的文本分類問題。馬鳴將語義特征和統計特征結合,識別謠言信息[10]。黃學堅等將謠言內容的語義特征、統計特征和用戶特征融合,提升了謠言檢測的準確率[11]。研究表明,在語義特征中,引入輔助特征能夠有效提升模型的準確率??紤]到職位描述語義對于區分招聘信息的重要作用和級聯森林優秀的分類性能[12~13],本文提出一種融合語義特征和統計特征的卷積級聯森林檢測模型。

3 卷積級聯森林檢測模型

Word2Vec-CNN 是一種提取文本語義特征的基準模型,常用于情感分析領域[14]。本文的研究是在Word2Vec-CNN 的基礎上進行的。本文提出的模型一共包含四個部分,首先,基于招聘行為分析構建招聘信息的統計特征。其次,使用Word2Vec-CNN 提取職位描述的語義特征。然后,將招聘信息的統計特征通過全連接神經網絡映射成和語義特征相同的維度,進行融合特征。最后,將融合后的特征向量輸入級聯森林分類器檢測虛假招聘信息。

圖1 檢測模型框架

3.1 統計特征提取

基于文獻研究[15],從企業信息、職位信息和薪資信息三個方面分析招聘行為的差異,提取統計特征。

基于企業信息的統計特征描述了企業的可信度??尚哦仍礁叩钠髽I,越重視企業形象的維護,發布虛假招聘信息的可能性越低。從招聘信息庫中抽取基于企業信息的統計特征為企業名稱(FE1)、企業性質(FE2)、企業介紹(FE3)、實名未認證(FE4)、企業規模(FE5)。

基于職位信息的統計特征描述了求職者需要完成的工作、應當承擔的責任和勝任職位的基本要求。真實職位的職位描述一般是客觀的,沒有明顯的感情傾向。虛假的招聘職位通常使用感嘆號、問號加強語氣或在子標題處標注薪資,誘導求職者投遞簡歷。從招聘信息庫中抽取基于職位信息的統計特征為職位標題(FP1)、招聘人數(FP2)、學歷要求(FP3)、經驗要求(FP4)、工作地點(FP5)、子標題包含薪資信息(FP6)、職位描述中包含感嘆號的數量(FP7)、職位描述中包含問號的數量(FP8)。

王春鴿的研究表明招聘職位的薪資明顯高于同類職位的薪資水平時,求職者需要警惕職位的真實性[16]。從招聘信息庫中抽取基于薪資信息的統計特征為職位工資(FC1)、福利(FC2)。

將特征離散化處理,使用式(1)計算招聘信息的統計特征FSta。

式中,FSta 表示招聘信息的統計特征,⊕表示特征級聯操作。

3.2 語義特征提取

卷積神經網絡包含卷積、池化、全連接等操作,具有卓越的特征提取能力,使用CNN 提取特征可以降低人工提取特征難度。將職位描述文本信息表示成計算機可以識別的詞向量輸入卷積神經網絡。首先,經過卷積層,使用大小不同的滑動窗口進行卷積,提取語義特征。然后,經過池化層進行降維,篩選關鍵特征。池化層后加入Dropout,設置Dropout 率為0.25,防止過擬合。最后,經過全連接層轉化為一維向量?;诰矸e神經網絡的語義特征提取算法如下。

Step1:去除招聘信息中的非文本部分和停用詞,使用jieba 中文分詞庫將招聘信息進行中文分詞。

Step2:利用Word2Vec 將分詞處理后的招聘信息表示成詞向量T=[w1,w2,…,wn],其中wi表示招聘信息的第i 個詞的向量表示。每個詞向量wi=[v1,v2,…,vm],m表示招聘信息詞向量的維度。

Step3:將招聘信息的將詞向量表示輸入卷積層,提取高層語義特征FSemk,卷積層的計算公式為

式中,filterk表示卷積核,Tij表示招聘信息的詞向量,Fk表示k層的輸出特征,f表示Relu激活函數。

Step4:將卷積層的輸出,輸入池化層,進行池化運算,計算公式為

Step5:最后經過全連接層,得到語義特征向量FSem=[f1,f2,…,fn]。

3.3 特征融合

為了使招聘信息的語義特征和統計特征攜帶等量的信息。首先,將統計特征向量通過全連接神經網絡映射成和語義特征向量同等的維度。映射公式如下:

式中,FSta' 表示映射后的統計特征向量,f 表示激活函數,W為權重矩陣,b為偏置項。

將映射后的統計特征和語義特征進行級聯操作,通過式(5)計算招聘信息的融合特征向量FMulti。

3.4 級聯森林結構

定義級聯森林有d 層,每一層包含R 個隨機森林和R 個完全的隨機森林,每個森林包含t 棵決策樹。完全隨機森林中的決策樹會隨機選擇一個信息增益最大的特征做節點分裂,至葉子節點純凈。而隨機森林中的決策樹則隨機選擇個特征子集(k 表示輸入特征的維度),然后再選擇信息增益最大的特征做節點分裂。對于特征f,其信息增益使用招聘樣本的信息熵與條件信息熵的差表示,計算公式如下:

式中,S 表示招聘樣本,v表示特征f有v個可能的取值,特征f 將招聘樣本劃分為v 個招聘子樣本,Si表示i個招聘子樣本,Pij表示Si中類別為j的招聘職位所占比例,j 表示招聘信息的類別,pj表示招聘樣本S中類別為j的招聘職位所占的比例。

將融合特征FMulti 輸入級聯森林d 層,每顆決策樹會計算落入葉節點處的真實招聘信息和虛假招聘信息的概率,然后對同一個森林中所有決策樹輸出的類概率通過式(10)計算平均值,生成招聘信息的類概率向量PVect。每個隨機森林生成一個二維類概率向量,每一層輸出4R 個增強特征,將增強特征與輸入的特征向量FMuti 級聯,輸入d+1 層訓練,表示為式(10)。

式中,公式中,pjt表示標簽為j 的招聘樣本落入t 棵決策樹的概率,FMultid+1表示級聯森林d+1 層的輸入向量,表示級聯森林d 層的第i 個隨機森林輸出的類概率向量。

每層訓練結束后,都會對分類器的性能進行評價,若沒有顯著的性能提升,則終止級聯過程,自動確定級聯森林的深度。然后,對最后一層產生的類概率向量求平均值,選擇最大概率值對應的類別作為最終檢測結果輸出。

4 實驗結果與分析

本文采用Anaconda 4.9 和Jupyter Notebook 6.0作為實驗平臺。實驗環境為Windows10 操作系統、Core i7處理器(2.6GHz)、8GB內存。

4.1 實驗數據

針對本文研究的問題,爬取了企業在北京、上海、深圳、廣州四所一線城市的發布的招聘職位信息。標注了一份17880 的招聘樣本,其中5%的招聘職位為虛假職位。將招聘樣本的80%作為訓練集,20%作為測試集,則實驗使用的訓練集14304條,用于模型的訓練,測試集3576 條用于評估模型的性能。

4.2 評價指標

二分類實驗中常用的查準率、查全率作為評價指標。但查準率和查全率為一對相互矛盾的指標,一個指標高會導致另一個指標低。研究中,通常使用F 分數衡量模型的綜合性能。在虛假招聘信息檢測中,由于虛假招聘職位僅占5%,我們希望檢測出更多的虛假招聘信息,需要模型對查全率更敏感。因此,本文使用F2 值和查全率評估模型的性能,計算公式如下:

式中,PreFakeSet表示預測結果為虛假的招聘數據集合,TrueFakeSet表示實際為虛假的招聘數據集合,PreAccSet表示預測正確的招聘數據集合。β取值為2表示F2值。

4.3 對比實驗

模型1:從招聘信息中抽取統計特征,然后使用統計特征輸入級聯森林進行分類。

模型2:使用Word2Vec-CNN 模型提取語義特征,然后使用softmax進行分類。

模型3:融合語義特征和統計特征,然后使用Softmax進行分類。

模型4:融合語義特征和統計特征,使用級聯森林結構取代softmax層進行分類。

表1 實驗結果對比

1)模型2 相較于模型1,查全率和F2 值有明顯提升,說明職位描述的語義可以有效區分虛假招聘信息和真實招聘職位。

2)模型3 較模型2,查全率和F2 值均有明顯提升,說明在語義特征中,加入統計特征可以進一步提升模型的性能。

3)模型4 較模型3,查全率和F2 值均有明顯提升,說明使用級聯森林結構取代Softmax層,可以提升模型的分類性能。

4)本文提出的模型,較其他模型性能更優。

5 結語

基于統計特征的虛假招聘信息檢測方法被廣泛使用,但是這類方法忽略了職位描述語義的重要性。本文使用卷積神經網絡提取招聘信息的語義特征,結合統計特征,使用級聯森林對虛假招聘信息進行檢測,提升了檢測的準確率。虛假招聘信息檢測是一個新的研究領域,目前學術界提出的方法和本文提出的方法都只考慮了招聘網站上招聘職位的靜態特征,沒有將招聘信息發布者的行為特征考慮在內。

猜你喜歡
級聯職位語義
領導職位≠領導力
語言與語義
職位之謎與負謗之痛:柳治徵在東南大學的進退(1916—1925)
級聯LDPC碼的STBC-OFDM系統
“上”與“下”語義的不對稱性及其認知闡釋
基于級聯MUSIC的面陣中的二維DOA估計算法
認知范疇模糊與語義模糊
美最高就業率地鐵圈
LCL濾波器在6kV級聯STATCOM中的應用
H橋級聯型STATCOM的控制策略研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合