?

電子商務中基于深度學習的虛假交易識別研究

2016-12-15 11:50劉暢殷聰
現代情報 2016年10期
關鍵詞:深度學習電子商務

劉暢+殷聰

〔摘要〕為了解決電子商務平臺中存在的虛假交易問題,本文依據商品的銷售記錄以及商家的基本信息,提出了一種結合深度置信網絡和多層感知器的虛假交易識別方法,通過識別出以通過刷單增加銷量的商品來識別虛假交易。首先利用深度置信網絡對交易特征進行學習,得到更高層次的抽象特征;然后利用多層感知器進行分類任務,從而識別出虛假交易。從淘寶中爬取商品的交易記錄和評論數據進行實驗驗證,與其他機器學習模型的實驗結果進行對比,其性能有明顯的提升。

〔關鍵詞〕電子商務;虛假交易;深度學習;多層感知器;交易記錄;商品評論;識別方法

DOI:10.3969/j.issn.1008-081.016.10.010

〔Abstract〕For solving the problem of fraud transaction in e-commerce platform,a method that combined Deep Belief Networks and Multilayer Perceptron based on the transaction records and review records of Products was put forward.Through recognizing the product which was increased sales in fraudulent transactions to recognize the fraud transactions.The features of transaction were learned by DBN to get the higher level of abstract features,and the MLP performed the classification task.Tested by experiments using the transaction records and review records of products crawled from Taobao,the comprehensive performance had improved significantly compared with the other machine learning model.

〔Key words〕e-commerce;fraud transaction;deep learning;MLP;transaction records;product review;recognition method

目前我國電子商務市場發展迅速,已超越美國成為全球第一大網絡零售市場。據浙江省商務廳發布的《浙江省網絡零售業發展報告》顯示,2014年僅浙江一省的淘寶店鋪數量已達到147萬家。商品的高度同質化、流量分配不均、商家信譽差異大等因素不僅使廣大消費者難以選擇合適商品,也使得商家之間的競爭越來越激烈。影響淘寶搜索排名因素主要有動態評分、收藏人氣、銷量、瀏覽量等,但是由于淘寶網有大量的新開網店沒有實際的銷量作支撐,也沒有足夠的廣告推廣預算,很難在龐大的淘寶網店中生存。為了快速有效地解決這個問題,就催生出了一種虛假的網上交易模式——以虛假交易的形式提高商品和店鋪的搜索排名。淘寶店鋪為了提高網店或單件商品的搜索排名,達到銷量火爆好評如潮的目的而采取了作弊行為。在沒有被發現和懲罰的情況下,虛假交易確實能給網店,特別是新開的網店帶來一系列好處。第一,可以通過虛假交易提升店鋪整體信譽,從而吸引消費者。第二,提升商品銷量。消費者往往具有從眾心理,銷量過低的商品,會使顧客產生戒備心理,很難讓消費者下定決心購買。第三,提升搜索排名。消費者在淘寶網瀏覽商品時,根據搜索排名依次瀏覽,排名越靠前的商品,消費者購買的可能性就越大。第四,降低店鋪的差評率。當淘寶網店的差評率升高時,商家會選擇利用虛假交易的方法,雇傭刷客為自己的商品給予好評,從而降低店鋪的差評率,達到欺騙消費者的目的。由于在刷單的過程中,刷客必須要給予賣家好評,而好評對于消費者的購買決策能夠產生巨大的潛在影響,而且一個產品的評價數量也決定了用戶在商品詳情頁停留的時間,但是虛假的銷量和評論會對消費者的購買決策產生誤導作用,嚴重損害了消費者的利益。因此識別虛假交易對電子商務的健康發展具有重要的意義。

1文獻綜述

刷單是指以單件商品為對象,雇傭刷客模擬真實交易的形式,通過搜索商品、瀏覽商品、購買商品,給予商品正面積極的評論的形式增加商品的銷量。因此在進行虛假交易識別的過程中,則以商品的評論和商品的銷售記錄為研究對象。

近年來,垃圾信息的識別研究是近幾年的研究熱點,從總體上來說垃圾信息的檢測總要分為以下兩個方面:基于信息本身,基于垃圾信息發布者的行為。而檢測的方法主要集中于機器學習、模式識別和分類器?;诶畔⒈旧淼臋z測方式的關鍵點在于特征提取的方法。特征提取方法主要包括信息熵(IG),又稱為Kullback-Leibler距離[2]。Korprinska等[3]以詞頻方差法(TFV)來選取具有高詞頻方差的詞。Guzella等[4]則以詞匯袋(BoW),又被稱為向量空間模型來進行垃圾信息的檢測。Li等[5]提出了基于用戶反饋的改進樸素貝葉斯方法。Sakkis等[6]將K臨近方法應用于垃圾郵件的檢測。Elssied等采用基于支持向量機(SVM)的過濾器進行垃圾信息的檢測。以上這些機器學習方法都是一種監督式的機器學習方法,需要先驗知識和一個完美的訓練集。

基于垃圾信息發布者的行為方面,孟美任和丁晟春[8]分別從推銷、詆毀、干擾和無意義4個方面分析了虛假評論發布者的動機,依據對造假動機的研究分析了虛假評論發布者的造假行為和隱藏行為。然而他們并沒有根據虛假評論者的行為特征對識別工作做進一步的研究。文獻[9]以捕捉虛假評論群體為目標,首先利用頻繁模式挖掘發現虛假評論者候選組,計算虛假評論者組的指標值,將正常評論者組剔除后采用SVM方法學習和產生最后的虛假評論者組的排名。Bouguessa等[0]剔除一種非監督方法識別社交網絡中的垃圾評論者,其重點在于分析社交網絡中用戶的關系鏈接結構,為每一個節點分配合理的分數,通過beta分布模型化這些分數,最終可以有效區分垃圾信息發布者和正常用戶。Jiang]總結了垃圾評論者的兩種行為模式:短時期內對某一商品進行持續評論和商品的實際購買量相對于用戶對商品的好評嚴重不符,通過分析用戶評論行為和對商品評價的偏差,分析識別虛假評論。

從以上總結中可知,前人主要從被評論的主體入手,對其所屬的所有評論信息進行分析,此外前人在進行虛假評論識別方面采用的是淺層機器學習模型,比如支持向量機、K最鄰近算法等,作為有監督學習模型,需要大量的有標記樣本進行學習,會耗費大量的人工標記時間成本。淺層模型主要依靠人工經驗來抽取樣本的特征,而模型主要是負責分類或預測,在模型的運用不出差錯的前提下,特征的好壞成為整個系統性能的瓶頸。與傳統的淺層學習不同,深度學習通過逐層特征變換,將樣本在原空間的特征表示變換到一個新特征空間,從而使分類或預測更加容易,展現了強大的從少數樣本集中學習數據集本質特征的能力。深度置信網絡(DBN)是由若干層無監督的受限玻茲曼機(RBM)和一層有監督的反向傳播網絡(BP)組成的一種深層神經網絡,是屬于深度學習的一種機器學習模型[2]。DBN作為半監督深度學習模型,首先可以采用大規模無標簽的樣本集合,為DBN訓練提供大量的樣本,省去了標注大量樣本的時間。其次DBN作為深層網絡學習結構,能夠學習到抽象特征,弱化淺層結構的錯誤特征。深度置信網絡具有較強的無監督特征學習能力,但分類能力不強,為了彌補DBN分類能力不足之處,本文提出將多層感知器(MLP)與DBN相融合用于實現虛假交易的識別。感知器,就是二類分類的線性分類模型,其輸入為樣本的特征向量,輸出為樣本的類別,即通過某樣本的特征,就可以準確判斷該樣本屬于哪一類[3]。多層感知器對于非線性函數具有很強的逼近能力,并且對于連接權值的初始值具有很強的敏感性,與DBN相結合可以有效地提升分類識別能力。

基于商品銷售記錄的時序模型

在統計學中,多以商品銷售量指數來描述商品某一時期銷量的變化,商品銷售量指數也稱為商品銷售量總指數,是一種數量指標指數,是反應多種商品銷售量綜合變動的總指數。在本文中,參考商品銷量指數模型,以商品的月平均銷量作為同度量因素,則商品的每日銷量變化可以用以下公式表示:

其中Sit表示商品i在第t天的銷量,Save表示商品的月平均銷量。同時考慮到商家的基本信息:累計評論數、交易成功數、收藏寶貝、退款糾紛率和店鋪注冊時間,因此我們使用以下參數來作為描述店鋪的特征:

店鋪注冊時間:注冊時間短的店鋪更有可能雇傭刷客為商品提高人氣。顧客往往會信任信譽高的店鋪,注冊時間的長短也會影響到店鋪的信譽值,為了快速增加店鋪的信譽值,新注冊的店鋪更有可能雇傭刷客為商品提高人氣。以店鋪注冊時間至收集到的商品最后一條銷售記錄的時間距離作為店鋪的特征度量。

退款糾紛率:退款糾紛率高的店鋪更有可能雇傭刷客為商品提高人氣。在現實中淘寶會有7天無條件退貨的要求,當顧客受騙時會選擇退貨,因此退款糾紛率高的店鋪說明此店鋪的商品質量有問題,因此其交易記錄就有很大可能由刷客所刷。以店鋪的退款糾紛率作為店鋪的特征度量。

商品評論率=商品累積評論數商品成功效易數:商品評論率高的店鋪更有可能雇傭刷客為商品提高人氣。評論是刷客在進行虛假交易過程中的一個必需的步驟,因此當店鋪的商品評論率高時,交易記錄就有很大可能由刷客所刷。以收集到的最后一條交易記錄的時間為節點,統計此商品有內容評論總數與成功交易數的比率作為店鋪的特征度量。

單件商品評論比=單件商品評論數店鋪商品評論總數:單件商品評論比高的店鋪更有可能雇傭刷客為此商品提高人氣。雇傭刷客的店鋪往往是由于店鋪商品銷量低而采取的措施,因此在實際情況中,會出現單件商品評論數遠大于店鋪其他商品評論數的情況。以收集到的最后一條交易記錄的時間為節點,統計此商品累積評論數與店鋪評論總人數的比率作為店鋪的特征度量。

收藏率=商品成交數收藏商品數:商品收藏率高的店鋪更有可能雇傭刷客為此商品提高人氣。在現實中,商品收藏數也會影響淘寶的搜索排名,為了使自己的商品能夠在淘寶搜索排名中靠前,商家就會要求刷客在進行刷單的同時收藏此商品,并將收藏商品作為評判刷單是否完成的一個重要標準。以收集到的最后一條交易記錄的時間為節點,統計此商品成交總數與收藏此商品總人數的比率作為特征度量。

重復評論率=重復評論數商品累積評論數:商品重復評論率高的店鋪更有可能雇傭刷客為此商品提高人氣。在現實的刷單交易中,商家為了防止刷客不評論或者給予不符合店鋪要求的評論,往往會在發布的刷單要求中提供評論內容,將刷單的風險降至最低。因此可以推測,商品的重復評論率越高,則此商品就越有可能涉嫌刷單。以收集到的最后一條交易記錄的時間為節點,統計此商品重復評論數與此商品累積評論數的比率作為特征度量。

平均評論長度=商品累積評論字數總和商品累積評論數:商品平均評論長度長的店鋪更有可能雇傭刷客為此商品提高人氣。在商家發布的刷單訂單中,可以看出,為了能吸引消費者的目光,商家往往會在自己提供的評論中長篇描述本商品的優點和服務質量。因此可以推測,商品的平均評論長度越長,則此商品就越有可能涉嫌刷單。以收集到的最后一條交易記錄的時間為節點,統計此商品累積評論字數總和與此商品累積評論數的比率作為特征度量。

通過以上描述,我們就可以得到輸入向量:

其中Fi1表示第i件商品所在店鋪的注冊時間,Fi表示第i件商品所在店鋪的退款糾紛率,Fi3表示第i件商品的商品評論率,Fi4表示第i件商品在店鋪中的單件商品評論比,Fi5表示第i件商品的收藏率,Fi6表示第i件商品的重復評論率,Fi7表示第i件商品的平均評論長度。

3基于深度學習的虛假交易識別模型

一個n輸入m輸出的線性閾值單元組成的多層感知器網絡結構如圖1所示。

圖中,輸入與輸出層之間存在一些隱層。網絡的輸入層沒有計算節點,只用于獲得外部輸入信號,各隱層和輸出層的神經元才是計算節點,其基函數取線性函數,激活函數取硬極限函數。假設MLP只有一個隱層,并設輸入為x1,x,…,xn,隱層有n1個神經元,它們的輸出分別為h1,h,…,hn1,網絡輸出用op表示[4]。

則隱層第j個神經元的輸出為:

多層感知器用于解決實際問題時,首先必須解決輸入到隱層間連接權的訓練問題,但是由于難以確定隱層輸出的期望輸出值,導致網絡權值訓練無法實現。因此人們尋求其它神經網絡方案以解決線性不可分問題,BP網絡就是這樣一種網絡。

傳統的深度置信網絡(DBN)是利用限制波茲曼機(RBM)來構建深度置信網絡,如圖所示。在訓練過程中,首先將顯性向量值映射給隱單元,然后顯單元由隱單元重建,這些新的顯單元再次映射給隱單元,這樣就獲取了新的隱單元。

限制波茲曼機的能量函數可以定義為[5]:

本文將MLP與DBN相融合,用于實現虛假交易的識別。首先利用DBN對交易特征進行學習,得到更高層次的抽象特征,然后對多層感知器進行初始化,從而實現虛假交易的識別,其中MLP在網絡中進行分類任務。在DBN的初始化階段,RBM將權重和偏置與MLP共享,這就意味著在DBN、MLP的初始化中,DBN模塊和MLP模塊使用同樣的權重矩陣和偏置向量。當訓練開始時,這些矩陣和向量會依據學習規則進行調節,隨著訓練的進行,DBN和MLP的權重矩陣和偏置向量會隨之改變,也就不再相同。當訓練整個網絡時,參數會隨之進行調節。簡略圖如圖3所示。

4實驗及結果分析

描述特征獨立樣本T檢驗結果,從輸出數據中可以看出兩樣本均數差別有顯著性意義,顯著性差異明顯。

本文采用分類器中最常用的評測指標:準確率(Accuracy)、精確率(Precision)、召回率(Recall)作為刷客識別的評判標準[6]。

準確率表示商品能夠被正確分配到所屬類別的準確率,它體現了分類器分類結果的準確程度。計算公式如下:

精確率表示虛假交易的商品能夠被成功檢測出來的精確率,它體現了分類器分類結果的準確程度。計算公式如下:

其中,TP表示把虛假交易的商品正確地預測為虛假交易的數量;FP表示把正常交易的商品錯誤地預測為虛假交易商品的數量。

召回率表示把虛假交易商品歸類為虛假交易商品的概率,表示了虛假交易商品占總商品數量的比例。

TN表示把正常交易商品正確地預測為正常交易商品的數量;FN表示把虛假交易商品錯誤地預測為正常交易商品的數量。

在進行評價的過程中將精確度(Precision)和召回率(Recall)結合在一起,使用一個參數F-score來進行性能的評價:

中-1表示正常交易商品,1表示虛假交易商品。選取100件商品作為測試數據集,其中重合的點表示識別正確的商品,未重合的點表示識別錯誤的商品,從圖中可以清晰地看出有5個未重合的點,即識別錯誤的商品,識別準確率達到了95%。使用分類識別中最常用的指標對識別結果進行量化分析可知精確率為100%,表示并未將正常交易的商品錯誤識別為虛假交易商品;召回率為90%,表示并未完全識別出測試集中的所有虛假交易的商品;綜合精確率和召回率的指標F-score為9474%。接下來將此方法與DBN、SVM、隨機森林(RF)和樸素貝葉斯方法(NBM)進行對比可以發現,其性能具有明顯的提升。

5結論

本文將多層感知器和深度置信網絡相結合,用于實現商品虛假交易的識別問題,其中多層感知器在識別模型中進行的是分類任務。首先利用深度置信網絡對交易特征進行學習,得到更高層次的抽象特征;然后對多層感知器進行初始化,使用多層感知器進行分類任務,從而實現商品虛假交易的識別。根據商品的銷售、評論記錄以及店鋪的基本信息來作為商品的特征,并將其量化。為了驗證方法的可行性,從淘寶中收集商品的信息作為訓練和測試集,對已經標記的商品數據進行訓練學習,將此方法與傳統識別方法進行對比,其性能有明顯的提升。想對于淘寶中存在的海量的虛假交易的商品,本文中的實驗數據相對較少,未來仍需要爬取相對較多的數據對方法進行進一步的驗證。

參考文獻

浙江省商務廳.浙江省網絡零售業發展報告[DB/OL].http:∥www.zcom.gov.cn/art/2015/6/17/art1127176182.html,2015-06-17.

[2]Do M N,Vetterli M.Wavelet-based texture retrieval using generalized Gaussian density and Kullback-Leibler distance[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society,2002,11(2):146-158.

猜你喜歡
深度學習電子商務
2025年我國農村電子商務交易額達到2.8萬億元
《電子商務法》如何助力直銷
電子商務
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
關于加快制定電子商務法的議案
電子商務人的核心能力
期刊訂閱電子商務平臺
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合