?

基于ADASYN-LOF-RF模型的核心專利識別研究

2023-01-11 13:45吳增源
中國計量大學學報 2022年4期
關鍵詞:專利分類樣本

李 穎,吳增源,陳 亮

(1.中國計量大學 經濟與管理學院,浙江 杭州 310018;2.中國計量大學 光學與電子科技學院,浙江 杭州 310018)

核心技術,是在某一技術領域中處于關鍵地位,對技術發展具有突出貢獻、對其他專利或者技術具有重大影響且具有較強創新性的技術[1]。專利是技術進步與產業發展的重要載體[2],包含著技術發展等關鍵信息。通過對專利數據進行分析、挖掘,可了解本領域的核心技術前沿和動態,對企業明確研發方向、實現技術突破進而形成核心競爭力至關重要。近十年,全球專利申請量、授權量激增,2021年,全球專利申請量持續突破300萬,國際專利數量同比增長3.5%,但對某領域的發展起到關鍵決定性作用的核心專利數量[3]卻只占極少數。因此,如何從海量專利數據中及時、準確地識別出核心專利,成為理論界和實踐界關注的熱點問題。

Zhong等[4]使用社交網絡分析法和文本聚類識別光伏領域的技術演化路徑與前沿核心技術。Kwon等[5]利用技術積累、技術生命周期、技術保護范圍等專利指標,識別單一技術領域內的核心技術。陳祥[6]以技術發展規律為基礎,并基于專利技術知識擴散視角構建核心專利識別模型。但現有研究依然存在以下兩方面的不足:1)核心專利指標體系構建不夠完善,識別準確率低;2)對于核心專利與非核心專利數據分布上的不平衡,現有模型處理效果欠佳、穩定性較差。

指標選取和識別方法是核心專利識別的兩個關鍵。指標選取直接影響專利識別效果。羅立國[7]利用多元回歸模型驗證引用專利數量、IPC分類號數量、同族專利數量、同族專利被引用數指標與核心專利呈顯著正相關關系;王曰芬[8]通過行為效果和動機目的兩大維度構建指標體系,證實引用專利數、科學關聯度以及權利要求數對人工智能領域核心專利識別結果影響較大;馬瑞敏[9]證實四年被引頻次、同族專利數、專利寬度、權利要求數和科學關聯度五個指標構建核心專利預測模型的合理性?,F有核心專利識別研究中,大部分學者只考慮專利本身的因素,很少有學者將專利發明人自身實力構建到核心專利識別體系中。但最新研究表明專利所處的地位和影響力很大程度上取決于專利發明人。喬永忠[10]通過專利引證分析證明不同的主體人對專利質量水平有顯著影響;筱雪[11]通過波音公司和空客集團的專利分析證實專利發明人的技術實力越強,越有可能創造出核心專利。

核心專利識別方法方面,主要包括專利指標頻次統計法[12]、改進的專家打分法[13]、專利共類分析法[14]等。專利指標頻次統計法簡單易行,但可靠性較差。選擇不同的專利指標直接影響核心專利識別結果,其中專利被引頻次從技術影響力上反映出專利技術的重要性,被引次數高的專利往往影響力大,因此部分學者使用該指標識別核心專利[15]。改進的專家打分法不需要考慮較多制約因素的影響,在專家熟悉的領域內識別準確率較高,但是該方法的指標體系構建過程繁瑣,并且每項指標的賦權過程受主觀因素影響大。專利共類分析法通過構建專利IPC分類號的共現網絡,并計算節點中心度,認為中心度高的節點對應的是核心IPC,核心IPC所對應的技術領域的專利是核心專利。隨著人工智能技術的發展,機器學習開始運用到核心專利識別研究中,該方法充分考慮核心專利評價指標的多元性,并且可以輕松處理大量專利數據,適用性較強。但大部分學者直接使用機器學習進行核心專利識別,然而準確率較低,所以在實際的應用中,需要進一步對指標的選取和算法進行改進。從本質上看,核心專利識別是一個數據不平衡的二分類問題,即非核心專利與核心專利數量差異較大,直接使用機器學習算法進行識別,難以克服數據不平衡導致的分類性能較差問題?,F有對于不平衡數據的處理方法主要有兩類:數據級處理和算法級處理。數據級處理方法主要是重采樣技術,分為欠采樣和過采樣。欠采樣通過隨機地移除多數類樣本,使樣本分布均勻,但可能會丟失重要的信息,常見的欠采樣算法有剔除最近鄰法(edited nearest neighbor,ENN)[16]、Tomek links[17]等。過采樣技術通過隨機地復制少數類樣本使數據達到平衡,該技術的缺點是會使信息變得冗余,模型訓練復雜度增大,容易造成過擬合問題,典型的隨機過采樣方法是合成少數類過采樣(synthetic minority oversampling,SMOTE)[18]。這兩種采樣方法比較容易操作、具有較好的適應性,但是對數據的刪減與擴充并未遵循原始數據的分布規律,可能導致有價值的信息丟失或模型過擬合問題。算法級處理是直接對算法進行改進。單一的分類算法在處理數據量大、較為復雜的問題時,效果不理想。為了提升分類性能,學者對分類算法進行改進,主要包括代價敏感學習[19]和集成學習[20]等。常用的集成學習算法[21]是將多個分類器組合起來形成一個強分類器,以提高分類性能。但是單獨使用集成算法容易導致過擬合問題,并且魯棒性不強,算法訓練時間長。因此,部分學者提出使用組合模型來提升分類性能,張陽等[22]將SMOTE過采樣算法分別與多種集成算法進行組合,比較分析模型有效性;周杰英[23]將隨機森林和梯度提升樹進行融合,解決網絡入侵數據不平衡的多分類問題;王文博[24]使用SMOTE-XGBoost組合模型對變壓器缺陷進行預測。這些組合方法大多在數據級層面僅使用單一的采樣算法,可能導致數據存在噪聲樣本,訓練效果不佳。

基于上述分析,科學合理地構建核心專利指標體系,設計適用的優化算法對核心專利識別至關重要。首先,針對核心專利識別準確率低的問題,本文在初選指標體系的基礎上加上專利發明人的兩個指標:發明人技術實力和發明人技術影響力。其次,對于不平衡數據的處理,現有的算法在模型的穩定性和準確性上效果不佳,而本文使用自適應綜合采樣算法(adaptive synthetic sampling, ADASYN)對原始數據進行過采樣,平衡數據集;并對生成的新樣本使用局部離群因子(local outlier factor, LOF)算法進行降噪處理,可克服簡單的數據過采樣帶來的信息冗余和模型過擬合等問題;使用隨機森林(random forest, RF)集成算法進行分類,構建組合模型ADASYN-LOF-RF,并與其它模型進行比較,驗證其有效性。

1 ADASYN-LOF-RF模型構建

1.1 ADASYN-LOF算法

ADASYN是He等[25]在2008年提出的一種過采樣算法。該算法使用密度分布參數作為分布標準,根據不同的少數類樣本學習的難易程度,對其進行加權分布,使較難學習的少數類樣本比較容易學習的少數類樣本生成更多的合成樣本。ADASYN算法從兩方面改善學習:1)減少數據不平衡帶來的偏差;2)自適應地將分類決策邊界向困難的樣本實例轉移。LOF是針對離群點的檢測方法。大部分離群點檢測都是借助密度、夾角和距離等來劃分超平面找出異常點,這些方法都是從數據點相似度出發。不同于上述算法,LOF算法是從樣本點周圍的數據密度基礎出發的檢測算法,它給每個樣本點分配一個局部可達密度,通過可達密度的離群因子分析該樣本的離群程度,判斷其是否為離群點。LOF算法簡單直觀,同時考慮數據集局部和全局的屬性。ADASYN-LOF算法先對原始數據進行采樣,采樣后的數據必然存在噪聲樣本,再通過LOF進行降噪處理,最終得到的平衡數據集更有助于進行分類處理,具體訓練過程如表1。

表1 ADASYN-LOF算法訓練步驟

1.2 ADASYN-LOF-RF模型

隨機森林是Breiman[26]在2001年提出的分類算法,它以決策樹為基分類器進行集成。從原始訓練樣本集N中有放回地重復隨機抽取n個樣本生成新的訓練樣本集訓練決策樹,再按以上步驟生成m棵決策樹組成隨機森林,數據分類結果按照分類樹投票分數而定。隨機森林算法簡單易實現,在實際解決問題的時候展現出強大的性能,其基分類器的多樣性不僅來自樣本擾動,也來自屬性擾動,能夠提升集成分類器的泛化性能。隨機森林算法每次隨機選取樣本和特征,提高模型抗干擾能力,泛化能力也較強,適用性較廣。隨機森林的主要算法步驟如表2。

表2 RF算法訓練步驟

但是,單獨的隨機森林算法難以有效處理數據不平衡問題,會導致分類性能差?;诖?本文在數據級方面使用ADASYN-LOF算法使數據達到平衡,進一步提升分類性能,并且與隨機森林構成ADASYN-LOF-RF組合模型,可以提高預測結果的精確性能。該模型先通過ADASYN采樣算法增加少數類樣本的數量,使數據達到平衡。針對數據集中存在的噪聲樣本,使用LOF算法對新增加的合成樣本去噪,提升平衡數據集的質量,提高其分類性能。最后使用隨機森林算法對最終數據集進行分類預測。該模型的主要流程如圖1。

圖1 ADASYN-LOF-RF算法流程圖

2 實證研究

2.1 專利指標體系構建

基于現有研究,本文構建核心專利指標體系,包含9個指標,如表3。具體指標含義以及指標與核心專利之間的關系解釋如下。

表3 專利指標體系

同族專利數指同一專利在不同國家或地區,以及地區間專利組織多次申請、多次公布或批準的內容相同或基本相同的一組專利文獻的數量。已有研究表明同族專利數與核心專利顯著正相關[9]。同族專利被引用數是指目標專利和其同族專利總的被引用數量,該項指標體現目標專利在領域內的核心程度,同時也體現該專利的技術影響力。同族專利被引用數越高,對其它專利技術的參考價值越大,越有可能是核心專利[7]??茖W關聯度指目標專利引用非專利文獻的數量,馬瑞敏[9]發現科學關聯度指標數值越大,專利的技術水平也越高,兩者呈現顯著正相關。專利引證數是目標專利引用其它專利的數量,反映其技術關聯程度。專利引證數越高,就越有可能是核心專利[8]。技術覆蓋范圍一般用專利IPC分類號數量來衡量。Lerner[27]認為IPC分類號數量越多,專利技術越為復雜,也就越有可能成為核心專利。權利要求數指一項專利要求的權利保護數量。專利要求數越多,專利的技術特征越多,技術創新能力越強,專利也就越重要[28]。發明人數指目標專利發明人數量的總和,它反映企業對該項專利技術的重視程度。一般而言,發明人數量越多,則技術研發成本投入越大,越有可能突破技術壁壘,成為核心技術[29]。發明人技術實力[30]使用專利發明人在該領域內發布的專利數總和進行衡量,該指標反映專利發明人對該領域知識的了解程度。通常,專利發明人在該領域內發布的專利數越多,該發明人的實力就越強,其發布的專利也就越有可能成為核心專利。發明人技術影響力[30]一般用專利發明人在某一領域內所發布專利的總被引次數來衡量。被引次數越多,技術影響力越大,越有可能成為核心專利。

2.2 數據描述

本文使用的光伏專利數據來源于智慧芽專利檢索平臺,根據光伏領域相關的專利信息并綜合使用專利檢索方法,確定專利檢索策略為:TAC:(photovoltaic* OR PV System* OR solar cell* OR Solar Batter* OR Solar module*),篩選出已授權的發明專利,并將搜索時間定為2012—2016年,共檢索到22 077條該領域相關的專利數據。

2.3 數據預處理

數據預處理主要是對各項專利指標數據的處理。整理發現發明人數量和IPC分類號數量均存在缺失值,將缺失值刪除后得到21 802條數據。根據核心專利的定義并參考以往的實踐研究,將總被引次數排在前百分之十的專利標記為核心專利[10],數據不平衡比1∶9。使用Python軟件,選擇imbalanced-learn中的ADASYN進行數據采樣處理,擴充后的數據集達到39 246條,再使用LOF對數據集進行降噪處理,最終得到32 896條數據。

2.4 分類結果比較

本研究所采用的數據劃分方法是十折交叉驗證法,即將所有的數據劃分成十份數量相等、大小相似的互斥子集,再將所得到的數據中九份作為訓練集,一份作為測試集,依次迭代,進行十次訓練和測試。從模型準確性和模型穩定性兩個方面,將組合模型與SVM、RF、ADASYN-RF三種分類算法來進行比較。

2.4.1 評價指標介紹

實驗所預測的是一個二分類問題,因此采用準確率(accuracy,A)、R召回率(Recall,R)和F1值三個評價指標對模型效果進行評價。對于二分類問題,可以將數據集中的真實類別和分類器預測的類別進行組合,劃分成四類,用混淆矩陣來表示(如表4)。

表4 混淆矩陣

1)準確率A

ACC表示的是分類正確的樣本數占樣本總數的比例,在本研究中即為分類正確的核心專利占總專利的比例。在數據不平衡的分類任務中,它是比較常用的性能度量指標。由表中的二分類混淆矩陣可以將ACC表示為

(1)

2)召回率R

Recall召回率也叫查全率,表示原樣本集中有多少是被預測正確的。在本研究中表示被正確識別出來的核心專利占原樣本核心專利的比例。

(2)

3)F1值

F1值是精確率和召回率的調和平均數,可以用混淆矩陣將F1得分表示為

(3)

2.4.2 模型準確性分析

本研究使用的是十折交叉驗證法,通過A均值、R均值和F1均值對ADASYN-LOF-RF進行分類性能驗證,并將該模型與SVM、RF、ADASYN-RF對比,進行有效性驗證。通過表5,可以看出每種算法的分類效果。

表5 模型準確性均值

ADASYN-LOF-RF和SVM、RF、ADASYN-RF等算法分類性能的對比結果如表5。結果表明,RF的各項指標明顯高于SVM,說明集成算法優于單一算法。通過ADASYN-RF和RF的對比,可以看到雖然ADASYN-RF的ACC均值略低于RF,但總體性能明顯優于RF,說明對數據采樣處理是有效的。在采樣基礎上進行LOF降噪處理的ADASYN-LOF-RF模型要比直接使用采樣的ADASYN-RF更有效果,各項指標得到明顯提升。

通過表5中A均值對比,可以看到ADASYN-LOF-RF的A均值為0.922 8,其它模型的ACC均值較低,說明該模型的區分能力較強,能夠準確識別出核心專利。對于R這一指標,SVM的R值僅為0.368 6,RF的R值為0.731 7,經過采樣后的ADASYN-RF算法達到0.974 4,而ADASYN-LOF-RF的Recall為0.980 4,說明該模型能夠識別出更多的核心專利。SVM的F1均值為0.486 2,RF的F1均值為0.779 7,ADASYN-RF的F1均值為0.918 9,經過降噪后的ADASYN-LOF-RF模型的F1均值達到0.931 5,表明該模型整體性能優于其它模型。

綜上所述,ADASYN-LOF-RF模型的A均值、R均值和F1均值均優于其它幾個模型,這說明該模型在核心專利識別時具有更高的準確性。

2.4.3 模型穩定性分析

模型預測結果的波動程度也是評價模型性能的重要指標。本研究使用十折交叉驗證法,直接通過十次測試結果計算標準差,標準差越小,說明模型越穩定。通過表6可以看到ADASYN-LOF-RF的標準差值最小,說明該模型識別性能最穩定。同時我們也可以看出標準差值中SVM>RF>ADASYN-RF>ADASYN-LOF-RF,說明單一算法穩定性最差;對數據進行采樣處理后的ADASYN-RF模型穩定性要優于單獨使用集成算法;在采樣基礎上對數據進行降噪處理的ADASYN-LOF-RF模型要比ADASYN-RF更穩定。

表6 模型穩定性

綜合以上分析,本文提出的模型不僅在A、R、F1值上都優于其它分類模型,具有較高的準確性,并且在模型穩定性上,波動程度小,穩定性更強。因此,ADASYN-LOF-RF在核心專利的識別中更具有優勢。

2.5 模型可解釋性

通過隨機森林算法,我們可以直接導出所選取的指標相對于核心專利的重要性程度,如圖2,常見的技術覆蓋范圍、發明人數量、權利要求數量等指標與核心專利的關聯程度不強,而本研究中新加入的發明人技術實力和發明人技術影響力這兩個指標排序比較靠前,這也進一步驗證新加入指標的合理性和有效性。

圖2 指標重要性排序

3 結論與展望

如何從海量專利中識別出核心專利,是企業開展技術研發、提升創新能力的關鍵環節。針對現有研究在指標選取和不平衡數據處理方面的不足,本文通過增加專利發明人指標重構指標體系,同時結合采樣技術和集成算法,提出組合模型ADASYN-LOF-RF。通過與SVM、RF、ADASYN-RF進行對比,證實ADASYN-LOF-RF在模型準確性和模型穩定性上都具有較好的分類性能;并通過指標重要性排序證實新加入的兩個專利發明人指標的合理性。

基于本文的模型對比實驗結果以及實證分析,可以得出以下兩點結論:第一,使用采樣技術和集成算法的組合模型能夠提高核心專利識別的準確率,并且穩定性較好;第二,在梳理現有相關文獻的基礎上,本研究構建的核心專利識別指標體系是有效的。

本研究也具有一定的局限性:第一,每種算法都有優缺點,為提高核心專利識別的準確率,未來可嘗試對集成算法進行改進,如加入代價敏感學習等。第二,在未來的研究中,有必要考慮引入專利網絡中心度的概念,將其作為機器學習模型的輸出指標,對核心專利進行標記。第三,核心專利的早期識別對企業實施專利布局具有更高的價值,未來研究需關注核心專利的早期識別問題。

猜你喜歡
專利分類樣本
專利
分類算一算
用樣本估計總體復習點撥
分類討論求坐標
專利文摘
規劃·樣本
教你一招:數的分類
說說分類那些事
隨機微分方程的樣本Lyapunov二次型估計
“官員寫作”的四個樣本
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合