?

侵權訴訟背景下標準必要專利價值分類識別體系構建

2024-01-20 12:19彭啟寧
知識管理論壇 2023年6期
關鍵詞:自然語言處理機器學習

柳炳祥??付振康??貝汶瑜

摘要:[目的/意義]基于機器學習算法,對行業標準專利構建多模態特征融合的自動分類篩選模型,探究侵權訴訟背景下標準必要專利價值分類指標體系。[方法/過程]首先利用美國專利商標局的發生侵權訴訟后的標準必要專利作為標記數據,將文本數據和指標數據進行降維融合后,建立基于機器學習中監督學習和半監督學習模型專利分類篩選模型,最后對數字創意產業的標準專利進行分類篩選。[結果/結論]基于機器學習中監督學習和半監督學習模型算法構建一套較為完整的多特征融合專利價值自動分類篩選模型。構建的4種模型在測試集上的平均F1值均在0.8以上,其中偽標簽隨機森林模型表現最優,平均F1值達到0.871 06。

關鍵詞:侵權訴訟;標準專利;機器學習;自然語言處理;分類篩選

分類號:G306

引用格式:彭啟寧, 柳炳祥, 付振康, 等. 侵權訴訟背景下標準必要專利價值分類識別體系構建[J/OL]. 知識管理論壇, 2023, 8(6): 461-475[引用日期]. http://www.kmf.ac.cn/p/364/.

專利是反映科技創新成果的主要客體,是知識產權的重要部分之一。近幾年,隨著經濟全球化的不斷深入,各國針對行業的標準必要專利研究也在不斷加強,擁有行業標準必要專利,意味著能在相關技術領域中占領重要地位。標準必要專利(standard essential patent, SEPs)是指包含在國際標準、國家標準和行業標準中,且在實施標準時必須使用的專利,國內學者馬麗婧等[1]指出,利用標準必要專利能夠快速掌握行業的技術標準、企業戰略和市場競爭等信息。2010年版《國家標準涉及專利的規定》[2]中指出,允許標準中有條件地含有專利。與此同時,隨著標準必要專利申請數量的不斷增加,專利侵權和專利無效宣告案件發生的數量在不斷增長,涉及國際的專利侵權糾紛也在不斷增加,《知識產權強國建設綱要(2021-2035年)》[3]提出要深度參與全球知識產權治理,積極參與知識產權全球治理體系改革和建設,要建設知識產權涉外風險防控體系。因此,構建一套完整標準必要專利分類識別體系,識別行業內標準必要重點專利以及易發生侵權訴訟的風險專利,對于提高我國相關創新主體的創新能力以及研判產業發展方向具有重要意義。

筆者以侵權無效宣告專利為切入點,通過整理已經發生侵權專利技術特征,利用數據挖掘模型進行侵權專利識別分類訓練,獲取最優參數模型,構建標準必要專利侵權識別分類識別體系。筆者在綜合分析侵權專利無效宣告的訴訟風險特征影響因素的前提下,結合標準必要專利的特點,選取新興產業中數字創意產業在新一代信息技術產業中的應用作為研究主題,從專利計量指標和文本特征兩個方面建立較為精準的標準必要專利識別分類體系,構建多特征融合的標準必要專利分類識別模型。

1? 相關研究綜述

1.1? 侵權無效宣告相關研究

經閱讀文獻可以發現,目前國內對侵權專利無效宣告的研究主要集中在以下幾個方面:①在專利法視域下,主要針對專利無效宣告制度的特點進行一系列討論。李曉鳴[4]認為,相關法律法規對專利無效宣告各類程序的期限規定不完善并提出一系列完善建議;王瑞龍[5]指出了侵權訴訟中專利權無效抗辯制度弊端,認為專利無效抗辯制度導致專利侵權訴訟周期長并提出了解決方式。然而,上述文獻主要涉及無效宣告判別的各類程序,未涉及導致無效宣告發生的指標研究。②在創新經濟學視野下,主要針對專利無效宣告對市場份額影響進行一系列研究。S. Alessandro[6]認為,專利無效宣告傾向與專利市場份額增長率呈正相關,專利的市場份額越高,專利發生無效宣告的可能性越大;但上述文獻主要探討了專利無效宣告與市場價值的關系,未涉及各類指標對無效宣告結果的影響。③在情報學視野下,在競爭情報學中將申請宣告競爭對手的專利無效視作是一種重要的專利戰略手段。李睿等[7]指出,在技術市場權益的爭奪中,優質專利通常是競爭對手申請無效宣告的主要目標;周克放[8]指出專利異議通常由競爭對手提出,能夠成功抵御異議的專利往往可以被定義為該領域價值相對較高的專利。此外,專利無效宣告傾向在不同技術領域所表現的程度不盡相同,J. R. Allison等[9]指出專利無效宣告行為的經濟屬性暗示了其為市場價值的低質量專利。與此同時,P. A. Patel等[10]發現專利異議率在不同的領域所占比例不同,其中在電氣工程領域的異議率在5.3%至9.7%左右;但上述文獻并未涉及從侵權專利無效宣告的角度對專利的價值進行分類預測。

通過以上文獻可以看出,學術界對于侵權專利無效宣告識別分類可以得出以下結論:在侵權案件發生后,依舊被判定為“有效”的專利可視為該行業的重點且質量較高專利,與之相反,被判定為“無效”的專利可視為該行業市場中存在較大競爭爭議的專利。因此,筆者主要從侵權專利無效宣告出發,提出對此兩種類型的專利進行分類模型的構建,進而實現對兩種類型專利的自動分類篩選。

1.2? 標準必要專利相關研究

經閱讀文獻可以發現,國內外對于標準必要專利的定義主要涉及兩個方面:①標準必要專利涉及的技術市場壟斷研究。王曉曄[11]探討了標準必要專利涉及的反壟斷訴訟問題,認為FRAND(Fair, Reasonable and Non-Discriminatory)許可條件沒有可操作性,以至于越來越多的涉及標準必要專利的案件進入了反壟斷執法機構和法院;R. Bekkers等[12]認為標準必要專利所披露的信息存在大量的信息不對稱;李宗輝[13]指出標準必要專利在通信技術領域較為集中,相關的國際平行訴訟體現在各國技術、產業和市場競爭的司法層面,以及J. L. Contrera[14]也同樣指出標準必要專利涉及的技術壟斷在5G無線通信標準的背景下尤為突出。此外,在標準必要專利的市場價值研究上,葉若思等[15]認為一個必要標準專利具有唯一性和不可替代性,標準必要專利權人在必要專利許可市場均擁有完全的份額,具有阻礙或影響其他經營者進入相關市場的能力;M. V. Laer等[16]指出標準必要專利在國內保持了較高的增值份額,加入全球價值鏈需要吸收能力,但中國進入SEPs市場較晚,SEPs對中國的貿易效應不同于對成熟經濟體的貿易效應,其SEPs的初始值較低。②標準必要專利的特征識別研究。馬麗婧等[1]指出潛在標準必要專利在引用次數、被引用次數、權利要求數量、審查時長、同族成員個數等計量指標上顯著高于普通專利;李婳婧等[17]基于TF-DIF方法進行權重計算,優化標準關鍵詞并建立檢索式,建立隱含在標準里面的潛在標準必要專利信息識別路徑。

通過以上文獻可以看出,學術界對于標準必要專利的研究主要集中在標準必要專利的市場價值或是其特征研究上,鮮有文獻通過專利侵權的角度對標準必要專利中的價值較高專利、易發生侵權訴訟專利兩者相結合同時進行分類篩選的研究。

1.3? 專利識別模型相關研究

隨著學科融合的進一步發展,現今針對專利的各種特征的識別模型各不相同。對于專利識別的研究主要集中在兩個角度,具體如下:

一是利用傳統的數學統計分析方法進行研究。孫玉艷等[18]利用市場法、成本法、收益法和修正收益法對專利價值進行線性組合和非線性組合預測,得到加權算數平均值組合預測和加權調和平均組合預測兩種評估模型;徐晨倩等[19]采用量化研究與案例研究相結合的方法,構建了訴訟專利特征與337調查的回歸模型,并將模型運用至其他專利侵權訴訟案件中,從而達到專利情報預警的目的;王子焉等[20]利用文獻計量、社會網絡分析方法從專利價值的內涵、評估指標體系、評估方法3個方面對專利價值進行評估。

二是利用數據挖掘方法(如深度學習、機器學習等)對專利各類特征進行識別。張杰等[21]采用AdaBoost算法對訴訟專利的專利質量進行評價;李靜等[22]采用深度學習算法模型對新興主題進行分析,從而了解新興主題發展趨勢;翟東升等[23]利用SAO結構對專利語義特征進行抽取,并將其表示為圖的形式,再將圖轉換為鄰接矩陣,通過計算鄰接矩陣的相似性進而達到判定專利侵權的目的;國外學者J. Jee 等[24]利用人工神經網絡方法對制藥技術領域專利進行分類,達到識別高質量專利的目的;I. S. Kang等[15]提出建立聚類模型來對侵權專利進行檢索,從而建立侵權專利的特征模型,但上述研究均未涉及利用專利特征指標構建風險識別體系。K.V. Indukuri等[25]利用自然語言處理技術通過句法和語義匹配計算不同專利權利要求項之間的相似性,得出專利之間的相似性。

通過總結上述文獻的研究方法可以看出,學術界目前的研究主要利用統計學模型,將單個或多個模型結合進行單一類型數據的分類或預測,但對于專利質量與專利風險結合分析研究較為欠缺。因此,筆者在基于傳統侵權專利的分析研究下,從侵權專利無效宣告的特征角度出發,結合美國專利商標局(United States Patent and Trademark Office, USPTO)中必要標準專利的特征,采用多特征融合的方法,對文旅行業的必要標準專利進行分類識別,以篩選出文旅行業內高質量專利以及易發生侵權訴訟風險專利。

2? 特征選取與研究設計

2.1? 研究思路

圖 1為專利風險識別模型。首先,通過閱讀國內外的大量研究文獻,對標準專利的概念進行界定,結合指標的可獲取性、科學性等因素,選取標準專利的文本內容和數據指標;通過文獻檢索的方法,獲取美國專利商標局(USPTO)[26]標準專利中發生侵權訴訟后被判定為“有效”或“無效”的標準專利作為標記數據和選定待預測的未標記數據集。其次,對文本數據和指標數據進行降維數據融合,形成新指標特征。最后,選取機器學習的監督學習中K近鄰、樸素貝葉斯模型和半監督學習算法中半監督向量機、偽標簽隨機森林等模型,對未標記數據進行專利的分類預測篩選,其中被判定為“有效”的專利即為行業標準專利內的重點具有核心價值的專利,被判定為“無效”的專利即為行業標準內極易發生侵權訴訟的專利。最終,通過從專利侵權無效宣告的角度出發,達到對不同領域標準必要專利中的潛在重點專利識別的最優選算法指標選取目的,進而建立較為精準的潛在重點專利自動篩選體系。

2.2? 指標選取

2.2.1? 語義特征提取

學術界對于專利文本的選取各不相同,但主要包含專利摘要、專利權利要求書和專利說明書。筆者選取專利摘要進行語義特征提取,專利摘要是對專利說明書內容的概述,主要包括發明或實用新型專利的名稱、專利所屬的技術領域和需要解決的技術問題、發明或實用新型涉及的主要技術特征和用途。在專利摘要研究方面,繆建明等[27]在專利摘要的基礎上,采用類中心向量分類算法對專利進行快速自動分類;吳潔等[28]利用專利摘要生成專利的核心詞匯網絡,搭建基于圖卷積網絡的高質量專利自動識別模型;周群芳等[29]利用摘要對中文專利的新技術術語進行識別。

因此,在語義識別方面,筆者利用自然語言識別中Word2vec模型對文本內容進行詞語向量化處理,主要涉及兩種模型:CBOW模型和Skip-gram模型(見圖2)。筆者主要采用CBOW模型,具體訓練方法為:輸入層由one-hot編碼的輸入文本組成,隱藏層是n維的向量,最后輸出層是由one-hot編碼的輸出文本向量。

2.2.2? 計量指標選取

學術界對于專利的各類特性的評估指標選取方式也各不相同,馮君[30]從專利技術質量、專利權保護質量、產業高度和社會經濟效益4個方面對單件專利質量進行評價;劉亞杰等[31]從法律風險、技術風險、組織管理風險、合作因素風險、環境因素風險5個方面構建高校專利運營風險評估指標體系。因此,筆者結合國內對專利質量評價和專利風險評估兩方面的研究選取重點專利篩選指標,主要從技術層面、法律層面和市場層面3個維度選取構建專利篩選模型指標。

在技術層面,筆者主要選取8個計量指標,首先是專利技術方面,涉及單件利的“技術先進性”“技術穩定性”和“IPC個數”,此類指標主要體現了專利的技術覆蓋范圍,J. Lerner 等[32]提出用專利文件中的IPC(國際專利分類號)小類的數量來衡量專利覆蓋的技術范圍;其次是專利引證方面,主要涉及單件專利的“引證次數”“家族引證次數”,張嫻等[33]指出根據專利的引證關系可以看出專利之間的累積與繼承關系;最后是專利的被引證方面,主要涉及單件專利的“被引證次數”和“家族被引證次數”,李春燕等[34]指出如果專利的被引用次數越多,則該專利越能代表該領域的基礎技術,可以反映出該專利的技術先進性。在法律層面,筆者主要選取“權利要求數量”“保護范圍”“轉讓次數”和“首權字數”,主要涉及專利權法律效力所涉及的發明創造的范圍,郭青等[35]認為權利要求數量越多,專利的保護范圍越廣;“保護范圍”主要涉及專利權法律效力所涉及的發明創造的范圍,“轉讓次數”反映專利的交易次數,劉強[36]認為重大技術的專利轉讓會給企業帶來大額的經濟效益,極易發生轉讓合同生效與解除、合同權利與義務等法律問題;“首權字數”反映專利保護的技術特征數量。在市場層面,筆者主要選取“簡單同族個數”“擴展同族個數”和“DocDB同族個數”,楊秀財[37]認為同族專利數量可以反映專利家族學術影響力。重點專利篩選指標如表1所示:

2.3? 研究方法

2.3.1? 模型選取

(1)模型降維融合。在模型文本特征和計量指標數據降維融合方面,筆者選取目前較為常用的降維方法——PCA主成分分析法(principal component analysis),它是一種非監督的機器學習算法。一般使用方差(variance)來定義樣本之間的間距,公式如下:

(2)訓練模型選取。在數據模型建立方面,筆者選取機器學習中分類模型,主要涉及監督和半監督學習中以下幾種模型:一方面是半監督學習中半監督向量機(transductive support vector machine, TSVM),TSVM是支持向量機在半監督學習上的推廣,穿過數據低密度區域的劃分超平面將兩類有標記樣本分開;其次是利用偽標簽(pseudo-labelling)算法和集成學習中隨機森林(random forest)算法結合,利用隨機森林訓練標記數據建立模型,再利用該模型為未標記數據集生成偽標簽,將原始標簽和偽標簽的數據集組合在一起進行最終分類模型訓練。另一方面是監督學習K近鄰(K-Nearest Neighbor,KNN),KNN是將已知類別的樣本作為參照,計算未標記數據集與標記數據集的距離,將未標記數據與K個最鄰近標記數據集中所屬類別占比較多的歸為一類;樸素貝葉斯算法(Na?ve Bayesian)根據貝葉斯公式來對未標記進行分類,把未標記數據判別為概率最大的一類。

2.3.2? 模型評估

筆者采用多模態模型最終完成的任務是專利無效宣告的二分類問題,故采用準確率(accuracy)、平均精確率(precision)、平均召回率(recall)、平均F1值(F1)以及ROC曲線下方的面積(area under ROC the curve)5個指標對模型的性能進行評價。對于二分類問題,將樣例數據根據機器學習的預測類別與實際類別相結合分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)4種情況。

準確率是指模型分類正確的專利樣本數量與所有的專利樣本數量的比值,其計算公式如下:

精確率是指檢測出某類特征的數量與檢測出的所有特征數量之間的比率,衡量的是模型的查準率,其計算公式下:

平均召回率是指檢測出的某類特征的數量和數據集中所有的該類特征數量的比率,衡量的是檢索系統的查全率,其計算公式如下:

F1是基于查準率與查全率的調和平均(harmonic mean)定義的,一般情況下,當F1較高時則說明試驗方法比較有效,其計算公式如下:

AUC(Area Under Curve)可通過ROC曲線下各部分的面積求和而得,假定ROC曲線(receiver operating characteristic)是由坐標為{(x1, y1), (x2, y2)……(xm, ym)}特征值組成,ROC曲線的y代表“真正準確率”(true positive rate),x代表“假正例率”(false positive rate),其計算公式如下:

3? 實證分析

3.1? 數據來源與數據處理

《“十四五”文化和旅游科技創新規劃》[38]中指出開展信息技術在文化和旅游領域應用示范,推動行業開發信息技術應用新場景。因此,筆者選取新興產業中數字創意產業在新一代信息技術產業中的應用作為研究主題,利用機器學習中分類模型,對該主題必要標準專利中的潛在高質量專利和易發生侵權訴訟的專利進行分類識別。模型主要涉及以下兩個方面:首先是標記數據庫,筆者選用美國專利商標局(USPTO)[27]標準專利中侵權專利數據庫作為標記數據,該數據為USPTO官方網站公布的1963—2016年在美國聯邦地區法院提起的專利訴訟數據集,王春博等[39]認為通過分析美國專利訴訟的發生原因,能為中國企業提前降低專利訴訟風險提供一定的參考;其次是未標記數據,筆者選取歐洲電信標準化協會(European Telecommunications Standards Institute)和國際電信聯盟(International Telecommunication Union)標準專利數據庫中該主題的國內標準必要專利,構建檢索式為:INDUSTRY1=(8 AND 1) AND STD-TYPE=(ETSI OR ITU),其中,INDUSTRY為戰略性新興產業類型(1:新一代信息技術;8:數字創意產業),STD-TYPE為標準必要專利類型。綜上所述,標記數據為422件,未標記數據1 972件專利。

3.2? 分類模型構建

3.2.1? 特征轉化融合

首先,利用2.2.1節所述的文本向量模型對專利摘要進行詞向量處理,將專利摘要轉化為一個300維的特征向量用以表征專利文本特征;其次,再將文本向量和數據指標橫向拼接后得到特征矩陣,再利用PCA成分分析法對特征向量矩陣進行降維處理,利用PCA算法對所構建的特征矩陣進行融合重組,得出解釋方差比例和主成分個數之間的關系。如圖3所示,當主成分個數在50左右時,解釋方差的比例開始趨近于穩定。因此,在模型構建時,將主成分個數設定為50進行特征合并。

3.2.2? 分類模型

首先,使用Word2vec對專利摘要進行文本詞向量化轉換,再利用PCA主成分分析法對數據進行數據融合,將融合后的數據分別建立半監督向量機、K近鄰、樸素貝葉斯算法、偽標簽隨機森林4種機器學習模型,利用“留出法”(hold out)按照8:2的比例,將數據劃分為訓練集和測試集。在訓練集上進行單獨訓練,其中KNN模型利用交叉驗證繪制錯誤率走勢圖,如圖4所示,當neighbors為8左右時,整體模型錯誤率最低,僅為0.17左右。

其余模型均采用交叉驗證結合網格搜索以及學習曲線的方式尋找最優超參數組合,各個分類器的參數組合見表2。由表2可以看出,集成學習的模型參數劃分相比較于單個學習模型劃分要更加細致,這主要是由于集成模型會對原始數據進行有放回的隨機采樣,所以在模型的參數劃分上更加細致。

3.3.1? 特征重要程度評估

圖5為訓練集模型指標的特征重要程度。在訓練模型構建完成后,由于不同特征對于模型的影響程度不同,為了防止個別指標重要性較高,影響模型其他指標效果,則需要對所選取特征的信息熵進行分別計算,選取最優指標。筆者將訓練集數據進行特征重要程度可視化,由圖5可以看出,首先是特征重要程度排名前三的指標,排在第一位的是“11DocDB同族個數”,對于模型分類結果的重要程度最高,重要程度為0.16左右;排在第二位的是“3引證次數”,重要程度為0.15左右;排在第三位的是“4被引證次數”,重要程度為0.10左右。其次,“6技術先進性”重要程度在14項指標中排名最低,僅為0.02左右。最后,其余指標的重要程度均在0.05左右。

根據特征的重要程度可以看出,所選取的14項指標的特征重要程度分布相對較為均衡,不存在個別指標主導整體模型情況。因此,所構建模型選取的14項指標均可放入多特征融合的必要標準專利分類當中。

3.3.2? 參數評估

為了評估筆者構建的機器學習模型的性能,采用2.2.3節所述的評估指標,對半監督向量機、K近鄰、樸素貝葉斯算法、偽標簽隨機森林4個模型在測試集上的Accuracy(準確率)、Precision(精準率)、Recall(召回率)、F1-score(F1分數)以及AUC(可分離測度)在測試集上的表現進行評分對比。如表3所示,從表中可以看出,在測試集中,Random Forest的Accuracy、Precision、Recall、F1以及AUC的評分是所有模型當中最高的,其評分均在0.85以上。由此可見,筆者構建的數據在偽標簽隨機森林集成模型上的表現相較于其他單個模型表現較優,將計量指標和文本特征進行融合后,對標準專利識別分類模型所涉及的內容更加全面,對于專利的分類識別也就更加準確。另外,本文數據主要來源于美國USPTO中標準專利侵權案件,根據上述5種模型的運行和評估情況,均可以將模型運用在不同領域的專利不同類別的識別。

3.4? 專利分類篩選

模型構建完成后,再將“未標記”數據集放入模型進行無效宣告預測,結果為341件專利被預測為“有效”,即為行業內重點必要標準專利;1 631件專利被預測為“無效”專利,即為行業內極易發生侵權訴訟專利。表4為未標記數據特征平均值,表5為模型預測結果為“有效”的專利清單,表6為模型預測結果為“無效”的專利清單(僅展示部分數據)。

根據表4可以看出,其中被預測為“有效”的高質量專利的主要計量指標特征的取值分別為:平均被引證次數為0.243左右、平均首權字數為258、平均技術先進性為9.65、平均技術穩定性為8.95、平均同族個數為17.77、權利要求數量為24.29;而被預測為“無效”的極易發生侵權訴訟的主要計量指標特征的取值分別為:平均被引證次數0.91、平均首權字數為288、平均技術先進性為9.21、平均技術穩定性為8.76、平均同族個數為19.21、權利要求數量為19.42。由此可以看出,兩者的相差主要集中在被引次數、首權字數和權利要求數量,其余指標的相差較小。因此,企業應多注重自身被引次數較高、首權字數較多的專利,該類專利易發生侵權訴訟風險。

根據表5所預測結果為“有效”的專利主題可以看出,近5年,在文化和旅游科技創新領域的高質量重點標準專利主要集中在涉及網絡安全監視、網絡密鑰、信息處理等技術主題中。同時,根據表6所預測結果為“無效”的專利主題可以看出,近5年,在文化和旅游科技創新領域的標準專利在移動通信系統、信息終端接入、移動數據處理等技術主題中極易存在訴訟競爭的風險。結合崔維軍[40]所指出的5G標準必要專利分布特征主要集中在內部固定網絡、LTE和無線電技術等領域。因此,行業內企業在后續專利研發、布局中可以參考標準必要重點專利清單,同時根據訴訟風險清單盡可能規避該類技術主題存在的訴訟風險。

4? 研究發現與結果討論

4.1? 研究發現

筆者首先根據前人對于專利無效宣告和必要標準專利的相關研究,提出了從專利侵權無效宣告視角出發,基于多模態融合的專利分類方法;其次,利用Word2vec對文本進行數據轉換,再采用集成學習模型和機器學習中二分類模型,對專利無效宣告傾向進行分類,進行模型對比驗證;最后,在數據庫的選取上,將美國標準專利數據庫和國內新興產業標準專利相結合,對模型進行實驗分析,驗證筆者構建的專利分類模型的有效性及準確性。通過實證分析得出如下結論:

(1)模型構建方面。在對文本和數據的處理上,由于數據向量形成較多,則需要對融合向量進行數據合并和數據降維處理,可選用主成分分析法對向量進行降維。與此同時,在模型分化時,為了防止模型的過擬合,含有過多的不必要信息,需要計算模型的最佳節點和最

佳分化方法,可利用交叉驗證方法繪制錯誤率、網格搜索法以及繪制學習曲線的方式來獲取所選取模型的各類最優參數。另外,根據模型的評估結果可以看出,偽標簽和隨機森林相結合模型效果較好,準確率為0.86左右,F1為0.85左右。在模型構建后,為了防止個別指標出現主導整體預測結果的現象出現,需要對所選取的特征指標進行特征重要程度的分析。根據特征重要程度排序可以看出,集成學習模型的整體表現要優于單個模型的訓練。

(2)識別結論。通過構建模型識別可以看出,文化和旅游科技創新領域的高質量重點標準專利主要集中在涉及網絡安全監視、網絡密鑰、信息處理等技術主題,在移動通信系統、信息終端接入、移動數據處理等技術主題中極易存在訴訟競爭的風險,為后續國內文旅企業專利布局提供一定的參考。并且根據模型的整體呈現效果,建立一套較為完整的專利分類篩選體系,可以應用于多個領域,快速定位行業內的重點專利的同時,達到很好的專利預警效果。

4.2? 結果討論

筆者主要以美國專利商標局(USPTO)披露的各行業必要標準專利為參考標準,選取當中發生的侵權專利,對國內新興產業行業內專利進行重點專利和易發生訴訟專利進行分類篩選,同時實現兩種不同類型專利的分類篩選。綜上所述,筆者構建的必要標準專利預測模型以及專利無效宣告的預警體系對我國專利的研究具有一定的參考性以及現實意義,可以為企業以及其他創新主體對于自身專利的情況提供一定的判斷依據,為保護自身專利的穩定性提供相應的數據支持。

但是,筆者構建的預測模型和預警體系也存在一定的局限性:①在數據識別指標的選取上,主要選取部分定量指標進行模型構建,并未充分考慮其他外部因素指標對于侵權無效宣告預測的影響,識別預測指標體系也需進一步完善。并且選取數據二分類較為均衡,且本文數據模型是對已經涉及侵權案例中最終有效或無效進行判定,并未充分考慮是否侵權判定。②在文本類別的識別上,筆者主要選取摘要作為本文數據,并未涉及專利的說明書和權利要求書,對于專利文本的提取不夠全面。③在模型的選取上,筆者僅采用機器學習中偽標簽、支持向量機、K近鄰、樸素貝葉斯以及集成學習中隨機森林對專利進行分類篩選的構建,模型選擇較為單一,并未嘗試利用數據挖掘中其他模型對專利進行分類預測的構建。因此,在后續的研究過程中,筆者將根據以上三點進行更加深入的研究,不斷完善專利預警預測模型,進而構建更加精準的專利無效宣告的預警體系,進一步改進模型,使分析結果更為準確。

參考文獻:

[1] 馬麗婧, 劉婷, 趙亞娟, 等. 潛在標準必要專利特征研究[J]. 中國發明與專利, 2021, 18(7): 3-12. (MA L J, LIU T, ZHAO Y J, et al. Research on the characteristics of potential standard essential patents[J]. CHINA invention & patent, 2021, 18(7): 3-12.)

[2] 孫茂宇, 蘇志國, 毛琎. 標準涉及專利問題研究[C]//專利法研究(2013). 北京: 知識產權出版社, 2015: 263-273. (SUN M Y, SU Z G, MAO J. Standards research on patent issues [C]//Patent Law Research (2013). Beijing: Intellectual Property Publishing House, 2015: 263-273.)

[3] 知識產權強國建設綱要(2021—2035年)[J]. 知識產權, 2021(10): 3-9. (Outline for building a strong intellectual property country (2021—2035)[J]. Intellectual property, 2021(10): 3-9.)

[4] 李曉鳴. 我國專利無效宣告制度的不足及其完善[J]. 法律科學(西北政法大學學報), 2021, 39(1): 149-159. (LI X M. The deficiency and perfection of patent invalidation system in China [J]. Science of law (Journal of Northwest University of Political Science and Law), 2021, 39(1): 149-159.)

[5] 王瑞龍. 侵權訴訟中專利權無效抗辯制度弊端及解決路徑[J]. 中南民族大學學報(人文社會科學版), 2018, 38(2): 126-131. (WANG R L. The drawbacks and solutions of the patent invalidation defense system in infringement litigation [J]. Journal of South-Central Minzu University (humanities and social sciences edition), 2018, 38 (2): 126-131.)

[6] STERLACCHINI A. Trends and determinants of energy innovations: patents, environmental policies and oil prices[J]. Journal of economic policy reform, 2020, 23(1): 49-66.

[7] 李睿, 徐璇. 宣告無效專利的引文特征及其情報學意義[J]. 情報理論與實踐, 2019, 42(2): 25-30. (LI R, XU X. Citation characteristics and information science significance of invalid patents [J]. I Information studies: theory & application, 2019, 42(2): 25-30.)

[8] 周克放, 喬永忠. 基于無效程序的ICT領域專利質量影響因素研究[J]. 科研管理, 2021, 42(10): 148-155. (ZHOU K F, QIAO Y Z. Research on the influencing factors of patent quality in ICT field based on invalid procedures [J]. Scientific research management, 2021, 42(10): 148-155.)

[9] RAI A K, ALLISON J R, SAMPAT B N. University software ownership and litigation: a first examination[J]. North Carolina law review, 2009, 87(5): 1519.

[10] PATEL P A, HALL A, AUGOUSTIDES J G T, et al. Dynamic shunting across a patent foramen ovale in adult cardiac surgery—perioperative challenges and management[J]. Journal of cardiothoracic and vascular anesthesia, 2018, 32(1): 542-549.

[11] 王曉曄. 標準必要專利反壟斷訴訟問題研究[J]. 中國法學, 2015(6): 217-238. (WANG X Y. Research on antitrust litigation of standard essential patents [J]. China legal science, 2015(6): 217-238.)

[12] BEKKERS R, MARTINELLI A, TAMAGNI F. The impact of including standards-related documentation in patent prior art: Evidence from an EPO policy change[J]. Research policy, 2020, 49(7): 104007.

[13] 李宗輝. 標準必要專利跨國訴訟中禁訴令的適用標準研究[J]. 法商研究, 2022, 39(4): 187-200. (LI ZH. Research on the applicable standards of injunction in transnational litigation of standard essential patents[J]. Legal quotient research, 2022, 39(4): 187-200.)

[14] CONTRERAS J L. Patents on 5G standards are not matters of national security[J]. IIC-International review of intellectual property and competition law, 2022, 53(6): 849-852.

[15] KANG I S, NA S H, KIM J, et al. Cluster-based patent retrieval[J]. Information processing & management, 2007, 43(5): 1173-1182.

[16] LAER M V, BLIND K, RAMEL F. Standard essential patents and global ICT value chains with a focus on the catching-up of China[J]. Telecommunications policy, 2022, 46(2): 102110.

[17] 李婳婧, 謝秋琪, 李聞宇. 潛在標準必要專利信息識別路徑研究——以5G標準為例[J]. 中國標準化, 2022(15): 81-87. (LI H J, XIE Q Q, LI W Y. Research on the identification path of potential standard essential patent information-taking 5G standard as an example[J]. China standardization, 2022(15): 81-87.)

[18] 孫玉艷, 張文德. 基于組合預測模型的專利價值評估研究[J]. 情報探索, 2010(6): 73-76. (SUN Y Y, ZHANG W D. Research on patent value evaluation based on combined forecasting model[J]. Information research, 2010(6): 73-76.)

[19] 徐晨倩, 朱雪忠. 基于訴訟專利情報的美國337調查風險預警研究[J]. 情報雜志, 2021, 40(9): 37-44. (XU CQ, ZHU XZ. Research on risk early warning of US 337 investigation based on litigation patent information[J]. Journal of intelligence, 2021, 40(9): 37-44.)

[20] 王子焉, 劉文濤, 倪淵, 等. 專利價值評估研究綜述[J]. 科技管理研究, 2019, 39(16): 181-190. (WANG Z Y, LIU W T, NI Y, et al. Review of patent value evaluation research[J]. Science and technology management research, 2019, 39(16): 181-190.)

[21] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質量評價方法研究[J]. 科研管理, 2018, 39(5): 138-146. (ZHANG J, SUN C, ZHAI D S, et al. Research on patent quality evaluation method based on litigation patents[J]. Scientific research management, 2018, 39(5): 138-146.)

[22] 李靜, 徐路路. 基于機器學習算法的研究熱點趨勢預測模型對比與分析——BP神經網絡、支持向量機與LSTM模型[J]. 現代情報, 2019, 39(4): 23-33. (LI J, XU LR. Comparison and analysis of research hotspot trend prediction models based on machine learning algorithms-BP neural network, support vector machine and LSTM model [J]. Journal of modern information, 2019, 39(4): 23-33.)

[23] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質量評價方法研究[J]. 科研管理, 2018, 39(5): 138-146. (ZHANG J, SUN C, ZHAI D S, et al. Research on patent quality evaluation method based on litigation patents[J]. Scientific research management, 2018, 39(5): 138-146.)

[24] JEE J, SHIN H, KIM C, et al. Six different approaches to defining and identifying promising technology through patent analysis[J]. Technology analysis & strategic management, 2022, 34(8): 961-973.

[25] INDUKURI K V, AMBEKAR A A, SUREKA A. Similarity analysis of patent claims using natural language processing techniques[C]//International conference on computational intelligence and multimedia applications (ICCIMA 2007). Piscataway: IEEE, 2007: 169-175.

[26] Patent litigation data from US district court electronic records (1963-2015)[EB/OL]. [2023-09-20]. https://www. uspto.gov/.

[27] 繆建明, 賈廣威, 張運良. 基于摘要文本的專利快速自動分類方法[J]. 情報理論與實踐, 2016, 39(8): 103-105, 91. (MIAO J M, JIA G W, ZHANG Y L. Rapid automatic classification of patents based on abstract text[J]. Information studies: theory & application, 2016, 39(8): 103-105, 91.)

[28] 吳潔, 桂亮, 劉鵬, 等. 多維特征視角下基于圖卷積網絡的專利技術領域自動識別研究[J]. 中國管理科學, 2023, 30(12): 185-197. (WU J, GUI L, LIU P, et al. Research on automatic identification of patent technology field based on graph convolutional network from the perspective of multi-dimensional features[J]. Chinese journal of management science, 2023, 30(12): 185-197.)

[29] 周群芳, 吳婕, 谷俊. 基于本體的專利語義檢索研究[J]. 情報探索, 2013(9): 71-74. (ZHOU Q F, WU J, GU J. Research on ontology-based patent semantic retrieval[J]. Information research, 2013(9): 71-74.)

[30] 馮君. 基于專利信息分析的高??萍紕撔履芰υu價指標體系初探[J]. 科技情報開發與經濟, 2010, 20(10): 193-194, 204. (FENG J. Evaluation index system of university science and technology innovation ability based on patent information analysis[J]. Sci-tech information development & economy 2010, 20(10): 193-194, 204.)

[31] 劉亞杰, 陳朝暉, 謝薇. 高校專利運營風險指標體系構建研究[J]. 中國發明與專利, 2018, 15(1): 20-24. (LIU Y J, CHEN Z H, XIE W. Research on the construction of patent operation risk index system in universities [J]. China invention and patent, 2018, 15(1): 20-24.)

[32] LERNER J, SERU A. The use and misuse of patent data: Issues for finance and beyond[J]. The review of financial studies, 2022, 35(6): 2667-2704.

[33] 張嫻, 田鵬偉, 茹麗潔, 等. 專利前向引用遵循Logistic擴散模型再驗證[J]. 知識管理論壇, 2017, 2(2): 110-119. (ZHANG X, TIAN P W, RU L J, et al. Patent forward citations follow the Logistic diffusion model for re-verification [J]. Knowledge management forum, 2017, 2(2): 110-119.)

[34] 李春燕, 石榮. 專利質量指標評價探索[J]. 現代情報, 2008(2): 146-149. (LI C Y, SHI R. Evaluation of patent quality indicators [J]. Modern intelligence, 2008(2): 146-149.)

[35] 郭青, 戚湧, 高盼軍. 基于技術、法律和經濟三位一體的專利質量評價及應用研究[J]. 中國發明與專利, 2021, 18(1): 21-29. (GUO Q, QI Y, GAO P J. Research on patent quality evaluation and application based on the trinity of technology, law and economy[J]. China invention & patent, 2021, 18(1): 21-29.)

[36] 劉強. 專利開放許可費認定問題研究[J]. 知識產權, 2021(7): 3-23. (LIU Q. Research on the determination of patent open license fee [J]. Intellectual property, 2021(7): 3-23.)

[37] 楊秀財, 林波, 王園. 專利家族學術影響力的影響因素研究[J]. 科技與經濟, 2020, 33(3): 46-50. (YANG X C, LIN B, WANG Y. Research on the influencing factors of the academic influence of patent family [J]. Science & technology and economy, 2020, 33(3): 46-50.)

[38] 文化和旅游部發布《“十四五”文化和旅游發展規劃》[J]. 中國會展(中國會議), 2021(12): 26-29. (The Ministry of Culture and Tourism issued the “14th Five-Year Plan for Cultural and Tourism Development” [J]. China convention and exhibition (China conference), 2021(12): 26-29.)

[39] 王春博, 王宇開, 杜偉, 等. 基于美國專利數據的涉訴專利申請特征研究[J]. 情報雜志, 2022, 41(12): 64-70, 15. (WANG C B, WANG Y K, DU W, et al. Research on the characteristics of patent applications involving litigation based on US patent data [J]. Intelligence journal, 2022, 41(12): 64-70, 15.)

[40] 崔維軍, 李璐, 韓碩, 等. 5G標準必要專利分布特征: 國際比較研究[J]. 科技管理研究, 2022, 42(5): 162-169. (CUI W J, LI L, HAN S, et al. Distribution characteristics of 5G standard essential patents: international comparative study [J]. Science and technology management research, 2022, 42(5): 162-169.)

作者貢獻說明:

彭啟寧:數據分析與論文撰寫;

柳炳祥:數據分析與論文指導;

付振康:數據收集與整理;

貝汶瑜:數據收集與整理。

Construction of Standard Essential Patent Value Classification Recognition System Under the Background of Infringement Litigation

Peng Qining1? Liu Bingxiang1,2? Fu Zhenkang3? Bei Wenyu1

1Intellectual Property Information Service Center, Jingdezhen Ceramic University, Jingdezhen 333001

2School of Information Engineering, Jingdezhen Ceramic University, Jingdezhen 333403

3School of Information Management, Nanjing University, Nanjing 210008

Abstract: [Purpose/Significance] Based on machine learning algorithm, an automatic classification and screening model based on multi-modal feature fusion is constructed for industry standard patents. The research also explores a classification indicator system for the value of standard-essential patents in the context of infringement litigation. [Method/Process] First, standard necessary patents after infringement litigation in USPTO are used as marker data. Then, the text data and indicator data are integrated with dimensionality reduction, and the patent classification and screening model based on supervised and semi-supervised learning machine model is established. Finally, the standard patents of digital creative industry are classified and screened. [Result/Conclusion] The average F1 value of the four models constructed in this paper is above 0.8 on the test set, among which the pseudo-labeled random forest model has the best performance and the average F1 value reaches 0.871 06.

Keywords: patent infringement litigation? ? standard patent? ? machine learning? ? natural language processing? ? classification screening

基金項目:本文系2022年度文化和旅游部提質培優計劃專業研究生重點扶持項目(MLIS類)“中小型文化創意企業知識產權創造能力影響因素研究——以景德鎮陶瓷文創企業為例”(項目編號:Mlis-003)和江西省研究生創新基金項目“江西省新材料產業核心專利識別研究”(項目編號:JYC202207)研究成果之一。

作者簡介:彭啟寧,碩士研究生;柳炳祥,教授,博士,通信作者,E-mail: 1093624070@qq.com;付振康,博士研究生;貝汶瑜,碩士研究生。

收稿日期:2023-05-08? ? ? ? 發表日期:2023-11-20? ? ? ? 本文責任編輯:劉遠穎

猜你喜歡
自然語言處理機器學習
基于組合分類算法的源代碼注釋質量評估方法
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數據分析研究
面向機器人導航的漢語路徑自然語言組塊分析方法研究
機器學習理論在高中自主學習中的應用
詞向量的語義學規范化
漢哈機器翻譯中的文字轉換技術研究
HowNet在自然語言處理領域的研究現狀與分析
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合