?

面向電動汽車領域的專利文獻加工和術語抽取方法研究

2014-07-07 15:09
中國科技資源導刊 2014年5期
關鍵詞:術語電動汽車專利

曾 文

(中國科學技術信息研究所,北京 100038)

面向電動汽車領域的專利文獻加工和術語抽取方法研究

曾 文

(中國科學技術信息研究所,北京 100038)

隨著國家科技戰略規劃發展的進一步深化,知識產權戰略已經提升到國家層面,未來國家重點產業持續發展和新興產業創新開拓都與知識產權戰略息息相關。本文以電動汽車領域專利文獻為基礎,從專利文獻加工和解決專利文獻術語抽取的研究問題入手,提出專利文獻再處理的基本流程以及一種基于專利術語語言特點和統計計算相結合的??墨I術語抽取識別方法,并在電動汽車專利文獻數據集上進行了驗證和測試。測試結果表明,本文提出的方法是有效的。

電動汽車;專利文獻;專利分析;專利加工;術語抽取

1 引言

專利文獻是技術、產品、應用和法律狀態信息的混合載體,是具有技術價值和商業價值的知識蓄水池。與其他科技文獻(圖書、期刊、研究報告、會議論文、技術標準、學位論文)相比,專利文獻的特點和情報分析價值主要表現在6個方面:(1)內容相對新穎、廣泛;(2)信息密度大,針對性和實用性強;(3)敘述詳盡,但語言表述上具有較強的技術性;(4)文獻結構格式統一;(5)報道相對及時,時效性相對較強;(6)專利文獻數量龐大,重復出版量大。專利文獻信息的特點和價值,使得專利文獻的分析與應用成為國家管理部門、科研機構和企業等進行技術分析、技術創新和發展的重要手段之一[1-4]。

電動汽車技術的研究符合資源節約型和環境友好型社會的建設要求,因此,我國 “八五”期間啟動了電動汽車的研究和開發工作,在“九五”期間啟動了“空氣凈化工程,到了“十五”期間,科技部提出了我國發展新能源汽車的實施方案,電動汽車重大專項被國家科教工作領導小組批準為國家“十五”期間重點組織實施的12個重大科技專項之一?;诖?,本文圍繞電動汽車領域的專利文獻,開展電動汽車領域專利文獻的基礎性研究工作。

2 電動汽車領域專利文獻數據的加工研究

專利文獻的數據內容相比其他類型的科技文獻更具技術性和創新性,其數據資源蘊含的科技信息價值最高。例如,電動汽車領域專利文獻中的標題、文摘、權利要求項、正文等文本信息含有重要技術細節和技術保護等內容,如何從這些非結構化文本內容中抽取潛在的技術信息,分析領域技術的發展趨勢,對于科學技術創新,輔助技術發展決策等具有重要的意義。

圖1 電動汽車領域專利文獻加工的基本流程

對電動汽車領域專利文獻數據進行技術分析的前提是擁有良好質量的電動汽車領域專利數據資源作為基礎。因此,構建高質量的電動汽車領域專利文獻數據資源成為關鍵問題之一。電動汽車領域專利文獻的數據與其他科技文獻的數據加工在一定程度上具有異曲同工之處,即對于數據源首先均需要進行再次加工處理和存儲的基本過程,其原因在于,電動汽車領域專利文獻數據資源包括中外文電動汽車領域專利文獻。此外,電動汽車領域專利文獻數據資源規模龐大,由于國內外電動汽車領域專利文獻數據信息采集和存儲方式不同,存在數據信息存儲和組織方式不一致的問題。目前,我們進行電動汽車領域專利文獻數據加工的基本流程如圖1所示。其中,加工模塊實現以下功能:(1)識別數據元素,即自動識別電動汽車領域專利文獻數據信息;(2)清洗數據內容,由于電動汽車領域專利文獻資源的數據質量良莠不齊,因此在數據資源存儲之前,首先需要對數據資源進行必要的自動“清洗”處理,去除不規范的字符和符號等,否則導入數據庫的過程中會出現不必要的數據導入錯誤,而且影響日后數據整合和分析質量。存儲模塊的任務主要是:(1)建立數據庫,用于存儲處理后的數據;(2)將自動識別的數據資源內容與存儲的數據庫中的字段實現自動匹配,并自動存儲在相應的數據庫字段內。按照圖1的處理流程,我們開發了相應的軟件工具,實現電動汽車領域專利文獻的加工和存儲,示例圖分別見圖2和圖3。通過電動汽車領域專利文獻的數據加工技術,可以提供諸如標題、權利要求說明和摘要等二次電動汽車領域專利文獻數據信息。

此外,除了針對電動汽車領域專利文獻自身的數據內容進行加工處理外,還需要可用于專利分析的其他數據內容,如被引次數、同族專利數、法律狀態、消歧后的作者姓名和單位名稱、正文等詳細數據信息,并不能實現單獨提供,需要借助國外專利數據庫或商業分析軟件進行獲取。對于這些數據的加工,本文認為在一定程度上需要借助于網絡抓取引擎工具,從而減輕人工成本,即將信息的抓取過程抽象為統一的抓取工具。以電動汽車領域專利文獻為例,需要通過抓取工具的配制參數,控制抓取數據的來源及與電動汽車之間的關聯度,并可以使用不同的模板來規定抓取引擎如何抽取不同的關鍵詞和表屬性以及如何清理數據和入庫。針對電動汽車領域專利文獻數據,網絡抓取引擎定制不同的抓取代理。每個抓取代理包含一個抓取模板、一個抓取引擎和一個抓取探測器。抓取模板根據需要的數據格式以及少量網頁樣本來學習該資料的抓取模式。目前,這部分的工作還處于研究和測試的階段。

3 電動汽車領域專利術語的識別與抽取方法研究

3.1 電動汽車領域專利術語的識別與抽取方法

國內已有的專利術語抽取研究工作基本是采用統計計算和構建專利術語信息抽取模板的方法,實現對專利文獻主題詞的抽取[5]。國內外現有的其他術語抽取技術方法則以利用統計計算方法居多[6-9],但是統計計算的方法需要依賴于語料庫的規模來保證抽取結果的準確度,需要解決的問題是構建語料庫的成本和質量;由于模板規則的覆蓋面小,基于模板規則的方法就需要構造相應的規則庫,而構建術語信息抽取模板是十分耗費人力和物力的。因此,本文采用的基本策略是基于專利術語的語言規則和統計計算相結合的術語抽取策略,實現專利文獻術語的抽取,具體方法如下。

通過對中文國際專利分類表及專利文獻進行抽樣分析并結合科技文獻術語特點,可以發現:專利術語未出現語氣詞、狀態詞、嘆詞、擬聲詞和代詞;專利術語的首詞未出現助詞、連詞;專利術語的末尾詞中未出現方位詞、連詞和助詞;專利術語中包含名詞、動詞或形容詞的數量占多數。

根據上述分析,本文制定專利文獻術語抽取的基本語言規則是:專利術語中至少含有一個動詞、名詞或名詞性成分; 專利術語最后一個詞為動詞、名詞或名詞性成分;專利術語第一個詞不為介詞、量詞;專利術語中無連詞、代詞和語氣詞。

圖2 電動汽車領域專利文獻加工之后的數據庫存儲狀態示例

為了提高專利文獻術語自動抽取的準確性,本文將專利術語詞語的自動抽取過程分為兩部分:一是基于語言特點進行術語的自動抽??;二是基于統計算法對專利術語進行二次抽取識別和過濾,以完成整個專利術語的自動抽取過程。

具體專利術語抽取流程見圖3。

圖3 電動汽車專利文獻術語抽取基本流程

在圖3中的語言學處理是指基于語言特點,將分詞后的字進行字串組合,形成長度為2至10的字串,這些字串即是候選專利術語詞。這些候選專利術語詞經過統計學計算處理,得到最終的專利文獻術語。統計計算的數學模型如下。

3.2 實驗結果和分析

為了驗證本文提出的專利文獻術語的識別與抽取方法的效果,進行了相關的實驗,實驗數據是電動汽車領域的專利文獻數據1226篇,相關實驗結果見表1和表2。

表1 抽取的部分術語示例

表2 實驗數據結果

對于實驗結果的評估,本文采用的是人工識別判定的方法,在不同區域連續隨機抽取800個詞語樣本,之后經過人工判定若干次800個樣本中正確的術語詞語個數,最終得到的平均準確率約為62.1%。

從以上統計的結果可以發現:通過執行本文設計的專利文獻術語識別抽取方法,獲取的術語詞語平均準確率可以達到62.1%左右,其主要原因首先是由于方法本身需要數據語料的規模和質量的保證,而非算法本身所能完全確定的客觀事實,其次方法本身仍需要進一步的改進。

4 研究設想和展望

專利文獻的加工和術語識別抽取方法是構建高質量專利文獻數據,實現專利文獻深層次數據挖掘的基礎。因此,本文以電動汽車領域專利文獻作為研究切入點,重點研究專利文獻加工和術語識別抽取的技術和方法。實驗分析和結果均表明本文的方法是有效的,但其在數據質量和術語抽取的準確度方面由于數據集選擇規模的大小或數據集內容質量的不同而降低,達不到人工識別的精確和智能,在專利文獻術語自動抽取的具體算法設計上有待進一步的細化和設計,以提高實驗結果的質量。

[1] Marc Krier,Francesco Zacca.Automatic Categorization Applications at the European Patent Office[J].World Patent Information,2002, 24(3): 187-196.

[2] 李振亞,孟凡生.基于四要素的專利價值評估方法研究[J].情報雜志,2010(8):87-90.

[3] 郭婕婷,肖國華.專利分析方法研究[J].情報雜志, 2008(1):12-14.

[4] 李建蓉.專利信息與利用[M].北京:知識產權出版社, 2011:8-10.

[5] 王裴巖,張桂平,蔡東風,等.一種用于專利主題詞抽取的模板自動生成方法[J]. 沈陽航空工業學院學報,2010(3):46-49.

[6] 常鵬,馬輝.高效的短文本主題詞抽取方法[J].計算機工程與應用, 2011(20):126-128,154.

[7] 李鵬,王斌,石志偉等.Tag-TextRank:一種基于Tag的網頁關鍵詞抽取方法[J].計算機研究與發展, 2012,49(11): 2344-2351.

[8] 張榕.術語定義抽取、聚類與術語識別研究[D].北京:北京語言大學,2006:35-41.

[9] Frantzi K T,Ananiadou S,Mima H.Automatic Recognition of Multi-word Terms:The C-value/NC-value method[J].International Journal on Digital Libraries,2000,3(2):115-130.

Research of Processing and Term Extraction Based on Electric Automobile Patent Documents

Zeng Wen
(Institute of Scientif l c and Technical Information of China, Beijing 100038)

With the further development of China’s strategic planning of technology, the importance of intellectual property has been growing at the national level. In the future, the sustainable development of China’s key industries will be closely related to its strategy of intellectual property. Based on the electric automobile patents’ document, the paper proposed basic process of reprocessing patent documents. The paper also proposed a automatic extraction method based on patent’s term characteristics and statistical computing. The algorithm was verified on the Electric automobile’s test data set. Experimental results showed that the proposed method was ef f ective.

electric automobile, patent literature, patent analysis, patent processing, term extraction

G356.8

:A

10.3772/j.issn.1674-1544.2014.05.009

曾文( 1973- ) ,女,博士,中國科學技術信息研究所副研究員,研究方向:智能信息處理。

“十二五”國家科技支撐計劃課題“基于多源信息的電動汽車數據挖掘關鍵技術研究”(2013BAG06B01);國家社會科學基金項目“基于事實型科技大數據的情報分析方法及集成分析平臺研究”(14BTQ038);中國科學技術信息研究所科研項目預研資金項目“基于領域的科技文獻重要度評價方法研究”(YY-201416)。

2014年5月12日。

猜你喜歡
術語電動汽車專利
專利
純電動汽車學習入門(二)——純電動汽車概述(下)
專利文摘
電動汽車
現在可以入手的電動汽車
專注:電動汽車背后的技術創新
有感于幾個術語的定名與應用
從術語學基本模型的演變看術語學的發展趨勢
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合