?

IPC自動分類技術的研究與應用

2016-04-07 16:18吳宏洲
電腦知識與技術 2016年3期

摘要:借助IPC分類分析算法,對全文專利文獻結構中幾個重要單元段落的技術含量評估,來觀測每個單元段落其技術含量對專利文獻分類的貢獻,從而有針對性地調整有效的專利自動分類分析源。避免專利自動分類盲目大數據量運算導致專利自動分類效率降低。本文對專利自動分類選擇何種數據源和代價以及制定算法策略具有指導意義。

關鍵詞:IPC分類;分類表;TF-IDF;相似度算法;文獻結構;技術分布分析;

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)03-0215-04

筆者從事專利自動化項目開發和維護廿余年,一直以為對專利文獻有一定程度的了解,談到專利的技術構成會未假思索地沿用前人的結論:專利文獻技術的構成主要由發明名稱、摘要、技術領域和權利要求等重要段落基本可以確定。甚至,對權利要求書毫不猶豫推為主選。直至最近通過筆者的一系列分析研究實驗,見到實驗數據結果后,才真正完全徹底地顛覆了從前的認識。筆者公開這一分析與公眾分享,請方家指正,亦即本文的目的。

1 實驗背景及方法

本文在自主完成分詞技術的研究[1][2]和專利“標題+摘要”輔助自動分類算法研究[3]的基礎上,對專利文獻層次結構展開進一步單項分析。參見圖1專利文獻層次結構分析流程圖:

1.1 專利文獻的層次結構

專利文獻主要分為專利著錄項目、專利說明書和專利的權利要求書。

其中專利著錄項目包括:專利公布的文獻號、公布日期、ipc技術領域分類、發明名稱、摘要和其他權利人相關的信息、在先申請信息等。這里與技術特征相關的段落主要是:ipc技術領域分類、發明標題和摘要。

專利說明書包括:發明名稱、技術領域、背景技術、發明內容及其有益效果、實施方法及其附圖等。筆者將其中發明內容和有益效果被看作發明內容整體來考慮,且與專利文摘抽象的構成要素密切相關。這里與技術特征相關的段落主要是:技術領域、背景技術和發明內容。

權利要求:主要包括獨立的權利要求和從屬權利要求等詳細描述。當發明內容過于龐雜時專利文摘的抽象的構成要素過于分散,同時伴隨的權利要求書也可能會非常龐雜,不容易抓出重點。通常專利文摘會以首個獨立的權利要求構成專利文摘的抽象要素,然后輔以其他權利要求的概括性綜述。亦即,專利自動文摘技術通常是以發明內容或首個獨立權利要求及其他綜述為依據連同發明的有益效果等抽象要素構成專利文摘。

專利文獻與技術相關領域相關的段落總體可以概括為:Ipc、發明名稱、摘要、技術領域、背景技術、發明內容、權利要求書。其中發明內容屬于大信息量描述,由多達200個段落,個別段落超過600漢字的內容構成超大單元模塊。

1.2 專利文獻的層次結構解析

專利文獻的解析工作主要是從專利文獻電子文檔中獲取層次結構中上述最主要技術代表的7個部分。

通常將不包括ipc在內的6個單元模塊連同整個文獻,分別作分詞分解,然后與IPC分類表技術要素,通過數學模型TF-IDF等算法進行要素可計算性計算,分別給出ipc分數排名。最后通過查看專利文獻中的ipc分類在每個單元段落解析ipc排名中的位置,通常關注前幾項排名,例如前三項排名,是否命中,來判斷其收斂性。由于專利文獻的具象復雜性與專利分類表抽象的術語之間存在差異,其解決辦法在文獻[3]中,主要采用同義詞庫上位詞或線索詞來建立溝通機制。這樣,就會大大解決了命中率和收斂性問題。但是,這樣也會掩蓋了技術要素分類的真實性。因此,本文拒用同義詞庫參與實驗,目的是盡量還原其原生態現象,來觀測其各個單元段落部分的技術構成。從而再現所抽樣的文獻的主要技術分布情況。

2 實驗數據分析

限于篇幅,通過對參與實驗抽樣得到的22篇專利文獻電子文檔2013***** ***new.xml,進行解析,得到各個單元模塊的ipc細目(H99Z 9/99),ipc到大組(H99Z 9/),ipc到小類(H99Z)的首度出現排名位置,用{ H99Z 9/99排名,H99Z 9/排名,H99Z排名}表示。其中不以實際ipc為參照,主要檢測ipc到大組的排名位置,亦即,H99Z 9/的排名作為命中目標的參照。數據中排名位置是從0開始的。-1代表沒有找到或者50名位置以后的,表示發散。例如:{0,0,0}表示三者都排在首位,絕對命中。參見《技術分類排名明細表》表1

分析排名分段分別為:(1)0-2,前三名;(2)3-6,次4名;(3)7-9,后三名。得到《技術分類排名統計表》,參見表2。

通過數據分析,已知,發明內容和全文屬于文獻大信息量單元模塊。標題、文摘、技術領域、技術背景、權利要求屬于小信息量單元模塊。

排名前三的精確命中依次為:

技術背景、文摘 > 全文 > 標題、發明內容 > 技術領域、權利要求

排名前七的模糊命中依次為:

全文>發明內容>文摘、技術背景>標題、技術領域、權利要求

排名前十的模糊命中依次為:

全文>技術背景>發明內容>文摘>技術領域、權利要求>標題

對于組合情況而言:

以小數據量組合在一起的:發明名稱、摘要、技術領域、背景技術和權利要求書。其中權利要求書影響力不大,且被前4項冗余。而前4項之間具有互補性。其中背景技術以技術領域作補充;摘要以發明名稱作補充;背景技術+技術領域又以摘要+發明名稱作補充。其影響力依次為:背景技術、技術領域、摘要、發明名稱。

以大數據量組合在一起:全文和發明內容,兩者具有互補。

小信息量組合與大信息量組合進行對比,參見表3小信息量與大信息量段落的組合對比統計表:

小信息量組合要強于大信息量組合。請再仔細回看表1,甚至完全覆蓋。

因此,對于自動分類來說,選擇文摘和技術背景為主,標題和技術領域作補充??勺鳛樽顑炦x擇方案。

如果是自動分類候選ipc方案,可以采用依次背景技術、技術領域、摘要、發明名稱ipc排名前三名甚至前兩名??晒┻x擇的數據量為(3*4=)12個ipc或(2*4=)8個ipc,其中或有重復的ipc。其對應的ipc大組,即H99Z 9/具有(15/22=)68.2%的概率(參見表1),并可出現在其狹小選擇范圍內。其選擇的目標范圍已經大大縮小。其中還有相當多的是重復的和主ipc或者相關ipc。該算法結合同義詞庫或者提供線索詞方法可以大大提高自動分類的命中率和收斂范圍。

3 實驗結論

通過解析專利文獻結構段落的技術含量,不難得出這樣一個結論:專利文獻技術的構成完全可以通過小信息量的段落解析運算來進行有效地可計算性判斷??梢员苊馐褂萌幕蛘呷唛L的發明內容的大數據量計算解析來獲得判斷。將主要精力依次放在背景技術、技術領域、摘要、發明名稱等小信息量便可容易獲得,其計算量也不會太大。

另外,最值得注意的是,一個顛覆人們習慣認知,即普遍認為:專利領域和權利要求書是用于描述和反映專利技術特征及其領域的最主要單元模塊,標題也非常重要。而在實際文獻撰寫中發明人最缺乏表現力的恰恰是人們通常認為最重要的那些單元段落部分。事實完全與人們預期的截然相反。分析數據表明,標題、專利領域和權利要求書,對判斷文獻技術領域自動分類來說,在7個單元中實際表現力其實是最差的三個單元。這實在應該要引起專利主管部門的注意:每年一度的代理人培訓和考試,是否對代理人提出過更高的標準要求,在協助發明人撰寫專利說明書的時候,是否考慮如何利用這些職能段落來充分表達其專利技術和權利的訴求,形審部門在形式審查中是否對文獻有更高的標準要求權利人撰寫符合足夠要求的文檔,作為形式審查是否合格的判別依據呢?

參考文獻:

[1] 吳宏洲.分詞技術的研究與應用——一種快速分詞的實現[J].電腦知識與技術, 2015, 11(6):179-182.

186

[2] 吳宏洲.分詞技術的研究與應用——一種抽取新詞的簡便方法[J].軟件工程師, 2015,12, 18(12):64-68.

[3] 吳宏洲. IPC自動分類技術的研究與應用——輔助自動分類的算法實現[J]. 電腦知識與技術, 2015(11) (33).

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合