?

基于指標檢索的科技查新服務模式探析

2023-12-22 08:56毛一雷李琳珊
中國科技資源導刊 2023年6期
關鍵詞:查新檢索科技

毛一雷 曹 燕 李琳珊 孫 潔

(中國科學技術信息研究所,北京 100038)

0 引言

科技查新是以反映查新項目主題內容的查新點為依據,以計算機檢索為主要手段,以獲取密切相關文獻為檢索目標,運用綜合分析和對比方法,對查新項目的新穎性作出文獻評價的情報咨詢服務[1]??萍疾樾伦鳛榭蒲泄芾磉^程中的一個重要環節,不僅能夠引導科技創新過程,為立項、鑒定、成果獎勵等提供參考,而且能夠幫助科研人員了解行業現狀,拓寬研發思路。國務院發布的《關于加快科技服務業發展的若干意見》中明確提出“加強科技信息資源的市場化開發利用,支持發展競爭情報分析、科技查新和文獻檢索等科技信息服務”[2]。在加快實施創新發展戰略的大背景下,我國科技查新工作面臨著來自市場的嚴峻考驗,科技查新的服務模式也發生了相應的變化。在技術研發、產品開發過程中,技術或產品的指標參數是其技術水平或產品性能的直接反映,如何充分利用各類查新資源,借助傳統查新手段建立起支撐科技決策和產業創新的精準查新服務模式是本文要解決的主要問題。

1 國內外研究進展

1.1 科技查新服務模式

我國科技查新可追溯到20世紀80年代,其本質是專業化的信息檢索[3]。在發達國家,查新(Novelty Search)一般只與專利文獻檢索相聯系。隆新文等[4]將科技查新工作定義為以社會科學研究方法為基礎,依靠期刊、報紙、會議論文、學位論文等公開文獻信息資源,以文獻檢索和綜合評述法等定性分析方法為主的信息服務方式。曹建勇[5]認為科技查新工作的核心就是對項目與成果等要素的創新性進行評價,而這一評價的本質就是信息分析的過程。從定義上看,依靠各類公開的文獻資源,采用專業化的信息檢索手段實現對各類創新要素的評價是科技查新服務的核心內容。

科技查新服務模式的發展主要分為粗放式查新階段、精準查新服務階段、定制化查新服務階段3個階段。在傳統的粗放式查新階段,主要以文獻檢索為核心,圍繞用戶的查新檢索需求,開展以查新點為依據的定題檢索,最終以查新報告的形式提供給用戶。由于科技查新用戶存在很強的異質性,不同類型的查新用戶對查新服務的要求存在顯著差異,傳統的粗放式查新模式已經不能滿足查新用戶的實際需求,查新服務逐漸轉向精準查新服務[6]。在精準查新服務階段,主要聚焦于查新流程的精準化改進。邢春國等[7]指出“精準查新”是將“精準”的理念應用于從查新委托受理至查新報告撰寫、審核的整個查新過程;梅梅等[8]將科技查新數據和互聯網數據進行結合,以豐富的數據資源為基礎,綜合利用大數據技術為查新用戶提供精準服務 ;馬蘭夢等[9]建立了一套“數據維度-需求特征-精準服務”的查新流程,基于研究領域、時間序列和服務對象揭示了查新用戶特征,并從團隊建設、資源配置、合作互聯、宣傳推送、評價反饋的角度制定精準查新策略。在定制化查新服務階段,科技查新服務模式更多地將服務主體納入查新服務過程,針對不同的服務場景開展定制化的查新服務。王紅等[10]將知識服務的理念引入科技查新,在開展常規科技查新以外開發專題/定題服務、競爭情報分析和決策輔助研究等;王欣等[11]將科技查新工作嵌入并應用到創新主體創新活動的整個鏈條,提出了科技創新服務于“創新活動前期、創新活動中期、創新活動后期”的“科技查新+”服務模式;陳峰等[12]將技術盡職調查的理念引入傳統科技查新,從服務側和用戶需求側的雙重視角構建了基于技術盡職調查的科技查新服務模式。

從查新現有業務來看,當前我國查新機構的查新業務主要包括立項查新、專利查新、成果查新、產品查新等[13],多數查新機構服務模式的多樣性和主動性都有待提升。針對現階段用戶差異化、定制化的查新需求,從查新資源層面出發,探討利用專業化的查新檢索能力,將原有的粗粒度查新內容進行細化,推出以指標查新為核心的新型查新業務,對改進傳統查新服務、提高查新業務的市場價值和應用價值、滿足用戶的個性化需求具有一定的實用價值和現實意義。

1.2 指標查新現狀

指標查新在標準研究中應用較為廣泛。在標準研究中常用產品/技術指標對比分析的方法,如對比分析國內外指定領域內的產品指標,助推我國產品走向國際市場[14-15],并且指標對比分析后建立的關鍵技術指標清單[16]也能為行業研發人員提供參考。又如姚靈等[17]針對水表產品標準關鍵性能指標進行對比分析,幫助水表企業更好地理解新國標的基本要求和標準貫徹中的重難點,為技術人員的方案設計提供參考。在標準研究領域,國內已有機構開始探索指標查新在標準服務中的應用。如河北省標準化研究院建立的標準指標數據庫,用戶可以通過產品名稱、指標名稱等進行標準指標檢索[18];中國標準化研究院標準信息研究所推出標準內容指標對比服務,提供國內外標準的技術指標提取和對比分析服務[19]。雖然標準研究的技術指標對比分析涉及文獻類型僅包含標準文獻,但標準研究中的指標對比、指標檢索等方法為科技查新提供了新的思路。在科技查新過程中納入更細粒度的指標對比,完善傳統的科技查新服務思路,探究如何為用戶提供更客觀、更細粒度的主動科技查新服務具有一定的現實意義。

2 指標查新的內涵及特征

2.1 指標查新與傳統查新的流程對比

從業務流程上來講,指標查新與傳統查新大致相同,但在具體操作的側重點上仍有所不同。表1從查新目的、查新內容、查新點、數據庫資源、檢索字段、檢索策略和查新結果等方面將“傳統查新”與“指標查新”的特點進行對比。

2.2 指標查新內涵及特征

根據指標查新與傳統查新在業務流程上的區別,參考科技查新的定義,本文認為指標查新是指以公開數據為查新依據,以計算機檢索為主要手段,以獲取技術或產品的參數、指標相關的文獻為檢索目標,提供與參數、指標相關的技術分析、技術監測、技術預警、決策咨詢等產品的情報咨詢服務。與傳統查新相比,指標查新在數據源、查新過程和查新結論上具有多源性、協同性和精準性的特征。

(1)數據的多源性。指標查新所利用的數據不僅包含傳統的論文、專利、標準、成果等數據,還包含產品庫、企業網站、科普文章、科技新聞、科技論壇等數據資源,而基于各類文獻資源加工得到的指標數據庫能夠大大提高指標查新效率。從數據類型上看,這些數據源包含的數據類型有數據庫中的結構化數據,還有從網頁等提取到的文本、圖片、表格等類型的數據。而從這些數據里對所需指標信息進行抽取加工,以更全面地發現有價值的情報,是科技服務工作面臨的新挑戰。在字段選擇上,數值、指標信息多出現在論文正文、專利說明書中,因此更強調數據庫中的全文、專利說明書等字段的選擇。

(2)過程的協同性。在指標查新過程中,查新員不僅僅充當信息檢索的角色,更多地是由知識服務者向知識交流者轉變。查新員根據自己的查新經驗和初步檢索結果與需求方、領域專家、情報專家等相關方進行交流溝通,并及時根據反饋意見調整下一階段的查新策略,提高查新產品與用戶需求的適配度。

(3)結論的精準性。傳統查新中查新結論是核心,查新結論中著重以技術特征對比的方式強調查新點中技術特征與相關文獻技術特征的差異性,涉及指標層面的較少。指標查新結論涉及技術或產品的具體參數指標,對指標值、參數值的數據精準性較傳統查新要求相對較高,尤其是數值大小、數量單位。因此,在指標查新的產品內容上,用戶需要得到關于這個技術領域、產品性能等更詳細的刻畫描述,從而更準確地了解這個領域的發展概況和前沿進展,以保證情報服務能夠正確、科學、有效地輔助決策過程。

3 基于指標檢索的查新服務模式

基于指標查新的科技查新服務模式由需求感知層、查新資源層、方法工具層和產品服務層構成(圖1)。需求感知體現在情報服務的全過程,需要將服務對象納入整個服務體系中,根據反饋意見修正和完善查新服務過程。查新資源層、方法工具層、產品服務層之間通過對底層數據的采集、組織等過程形成由“資源-信息-知識-情報”的完整鏈條,有效地為各類用戶提供情報決策支撐。

圖1 基于指標檢索的查新服務模式

3.1 需求感知層

精確感知不同類型查新用戶的需求是提供精準查新服務的關鍵。指標查新的服務對象包括企業、科研人員、政府決策機構等,不同類型的用戶在指標查新的需求上各有側重。①對于企業,除了常規的政策、市場、法律等信息外,產品的技術參數對企業進行技術研發、明確市場地位、開拓新市場尤為重要。如在進入市場前,企業可根據產品的技術參數數據,識別和發現同類型產品的競爭對手,從而為企業做好市場布局、制定并購策略提供決策支撐。②對于科研人員,指標參數信息是了解當前科技前沿、明確技術國際定位的重要參考。在產品研發階段,指標查新可以獲取同類型產品的技術參數,可以通過同類型產品的產學研合作加快產品研發進程。此外,指標查新作為技術萌芽階段的一種早期探測方法,指標查新監測到的一些技術研發過程中的早期跡象對科研人員研發方向的確定具有一定的指導意義。③對于政府決策部門,指標查新作為技術監測的一種方式和手段,依據指標查新建立起關鍵核心技術的“卡脖子”指標清單可以為政府部門做好項目布局的頂層設計提供決策支持。對項目管理等類型的政府機構來講,客觀、科學、公正地評估科技項目,已經成為科技項目管理工作的當務之急。早期的科研評審過程中多采用同行評議法,邀請領域專家對項目成果提出意見和判定,但此方法在評審過程中受專家先驗知識的影響較大,評估結果的主觀性較強。文獻計量被引入科研評價后,可以通過既定的文獻計量指標,對項目產出論文、專利等成果的數量和質量進行評估,但這類評價尚未深入到技術內容層面。從這個角度來看,以項目涉及的技術參數、產品參數等指標來衡量項目產出,為科技進步、解決科技問題等貢獻提供良策。

3.2 查新資源層

3.2.1 數據資源組織體系

數據資源是指標查新的保障,數據資源組織體系主要包含數據資源采集和數據資源組織兩個過程。其中,數據資源采集的主要目標是從各類數據庫及互聯網資源上獲得指標數據。在數據類型上,傳統查新以中國知網、萬方數據、Web of Science、EI、Dialog等綜合性文獻數據庫為主,指標查新所依賴的文獻資源除了現有的論文數據庫、專利數據庫等科技文獻數據庫外,更依賴全源性的情報采集工作,包括政府、企業、智庫的各類統計數據、標準數據庫、新聞媒體報道等。數據資源組織是對獲得的指標數據進行再加工,包括指標數據抽取、標引、鏈接等,構建服務于指標查新的指標庫。從技術實現的角度來講,一是根據基于本體的邏輯推理等技術構建起各項指標數據之間的關系,二是通過按照特定的元數據管理規則建立指標數據的元數據管理體系,以實現對指標的準確檢索,保證指標查新過程的準確率。

(1)指標管理體系

對于大多數專業領域來講,指標的定義是統一的,但指標名稱不同其實質含義卻相同的情況依然存在,所以對于描述或表達不一致但指向的指標相同、描述或表達重復但指標名稱不同等情況應加以處理,構建起包含描述對象的各項指標、指標間的層級關系、所屬領域等信息的指標管理體系。指標管理體系以指標描述對象為主體(圖2),即指標I={ID,Name,Definition,When,Who,What,Where}。其中,ID為指標的唯一標識符;Name是指標名稱;Definition是指標的定義及計算方法、計量單位等描述特征;When是指標值公開報道的具體日期;Who是該指標值對應的機構或研究人員;What是該指標對應的指標值;Where是該指標值公開報道的來源,包括新聞、專利、論文等。需要指出的是,指標和指標值之間存在一對一、一對多等不同關系,如指標I和指標值What之間存在著一對多的關系,即一個指標對應多個指標值。多個指標構成指標描述對象,指標描述對象在參考專家領域知識的基礎上實現對描述對象的分類分級,各節點的描述對象共同刻畫出這個技術領域的主要產品/技術特征;根據樹狀結構的層級關系,根節點往往代指的是整個技術領域,最深層節點是指標數據的最小描述單元。

圖2 指標及描述對象的樹狀結構

(2)指標數據的鏈接關系構建

指標數據之間的鏈接網絡由指標和指標間的關系構成,可以表示為S=(I,L,R),其中I表示指標節點集合,L表示指標之間的鏈接關系,R表示指標鏈接規則。具體的鏈接規則包括R={同一機構、同一時間、同一描述對象}。如指標1和指標2之間屬于同一描述對象,可記為即i1表示指標1,i2表示指標2,指標1和指標2之間存在鏈接關系,鏈接的規則為r1,r1表示i1和i2隸屬于同一描述對象。指標之間的鏈接關系如圖3所示,具體分為指標層和數據層,指標層包括指標及其屬性信息,數據層包含文獻庫、機構庫、國家庫、期刊庫等各類數據資源。

圖3 指標數據鏈接網絡

3.2.2 人才資源協同體系

人才資源體系是指標查新走向精準服務的關鍵,人才體系主要包含查新專家、情報專家和領域專家(圖4)。查新專家即科技查新人員,在精準抓住用戶需求、快速提煉主題,將用戶所關注的領域問題轉化成檢索問題上具有長期的經驗積累。情報專家在情報服務工作中積累了豐富的情報信息搜集、加工、分析等經驗,能夠廣泛開展情報研究工作,真正打破情報問題和以政府、企業為代表的決策者之間的“語境鴻溝”。領域專家貫穿于情報服務的整個過程,在前期指標庫建立、后續指標數據的分析過程中,都需要領域專家依靠自身的經驗知識實現指標準確性的判斷和指標數據的快速解讀,從而將抽取出的指標數據與專家的經驗知識相結合形成準確可靠的情報服務成果。查新專家、情報專家和領域專家在整個情報服務過程中溝通協同,最終形成以科技查新人員和情報分析人員為主,以領域專家為輔的協同服務網絡,最大程度地發揮科技查新人員、情報分析人員和領域專家的專業價值,真正形成以科技查新人員、情報分析人員和領域專家共同構成的“科學共同體”,通過指標數據的“采集-抽取-整理-序化-推理”等全鏈條,實現精準化的查新服務。

圖4 人才資源網絡

3.3 方法工具層

3.3.1 領域詞表輔助構建技術

領域詞表的構建是為了滿足查新人員在指標檢索過程中盡可能完整、正確地選用檢索詞,以便保證檢索的查全率和查準率。作為指標所在技術領域的專用詞典,領域詞表羅列了這個領域內的簡要技術清單,為指標查新后續開展技術演化、循證檢索和知識問答等產品服務提供支撐和鋪墊。具體來講,領域詞表構建過程包含指標詞匯抽取、詞間關系識別、詞表更新和完善等過程。從詞表結構來看,領域詞表應包含指標總表、技術領域表和中英文對照表。指標總表在結構上包含指標詞匯的全部信息,包含詞間關系(同義詞、相關詞等),以及所屬學科領域、技術領域、中英文形式等。其中詞間關系之所以是指標總表中的重要內容,是因為在查新檢索過程中各類規范詞、同義詞和縮寫詞、相關詞等經常使用,通過詞間關系對檢索詞進行擴充能夠大大提升檢索效率。技術領域表的構建主要是考慮同一指標描述詞匯在不同的技術領域有不同的解釋含義,方便查新人員從技術分類的角度實施檢索。如在食品檢測領域,F值是指在一定的致死溫度下將一定數量的某種微生物全部殺死所需的時間;在光學領域,F值表示鏡頭的最大光圈;在機器學習領域,F值表示是精確率和召回率的加權調和平均。中英文對照表在檢索國外資源時可以大大提升檢索效率,保證檢索的查全率和查準率。

3.3.2 指標詞匯自動標注技術

指標查新要想實現精準檢索離不開對各類數據資源的細粒度描述,充分利用上下文信息,為進一步的知識關聯和推理作準備,以滿足查新人員和普通用戶對資源的個性化需求。在指標詞匯的自動標注上,采用基于詞典和條件隨機場(CRF)算法相結合的方式,提高待標注文本的識別精度。根據指標查新需求,標注的主要對象為指標詞匯及與指標詞匯相關的所屬機構、所屬時間、描述對象3種關系。標注過程分為人工標注和模型標注兩個部分。首先,針對訓練文檔進行人工各自標注和雙人交叉審核,對有異議的標注進行討論,形成一份較為完善的標注規范,作為后續訓練集的豐富語料,完成標注語料庫的構建。根據得到的標注語料庫,另一部分作為訓練集用于訓練CRF實體識別模型,其余部分作為測試集用于測試模型效果。然后,以不同來源采集得到的數據作為目標文檔,對目標文檔進行過濾、分詞、去停用詞等預處理后,根據已有的領域詞典庫采用字符串匹配的方式進行初步識別,利用訓練得到的CRF模型進一步對待標注文檔進行識別。最后,人工完成對標注后文檔審核,根據人工審核后的標注文本,及時更新領域詞典,完成對CRF訓練模型的迭代更新,形成指標詞匯及其關系的自動標注模塊。

3.3.3 基于語義的查新檢索技術

傳統的查新檢索過程是根據文獻資源的元數據特征完成底層索引庫的構建,根據查新員的檢索式,通過標題、摘要、關鍵詞、主題詞等從文獻檢索系統中獲取相關文獻。通過語義擴展和推理技術,借助推理規則,利用自動標注、信息抽取、關系發現等技術從目標文檔中發現更細粒度的指標信息,從而完善現有的文獻檢索系統,將符合用戶檢索需求的信息傳遞給用戶?;谡Z義的查新檢索技術能夠在傳統檢索系統的基礎上,根據上文提出的領域詞表輔助構建技術和指標詞匯自動標注技術對檢索詞進行概念擴展、關系推理和語義匹配,實現對目標文檔中隱性知識的抽取,得到更加豐富的指標、關系和屬性映射,從而能夠形成以指標為中心的語義檢索模型,得到具有更高檢索性能以及更高查全率和查準率的檢索結果返回給用戶。

3.4 產品服務層

根據情報服務過程與獲取用戶需求的先后順序,可將情報服務產品分為被動型服務產品和主動型服務產品。被動型產品以傳統的科技查新報告、檢索分析報告、技術分析報告為主,是在充分了解用戶真實需求的基礎上,圍繞查新主題展開檢索分析后得到的具有結論性的分析報告。主動型產品在整個情報服務鏈條中將服務過程前置,通過對技術領域的主動性監測、掃描等過程實現前置性的情報服務。根據指標查新的主要特征,產品服務的類型可以包括技術演化時間軸分析、基于指標的循證檢索、基于指標的知識問答等。

3.4.1 技術演化時間軸分析

通過各項指標數據的統計、關聯、分析后進行可視化展示,可以發現趨勢變化及各指標的關聯關系。以光刻機為例,常見的描述指標有工藝節點、分辨率、投影物鏡、光源波長、產率等??v向對比各個參數值的演化趨勢,可以發現企業在每一代產品革新過程中的演化特征和核心技術研發方向;橫向對比各項指標,可以看出各研發企業在不同技術上的優缺點。產率是指光刻機在單位時間內可完成曝光的晶圓數量,是衡量光刻機產業化及經濟效益的重要指標。圖5展示了當前光刻機廠商的產率。產率最高的光刻機是ASML采用ArF光源的TWINSCAN NXT:1470光刻機,產率達到300 wph。EUV光刻機雖然在分辨率和最小工藝節點等技術指標上取得了明顯的進步,但是現有的產率還停留在170 wph,未來仍有很大的發展空間。

圖5 光刻機產率的發展趨勢

3.4.2 基于指標的循證檢索

在循證研究中,一些隨機對照試驗的Meta分析往往被納入循證分析的高質量證據資源。在這個過程中檢索質量的高低將直接影響被納入的證據資源是否具備全面性、客觀性和真實性,并最終影響Meta分析的有效性。在一項維生素D對多囊卵巢綜合征代謝及內分泌指標影響的Meta分析中[20],筆者在證據選取階段主要以包含25羥維生素D水平、內分泌指標(胰島素敏感性檢測指數、胰島素抵抗指數、甲狀旁腺激素、空腹胰島素、總睪酮、睪酮、脫氫異雄酮硫酸鹽、代謝指標(總膽固醇、低密度脂蛋白膽固醇、甘油三酯、超敏C反應蛋白、高密度脂蛋白膽固醇、空腹血糖)等指標的文獻作為Meta分析證據來源,在這類循證研究中,檢索的準確性對提高證據的可靠性有著至關重要的作用。針對領域指標庫中包含的指標及其鏈接關系,可以根據用戶循證研究中對目標證據的需求,快速定位到與證據選擇中所包含指標相關的目標文獻,并獲取與指標相關的機構、國家等相關信息,形成指標相關的語義鏈接網絡,幫助用戶發現與循證證據相關的指標及其關聯關系。

3.4.3 基于指標的知識問答

基于指標數據的知識問答模塊主要包含問題理解、指標數據檢索和答案生成3個模塊。知識問答的核心是對問題的理解,根據用戶提問對問題進行分解,通過系統接口獲取用戶輸入的問題語句,對問題語句進行預處理,獲取問題語句中的疑問詞和中心詞,根據領域詞表建立起中心詞與指標名稱的映射關系,并匹配相應的問題模板。隨后將模板信息傳送至指標數據檢索模塊。根據指標名稱在現有的指標數據庫中進行檢索,借助預設的答案生成模板生成自然語言的回復語句,將檢索得到的數據結果傳入預先定義的答案回復模板。最后把通俗易懂的答案語句反饋給用戶,并將歷史問答內容存儲到后臺數據庫,以便進一步提升問答系統的準確率。

4 結語

科技查新始于查新而不應止于查新。隨著我國建設創新型國家的快速推進,對查新服務內容和服務形式都提出了更高的要求。本文基于科技查新實踐,構建了基于指標檢索的科技查新服務模式,涵蓋了指標查新的數據資源建設、方法工具建設等多方面內容,充分發揮了查新人員、情報人員和領域專家相互融通的決策支持體系和能力,進而推動傳統經驗范式驅動下的查新服務向精準型、主動型查新服務轉變。高質量的指標數據庫是指標查新服務體系建設的核心,未來將進一步結合查新用戶的實際需求,對指標查新的數據資源組織方式、指標查新分析工具和方法進行更加深入的研究,最大限度地發揮指標查新在查新工作發展轉型中的積極作用。同時,努力推動以指標查新為核心的制度、標準等保障機制建設,以確保指標查新服務體系的正常運行,從而能夠充分發揮科技查新工作在我國創新鏈條中的推動作用,為我國科技創新貢獻力量。

猜你喜歡
查新檢索科技
《建筑結構》開啟科技查新新技能
《建筑結構》開啟科技查新新技能
《建筑結構》開啟科技查新新技能
《建筑結構》開啟科技查新新技能
2019年第4-6期便捷檢索目錄
科技助我來看云
科技在線
科技在線
專利檢索中“語義”的表現
科技在線
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合