趙 姝 郭雙瑞 褚曉泉 仇 瑜 劉姝伶
(1.智能計算與信號處理重點實驗室,安徽合肥 230601;2.安徽大學計算機科學與技術學院,安徽合肥 230601;3.安徽省信息材料與智能傳感實驗室,安徽合肥 230601;4.清華大學計算機系,北京 100084;5.北京智譜華章科技有限公司,北京 100084)
自1995年美國哈佛大學教授Christensen提出顛覆性技術(Disruptive Technology)概念[1]以來,引起了科研、產業等多方討論。顛覆性技術以其對市場和科技領域的革命性影響而聞名,通常表現為對舊技術的淘汰和新技術的嶄露頭角,主要的表現方式包括對已有技術的突破和由學科交叉而誕生的具備創新性的技術。顛覆性技術的概念在不同學者和領域有不同解讀。一種觀點是強調顛覆性技術改變市場格局,另一種觀點是著重于技術本身的革新。如智能手機的崛起淘汰了傳統手機行業,傳統汽車產業也面臨混合動力的新能源汽車技術帶來的挑戰。
鑒于顛覆性技術對經濟發展和國家競爭力產生的重大影響,各國相繼把培育和支持顛覆性技術發展列為戰略重點。美國在1958年設立國防預先研究計劃局(DARPA),先后在互聯網、隱身技術等領域開展顛覆性技術預測和發展管理[2]。日本內閣府與科學技術振興機構聯合推行“顛覆性創新計劃”(ImPACT)和登月型研發制度來找尋顛覆性技術,期望以此對社會創新管理體系進行根本性變革[3]。在創新驅動的時代背景下,黨的十九大報告明確提出,我國必須加強建設創新型國家的進程,突出顛覆性技術創新,將顛覆性技術研究與發展作為重點工作研究課題[4]。
由于顛覆性技術本身具有不確定性、突變性等特點,對其進行識別則要求研究人員對科學技術預測方法有透徹的了解,同時要有相對應領域的知識儲備。綜合來看,當代技術創新過程日益復雜,各國相關部門、各學科學者對顛覆性技術的識別面臨諸多挑戰。目前,主流的識別方法包括專家研判法和模型預測法,但它們都存在一定的局限性。專家研判法容易受到主觀因素的干擾,模型預測法雖然減少了主觀性,但現有方法的分析維度相對有限。
專家研判法是一種以專家知識為基礎的方法,常用方法包括德爾菲法、技術路線圖法和情景分析法等。專家咨詢所帶來的系統性主觀偏見,致使這個方法難以消除這種偏見[5]。模型預測法依靠論文、專利等科技大數據,通過分析數據特征進行顛覆性技術識別,能夠有效避免主觀因素帶來的影響,提升識別過程的科學性和可解釋性[6]。但是,現有方法分析維度有限,尚未形成系統的、通用的和可操作性強的面向科技大數據的顛覆性技術識別方法。因此,辨析顛覆性技術內在含義,把握其本質特征,利用科學的文獻計量和智能數據分析方法,實現從科技大數據中挖掘顛覆性技術,是亟待解決的重點難題。
鑒于此,本文深入分析顛覆性技術的本質特征,構建一種多維度識別算法,以科技大數據為基礎,實現對顛覆性技術的定量評估與挖掘。首先,本文總結現有的顛覆性技術的識別方法,厘清現有方法的不足和突破點;然后,基于科技文獻的引文構建引文網絡,針對科技引文網絡的引文結構、時序化特征、跨領域影響力和技術時效性,設計技術突破性、創新性、領域影響力、科技文獻影響力4個維度的識別指標,并采用熵權法進行指標計算結果融合,實現面向科技大數據的顛覆性技術多維度識別算法。本文在兩個典型領域進行實驗,驗證了此方法的有效性,為科技評估中顛覆性技術識別任務提供可靠的工具。
截至目前,專家研判法仍是顛覆性技術識別研究中普遍使用的方法。在對具體問題的領域現狀進行調研的基礎上,匯集領域權威專家的力量,以發放問卷、開展研討會等方式進行顛覆性技術的定位和預測,是面臨宏觀分析需求時重要的應對方式。德爾菲法(Delphi Method)、技術路線圖法(Technology Roadmap)和情景分析法(Scenario Analysis)是具有代表性的專家研判方法。
(1)德爾菲法是一種典型的方法,以專家意見為基礎,首先設計技術領域的調查問卷,然后邀請領域專家進行回答,意見在多輪征詢中趨于一致,從而決策未來技術發展方向,目前已經廣泛應用于不同領域的研究中。李曉龍等[7]、但智鋼等[8]以不同領域顛覆性技術預測為研究目標,分別利用德爾菲法對顛覆性技術進行分析;Kostoff等[9]采用德爾菲法結合文本挖掘,將潛在的顛覆性技術從科技文獻中識別出來。從研究結果可以看出,德爾菲法能充分利用領域權威專家意見,具有較強的說服力。但是,這類方法的預測結果完全依賴于專家的主觀意見和知識經驗,具有很強的主觀性與局限性。
(2)技術路線圖是一種圖形化、結構清晰的技術規劃管理工具,以便實現技術規劃的結構化管理。利用探索技術、產品和市場之間的動態變化關系,發掘關鍵技術。技術路線圖作為有益的工具,能夠幫助學者探測技術性能在時間演進中的變化和躍遷,進而識別顛覆性技術。Uchihira[10]從技術的基本特征功能出發,通過預測目標市場的延伸功能需求,尋找可以應用技術的基本功能的市場。Momeni等[11]利用技術路線圖評估光伏產業中具有潛力的顛覆性技術,并制定合理的專利發展路徑。但是,在構建技術路線圖的過程中需要考慮在技術、市場、支撐條件等多方面因素,存在不確定性且耗時耗力,在對顛覆性技術進行識別時,結果的客觀性可能會受到一些影響。
(3)情景分析法是一種基于對某種現象或趨勢進行假設的預測方法,可以預測未來可能出現的情況。2014年,《游戲規則改變者:顛覆性技術與美國國防戰略》報告由新美國安全中心發布,對未來可能出現的技術應用情況進行情景分析,并研究顛覆性技術的需求和相對障礙,以實現技術識別[12]。Schoemaker等[13]認為情景規劃法可以把握技術與市場之間的動態關系,預測新興技術趨勢,引導企業技術投資。但是,運用情景分析法進行預測需要投入大量時間和精力獲取外部環境信息,對專家的要求較高,實際應用上存在一定的困難。
在人工智能和大數據飛速發展的新時代,面對國家和企業對顛覆性技術預測的迫切需求,從科技大數據中挖掘潛藏信息,彌補專家研判在科學性、客觀性方面的不足,已經成為科技管理和技術預測的新趨勢。因此,基于數據和模型的預測方法已成為這個領域關注的重點。
科技數據,如專利和論文,包含了豐富的技術信息??茖W創新思想往往最初通過科學論文呈現。將科技大數據作為基礎,并采用深度學習算法挖掘信息,進而對技術領域進行預測,被認為是更客觀的顛覆性技術識別方法。目前,常見的方法有主題分析法(Thematic Analysis)、數據分析法(Data Analysis)和指標評估法(Index Evaluation)等。
(1)主題分析法是一種用于文本形式的數據分析方法,首先對科技文獻主題概念進行提取,然后采用定量方法對不同的主題進行提煉與取舍,從而實現技術識別。石慧等[14]借助多主題融合的思想,對論文數據中主題詞的變更進行分析,同時結合專利手工代碼的突變監測,實現對顛覆性技術的識別。Momeni等[15]利用主題模型和聚類分析相結合的方法,對專利技術路徑進行分析,進而實現對顛覆性技術的識別。Dotsika等[16]利用詞頻網絡共現分析方法,探究科學文獻的時間演化,包括主題和結構的變化。但是,這類方法對技術的識別以主題為單位,實現了基于數據的分析和識別,適合宏觀的評估需求,容易在分析過程中忽略具有發展潛力的細粒度技術點。
(2)數據分析法是數據分析模型的應用,也是顛覆性技術識別重要方法[17]。黃魯成等[18]在專利分析中嘗試將物種入侵模型應用于顛覆性技術的識別。Cheng等[19]運用SIRS傳染病模型,探究顛覆性技術的爆發規律,并從不同角度分析這個現象。Adner[20]利用用戶需求構建的量化分析模型,識別顛覆性技術發生作用的條件。Sood等[21]提出技術顛覆性風險模型,利用風險系數預測顛覆性技術。但是,由于不同領域之間的知識內涵存在差異,很多研究無法直接應用于科技領域,同時對于知識擴散的測度研究較少,所得結論在指導實踐方面還有待深入。
(3)指標評估法是對顛覆性技術的產生機理與變革特征進行分析,聚焦于技術的原理性突破、技術集成與跨領域應用。這個方法以論文、專利等作為數據基礎,在傳統情報研究方法的基礎上,建立多種定量指標的評價機制來識別顛覆性技術,并結合一定數量的技術實例對其進行驗證。Kaplan等[22]、馬榮康等[23]將利用專利被引次數作為衡量顛覆性技術的依據。根據Martino[24]等的觀點,以及褚曉泉等[25]的研究,利用不同的文獻類型可以反映不同的技術發展階段,如SCI論文反映技術研究的基礎階段,EI論文反映技術研究的應用階段,專利數據則反映技術研究的試驗發展階段,從而對顛覆性技術繼續識別。Park等[26]基于引文網絡提出的CD指標對顛覆性技術的突破性進行衡量,實現了從引文網絡結構層面的顛覆性技術識別,被廣泛應用于顛覆性技術分析任務中,但是這個指標僅能識別出具有特定引文結構的技術點,缺乏綜合性的評估,無法避免識別結果的可信度。
雖然利用科技文獻的外部特征可以在一定程度上識別顛覆性技術,但所識別出的技術主題范疇較為廣泛。此外,不同的評估指標和識別模型從不同的角度和側重點出發,致使指標模型的主觀性較強且缺乏通用性,同時存在分析維度相對單一、識別標準缺少針對性等不足,現有研究結論存在局限性。因此,針對現有方法存在的不足,本文基于顛覆性技術發展特征逐一進行突破,提出名為MAR-DT的顛覆性技術識別框架,結合大規模引文網絡,提出技術突破性、創新性、領域影響力與科技文獻影響力4個計量指標,采用熵權法進行指標融合,并通過實際數據進行驗證。
在科技領域,顛覆性技術的特征涵蓋多個層面,對學術界和產業界都產生深遠影響,且在學術文獻中得以顯著反映。為了更詳細地分析這一復雜主題,本文引入了一個四維模型,涵蓋技術的突破性、創新性、領域影響力以及科技文獻影響力。
首先,技術的突破性特征反映了顛覆性技術在特定領域取得的顯著進展。這不僅包括技術在該領域的技術性突破,更關注其對傳統技術或思維范式的激進性改變。如技術的突破性可能表現為對傳統產業鏈的顛覆性重構。
其次,技術的創新性特征強調顛覆性技術相對于現有技術的新穎性和獨創性。這一維度不僅關注技術本身的創新,還考察其在應用方面可能呈現的全新思路和獨特解決方案。如技術的創新性可能體現在其引入了全新的商業模式或解決了長期未解決的問題。
再次,技術的領域影響力特征表示顛覆性技術對特定領域的深刻影響程度,包括其應用范圍和對該領域整體的重要性。這一方面可以體現為技術的廣泛應用,另一方面可以體現技術對這個領域未來發展方向的引導作用。
最后,科技文獻影響力特征反映了顛覆性技術在學術研究中的知名度和引用情況。高科技文獻影響力通常意味著技術在學術界具有廣泛認可和應用,為未來研究提供了堅實的理論基礎。這可以通過技術在學術期刊中的發表次數、被引次數以及與其他重要文獻的關聯性等指標來衡量。
本文提出的顛覆性技術多維度識別算法(MAR-DT)可以劃分為4個關鍵步驟:①獲取與預處理科技大數據;②構建領域引文網絡;③構建與評估多維指標;④識別顛覆性技術和量化分析結果。首先,根據分析目標設計文獻檢索策略,在Web of Science(WoS)科技論文數據庫中收集顛覆性技術識別候選論文集,進行人工篩選和預處理,構建數據集;其次,借助數據集中引文字段提取節點集合與邊集合,構建領域引文網絡;再次,根據顛覆性技術特征構建面向技術突破性、創新性、領域影響力和科技文獻影響力的評估指標,基于數據和引文網絡進行指標計算并使用熵權法對指標矩陣進行融合計算,排序得出顛覆性技術候選清單;最后,從候選技術清單中分析、篩選得出顛覆性技術清單。算法總體流程如圖1所示。
為了實現科技大數據分析,本文擬采用WoS為數據獲取平臺。面對特定的顛覆性技術分析任務,針對待分析領域設定的科學、全面的檢索策略,利用專業術語和專業的檢索邏輯來確保原始材料的準確性。完成檢索后下載原始數據關鍵字段信息。以論文數據為例,具體下載字段及其在MAR-DT算法中的作用,具體見表1。
表1 論文數據子段說明
科技文獻中存在的引證關系體現著技術之間的流動,對于引文網絡可以從結構的角度探究技術影響力,將有助于從網絡的整體結構中動態地評價技術的重要性,也有助于探究技術在知識流動網絡中的作用。本文根據科技論文數據創建節點集合Vertices=[doi1,doi2,doi3,…,doik]與邊集Edges=[e1,e2,…,el],構建大規??萍嘉墨I引文網絡G=(V,E)。
2.3.1 技術突破性指標
顛覆性技術出現后,對于科技文獻的老化速度具有催化作用,這種現象經常在科技文獻的引用關系中表現出來,當具有顛覆性的科技文獻出現后,科研人員對這個領域之前傳統方法的關注度急劇下降,轉而開始頻繁地引用具有顛覆性意義的科技文獻。
按照技術創新的方式,顛覆性技術可以劃分為對現有技術的鞏固和對現有技術產生沖擊兩種不同的類型。在科技文獻數據中的體現是當一項技術以鞏固性技術的形式出現時,引用文獻通常會同時引用相關領域技術前輩的研究成果,以進行對比和分析;相反地,當一項顛覆性技術以技術沖擊的形式出現時,引用文獻對于相關領域先前研究的引用將減少。為了度量這個屬性,本文引入Funk等[27]提出的CD指數進行顛覆性技術突破性(Breakthrough)的分析,其公式為:
式中,n表示候選文獻的施引文獻數目;fi、bi用于度量文獻引用情況。技術突破性指標范圍為[-1,1],指標值越接近-1,表明這項技術越具有鞏固性;反之,若突破性指標值越接近1,表明此候選文獻的技術在突破性方面具有越高的水平。引文結構如圖2所示。
圖2 技術突破性指標示意
2.3.2 技術創新性指標
顛覆性技術具有較高的創新性,發布后短時間內大概率將受到相關學者共同關注,呈現出快速擴張的趨勢,在一定的時間單元內被引數量會顯著增加。本文發現這種短期受到大量關注的現象可以根據引文網絡中在一定時間內文獻被引數量的變化進行衡量,因此針對顛覆性技術在問世后會存在短暫的快速關注期這一現象。本文通過對引文數量的短時間內的變化趨勢進行創新性指標設計,以此解釋顛覆性技術知識創新與傳播的動態過程。創新性(Innovation)的計算方法為:
式中,cy表示目標論文在y年份的被引用次數;cy-cy-1表征候選科技文獻在公開發表后每兩年被引用數量的差距。技術創新性指標計算結果越高,代表技術在單位時間內的學術影響力越大,越具創新性。
2.3.3 領域影響力指標
顛覆性技術存在發展與完善的過程,在過程中會隨著知識跨領域的擴散,技術本身的影響逐漸擴散到其他領域。本文研究認為,顛覆性技術具有滲透或促進其他技術領域的潛力,對其他領域技術產生影響是其重要特征。技術融合可以使整個技術體系及其產品構成、性能等取得根本性的突破,技術融合還可以打破原有的技術格局,其影響深遠。因此,本文設計了技術領域影響力這項指標,定量地評估顛覆性技術的跨領域影響力。這項指標是利用被引用的科技文獻所屬的技術領域信息進行度量的。技術影響力(Influence)指標表示一篇科技文獻所引用的非原始科技文獻在其技術領域內的影響程度。其計算公式為:
式中,n表示科技文獻所有施引文獻的數量;dti表示非原始科技文獻自身領域的數量;di表示科技文獻所引用的文獻所涉及的技術領域。指標得分越高,這項技術的技術影響力越大。
2.3.4 科技文獻影響力指標
科技文獻被認可的程度能夠在被引用量的變化上體現,但一些較新的科技文獻為體現出文獻調研的全面性,不可避免地引用經典的科技文獻,對顛覆性技術的識別造成干擾。受到期刊影響因子的啟發,避免將被引用量作為單一的衡量指標,引入時間維度的考量,提出技術即時影響力的指標,聚焦于文獻本身的動態性與短時變化性,對顛覆性技術進行更細粒度的評估。技術即時影響力是指一篇科技文獻在其公開發表后當年、發表后第二年以及發表后第三年的被引用量之和與目標科技文獻總被引量之間的比值,以此突出科技文獻的時效特性。
式中,cy,cy+1和cy+2分別代表目標科技文獻在發表后當年、發表后第二年以及發表后第三年的被引用量。技術即時影響力指標得分越高,說明此目標科技文獻的短時間技術影響力越大。
本文為保證所提各項指標融合時權值的客觀性,運用客觀賦值熵權法對本文4項評價指標進行了加權計算。熵權法是一種客觀賦權法,計算指標的信息熵,并根據各指標相對于整體的動態變化程度對整個系統的影響,動態地確定各指標的權重。熵權法以數據的分布為基礎,擁有較高的可靠性和準確性。
顛覆性技術指標矩陣滿足X=其中,xij代表i篇候選科技文獻在第j項評價指標上的得分值。首先,利用式(5)對指標矩陣進行規格化處理。
式中,max(xj)表示在第j項指標上候選文獻的最高得分值;min(xj)表示在第j項指標上候選文獻的最低得分值;代表歸一化后的第i篇候選文獻在第j項指標上的得分值。
進行歸一化后得到的顛覆性技術指標矩陣為:
對歸一化后的指標矩陣進行指標比重計算,如式(6)所示。
然后,使用式(7)計算第j項指標的熵值:
利用式(8)對第j項指標的差異系數進行計算。
式中指標的差異系數越大,對于最后的顛覆性技術評估的影響就越顯著。
最后,利用式(9)對第j項指標的權重進行計算。
根據式(9)進行權重計算,分別得到各指標的權重,并綜合突破性、創新性、技術影響力以及技術即時性指標,使用式(10)得到最終指標值Comprehensive。
式中,xij表示第i篇文獻的第j項指標的權重;wij表示其對應的權重。對最終指標值Comprehensive進行逆序排序,選取排序結果的前100篇作為顛覆性技術識別結果。
本文采用計算機科學和無線電通信兩個領域的科技文獻數據進行實證研究,深入分析并識別其中的潛在的顛覆性技術,探索和揭示這些顛覆性技術的潛力和影響。同時,本文還將提出相關領域技術與產業發展方面的戰略思考與建議,為未來的創新和發展提供參考與借鑒,以促進技術和產業的可持續發展。
本文采用的計算機科學與無線電通信領域的科技文獻樣本源于WoS(Web of Science)科技文獻數據庫,根據領域文獻檢索策略,下載WoS類別為計算機科學(Computer Science)與無線電通信(Telecommunications)領域的科技文獻數據(其類型包括Article、Proceedings Paper、Review等),發表日期范圍限定在1990-2020年,使用DOI號作為數字對象唯一標識符對數據進行清洗并去重,最終得到計算機科學領域科技文獻數據1 898 805條,無線電通信領域科技文獻數據423 891條。計算機科學與無線電通信領域論文數據年份分布如圖3所示。
圖3 計算機科學與無線電通信領域論文數據年份分布
本文利用提出的方法,將計算機科學領域和無線電通信領域的科技文獻數據的DOI號作為網絡節點標識符,利用引文信息構建邊集合,以此搭建大規??萍嘉墨I引文網絡?;谝木W絡分別計算突破性、創新性、技術影響力以及科技文獻影響因子指標,在對指標進行標準化處理后,利用熵權法計算各文獻的綜合性指標。計算機科學領域和無線電通信領域文獻綜合指標值前20位的排序分別見表2、表3。
表2 計算機科學領域文獻綜合指標值排序(Top 20)
表3 無線電通信領域文獻綜合指標值排序(Top 20)
從表2可以看出,計算機科學領域中根據綜合指標值排序的前20篇科技文獻內容涉及CNN經典框架的AlexNet、Faster-RCNN以及對Faster-RCNN進一步改進的Mask R-CNN,同時包含LSTM、SVM、Random Forest等機器學習經典算法,其中來自美國的成果高達12篇,中國位居第2名。從表3可以看出,無線電通信領域的5G無線通信技術、Internet of Things以及經典802.11協議相關技術均在識別結果Top 20中。
為了進一步分析計算機科學和無線電通信領域顛覆性技術的發展趨勢,本文針對各領域識別結果的Top 100進行時序分析。從圖4a可以看出,計算機科學領域在2002年前后出現了多項顛覆性技術,其中包含NSGA-II遺傳算法、BLEU指標、k-anonymity模型、LBP特征提取算法以及SMOTE不平衡數據集處理方法等,其中NSGA-II遺傳算法是多目標進化領域中具有里程碑意義的技術,SMOTE是一種應用廣泛的人工合成數據的綜合采樣算法。從圖4b可以看出,無線電通信領域在2014年前后出現多篇顛覆性技術,其中包含對于5G無線通信技術的關鍵技術介紹(如多入多出技術MIMO等)、應用的愿景與挑戰,符合無線通信技術的發展規律。由此可以看出,本文提出的框架能夠對計算機科學領域與無線電通信領域具有顛覆性的方法或指標進行識別。
圖4 計算機科學領域與無線電通信領域顛覆性技術年限分布
通過對顛覆性技術所屬國家進行統計分析,可以在國家的層面了解這項技術在國際上的競爭力。因此,本文使用E-charts繪制了國家力量分布餅狀圖,如圖5所示。美國作為世界上最具科技創新實力的國家,發布了數量最多的顛覆性技術成果。在無線電通信領域與計算機科學領域所擁有的顛覆性技術領域處于領先地位。中國在顛覆性技術突破方面仍具備較大的提升空間,加強顛覆性技術的研發是實現技術領跑和維護領域技術安全的重要途徑。
圖5 計算機科學領域與無線電通信領域顛覆性力量分布
本文根據顛覆性技術發展特征、關聯科技大數據自身時序信息以及引文結構變化等,提出一種定量化的顛覆性技術的多維度識別框架(MRA-DT),綜合考慮突破性、創新性、領域影響力和科技文獻影響力,設計了4種不同的顛覆性技術識別指標,利用熵權法對顛覆性技術各特征指標進行量化測度,基本實現了對論文數據的顛覆性技術細粒度挖掘,解決了傳統方法在科學性、可解釋性等方面存在的不足。
為驗證此算法的可行性與有效性,本文利用WoS數據庫中在1990-2020年間計算機科學領域和無線電通信領域的論文數據對此方法開展實證研究。實證結果表明,本文提出的顛覆性技術多維度框架能夠甄別出不同時期研究領域的代表性成果,達到預期的研究目標。我國在計算機技術和無線電通信方面顛覆性技術突破仍具較大的提升空間,需要加強關鍵領域科技研發,在穩步發展過程中確保國家科技安全。這個算法能夠對科學文獻領域的顛覆性技術進行識別,為科研人員和相關情報從業人員以及國家管理者提供參考與決策依據。
目前,面向顛覆性技術的方法主要針對科技論文開展分析,未來工作將進一步優化指標設計,考慮科技成果的時滯性,結合科技動態資訊、專利數據、產業信息等進行輔助分析與驗證。