?

基于數字資源聚合的學術期刊語義出版研究*

2019-02-20 13:10許鑫毛璐江燕青
數字圖書館論壇 2019年7期
關鍵詞:本體關聯語義

許鑫 毛璐 江燕青

(華東師范大學經濟與管理學部,上海 200062)

隨著科學技術的發展,數字出版成為目前的主流出版模式,在科學、技術和醫學領域(Science,Technology and Medicine,STM)發展迅猛,給科研人員帶來了豐富的學術資源。與此同時,如何幫助科研人員在海量學術資源中快速準確地找到自己所需的信息成為必須考慮的問題。大量半結構化、非結構化的數字資源使得傳統的科學交流系統無法滿足科研人員對數據語義的高度要求。而語義網的發展則為新時代的學術交流創造了條件,并促進了語義出版的形成和發展。目前,基于對文獻知識內容做結構化處理和發布的語義出版成為新興出版形式被廣泛關注。

2009年語義出版的概念被Shotton[1]提出后,語義出版就成為出版和學術界的熱點。語義出版是一種語義增強的出版形式,通過對文章內容和形式進行語義標記,增強內容之間的關聯,提高科研人員的檢索和獲取效率,實現智能化出版。在數據、信息、知識、智慧鏈(Data Information Knowledge Wisdom,DIKW)中,數據出版是基于數據、信息的時間基層的出版模式;而語義出版則是從知識層面不斷向智慧面延伸的空間深層次語義信息交流的出版模式,它無疑是數據出版的進一步發展。本文的研究以數字資源聚合為基礎,通過探究學術期刊語義出版的發展過程,總結歸納國外學術期刊語義出版的相關實踐,探索性研究了基于數字資源聚合的學術期刊語義出版模式,旨在為國內學術期刊基于資源聚合和內容組織實現語義出版提供經驗與借鑒。

1 相關研究

語義出版通過結構化描述關聯外部資源,使得文章的可讀性和交互性增強[2],提升了學術出版功能,對科研人員從事科研閱讀和研究的幫助顯著[3]。語義出版有助于推動出版機構實現資源間的關聯分析和知識挖掘,為用戶提供體系化的知識[4]。2013年Outsell公司發布的STM報告[5]指出,STM期刊的技術發展依托語義技術得以實現,通過借助符合語義標準的關聯數據進行更加高效的內容檢索和服務[6]。

在英國皇家化學學會(RSC)、愛思唯爾(Elsevier)、自然出版集團(Nature)、美國科學公共圖書館(PLoS)等的推動下,出現了一系列語義出版的舉措和學術研究。Elsevier的“Article of the Future”(未來文章)計劃對學術期刊的上下文結構、內容關聯、期刊呈現方式均做了創新,并借助Science Direct(全文文獻數據庫)平臺開展多個學科領域的語義出版實踐,搭建了語義出版實現的基礎[7]。PLoS為了實現期刊內容的有機豐富,將期刊鏈接到多種外部資源上,以此來提升學術出版的功能。RSC為了實現期刊內部以及期刊同外部資源的語義關聯,對相關領域本體進行了關聯,并通過語義標注部分期刊內容實現期刊的Rich HTML形式[8]。Hudson-Vitale等[9]提出研究是全球性的,學術界需要可互操作的中心,相互關聯的數據和基礎設施,支持跨庫信息交換,包括標準、元數據模式和語義互操作性。De Ribaupierre等[10]在實證研究的基礎上,分析了科學家的實際需求并考慮了文檔的語義和特殊性,提出了一種使用SciAnnotDoc模型自動注釋PDF文檔的方法。Balaji等[11]提出使用共引用鄰近分析進行擴展,以發現語義相似性,進而找到與給定研究出版物相匹配的研究論文的最佳語義路徑。Lafia等[12]提出通過生成可以在主題和空間上查詢的鏈接元數據,使得數據集或文檔具有唯一資源標識符(URI)和現有工具充分支持的基本元數據,進而使得跨域數據集被發現,并且可理解、可重復使用。

在國內,2009年張曉林教授[13]從關聯發現、內容增強、開放與合作交流三方面對學術期刊的數字化發展進行了闡釋,率先提出了Journal 3.0模型。2012年王曉光等[14]提出語義出版可以借助多層次的領域本體對文章中的概念與資源實體進行關聯,集成不同事件、資料、記錄來減輕科研人員進行反復資源搜集和整理工作的負擔,將更多精力用于論點的理解和數據的分析。2013年周杰等[15]指出語義出版通過對知識的統一編碼實現對象的關聯和內容的結構化呈現,實現用戶的精準語義查詢,將成為未來主流的出版形態。2017年張偉偉等[16]基于供給側視角得出未來語義出版是學術期刊數字化出版的一個重要發展方向。李嬌等[17]通過對國內外學術期刊數字資源描述、語義知識增強、語義出版發布等方面的分析,發現國內語義出版實踐與國外相比仍有差距。陳鋼等[18]通過對廣東省16家科技期刊的出版方式進行調研發現,語義出版將代表今后的出版趨勢,但目前語義出版仍在小規模實踐并未進行大規模推廣。

綜上,語義出版的到來為大型服務提供商和出版機構的發展創造了契機,它們可以將現有的期刊信息和外部資源進行關聯,實現對知識的挖掘和分析,促使用戶有效利用期刊、全面獲取知識。語義出版是學術期刊資源聚合的更高需求,基于數字資源聚合的語義出版實現需要同時具備語義網、本體、關聯數據等技術和挖掘深層次文獻語義特征的功能,從而幫助用戶檢索到更加體系化、知識化的信息。

2 學術期刊語義出版的發展

互聯網技術的發展使得目前學術期刊主要以數字化方式出版[19],相較國外學術期刊數字化的發展,國內學術期刊數字化起步較晚,并且呈現散、小、弱的特點,其數字化發展存在諸多障礙。面對海量學術資源,科研人員需要快速查詢到所需的有用信息,這需要學術資源的合理有效聚合。但是,目前學術期刊的數字出版面臨瓶頸化現象,而學術期刊的語義出版能夠揭示資源間的相互關系,實現數據挖掘和語義檢索,所以要基于數字資源聚合實現語義出版在學術期刊上更好地應用。

2.1 學術期刊語義出版的背景

從學術期刊開始數字化至今,大部分期刊只是將錄用的文章收錄到數據庫或者自建的學術期刊網站上[20]以PDF或者CAJ格式供用戶下載使用,在此過程中用戶不僅需要下載支持PDF/CAJ格式的閱讀軟件,并且無法很好地進行語義標注和互動,難以實現資源之間的互操作,這為用戶的使用帶來了不便,制約了學術期刊的數字化出版,突出表現為兩個方面。

(1)學術期刊數字資源內部由于未形成統一的數據標準,因而無法實現更深層次的關聯,知識資源聚合目標更是無法達到。此外,用戶若想實現對知識的集中獲取,需要滿足數字資源內部知識單元與外部相關數據庫或知識組織關聯的條件,傳統的數字出版無法滿足。

(2)提高信息檢索的效率需要實現語義上的精確匹配,而目前我國的學術期刊官網只能實現基于關鍵詞的檢索,無法解決知識體系中存在的一詞多義、一義多詞現象,使得用戶無法實現對知識的深層次發現和挖掘[21]。語義出版則可以解決基于關鍵詞檢索中存在的低查全率、低檢索效率、用戶需重復檢索操作的問題。

通過以上分析可以看出,現有的學術期刊數字出版只是將紙質期刊進行了數字化轉化,并未抓住期刊內容和語義層面的重點,無法實現學術期刊數字資源間的語義互操作,降低了學術期刊的服務質量和效率。所以,變革當前學術期刊的數字出版方式是當務之急。

2.2 學術期刊語義出版的價值

作為數字出版高級形態的語義出版,具有傳統出版無法比擬的特點,能夠促進數字時代的信息交流和聚合。對于學術期刊數字聚合的發展來說,語義出版可以整合大量分散的、紊亂的信息,并對信息資源進行有機管理,打破“信息孤島”的局面,為用戶查找和利用信息提供便利[22]。

(1)語義出版可以實現知識關聯和語義查詢。語義出版機構不同于以往基于形式劃分的學術期刊,它通過界定不同元素的屬性和類型,以知識點為單位來分解、標注整篇文章。對期刊知識單元的關聯和揭示有利于形成語義聯系的知識網絡,實現將用戶與所需知識進行匹配。此外,語義出版基于知識推理構建語義查詢可以減少以往基于關鍵詞查詢的工作量,提高查準率和知識獲取速度。

(2)語義出版可以實現用戶行為分析和興趣推薦。語義出版可以通過收集用戶經常查詢的關鍵詞和瀏覽的頁面借助數據挖掘和推薦算法對用戶行為進行分析,找到用戶所需并分析用戶興趣從而構建出用戶畫像。同時,可以根據用戶行為構建用戶數據庫,基于興趣進行個性化推薦服務,并通過使用行為找出與目標用戶相似性高的用戶,為目標用戶推薦資源。

(3)語義出版可以實現信息抽取和主題揭示。語義出版可以通過高亮詞條和語義標簽以可視化方式展示文章知識結構,實現主題揭示。同時,語義出版構建了期刊數字資源與外部資源的鏈接,因而可以實現關聯信息的抽取,幫助用戶更好地理解文章內容。

2.3 學術期刊語義出版的應用

語義出版對數字資源聚合提出了更高程度的要求。語義出版強調通過利用本體、關聯技術等實現自然語言處理,構建信息與信息資源結構化描述的關聯,通過機器可理解和資源間的語義互操作,實現信息的可視化呈現,提高科研人員的檢索效率。

基于數字資源聚合方法在學術期刊語義出版中的應用主要體現在以下方面。首先,通過元數據、本體、關聯數據等技術可以解決學術期刊的異構資源、跨庫檢索等問題。學術期刊的語義出版可以通過元數據的提取,本體庫的構建以及數據的關聯使得不同來源、不同類型的數字資源完成跨庫檢索,實現學術期刊數字資源的有效聚合。其次,專業本體庫和領域本體庫的構建可以使用戶查詢期刊資源不再拘于關鍵詞查詢的限制,實現不同文獻、不同知識單元的語義關聯,一詞多義、一義多詞將不是難題,用戶能夠獲取更精確的答案。最后,在文章中添加語義標簽,可以使文章各部分內容層次分明、相互關聯,并且以機器可自動讀取的結構化形式呈現,實現文本內容的自動化獲取和智能化處理。

實現數字資源的深度聚合是語義出版中不可或缺的重要環節,采用本體、關聯數據等語義網相關技術實現的資源聚合能促進學術期刊的知識一體化、體系化、結構化,通過構建不同知識本體間的語義映射關系可以實現知識單元間的語義關聯,并為用戶提供更好的服務和更佳的體驗。

3 國外學術期刊語義出版的實踐

Elsevier、施普林格(Springer)、科睿唯安(Clarivate Analytics)作為全球領先的3家STM出版社,每年出版論文種類十分豐富,并且均在語義出版方面開展了很多實踐,為學術期刊的語義出版提供了諸多發展經驗。本文主要以這3家國外學術期刊語義出版的實踐為例進行介紹。

3.1 Elsevier語義出版下的資源查詢管理

Elsevier的語義出版模式不同于以往學術期刊線性的出版方式,它結合超鏈接和語義標記致力于改善用戶的閱讀體驗、提供最佳瀏覽方式給用戶,其出版特點如下。

(1)一站式集成檢索。ClinicalKey集成了醫學圖書、期刊、專家評論等各種資源,用戶無須前往不同醫學信息庫查找信息,在同一平臺便可獲取所有臨床??频呢S富資源,提高了用戶獲取資源的效率。2019年5月Elsevier與Scilligence ELN合作,化學研究人員可以通過Scilligence的ELN進入Reaxys進行搜索,尋找感興趣的結構、性質、反應、路線設計等信息,將結果讀取并存入ELN,而無須復制、粘貼或手動繪制等操作。這一整合能夠有效幫助化學研究人員簡化工作流程,提高效率,改善交叉引用并減少人為因素引發的錯誤。同時,嚴謹遵循科學數據管理的FAIR原則(可查找、可訪問、互操作、可重用),Elsevier為科研數據共享的效率和質量提供了保證。

(2)支持語義檢索,實現精確檢索匹配結果。EMMeT構建了能夠深度描述和標引醫學數據的概念詞匯,從而幫助用戶進行語義檢索醫學資源,實現對檢索結果的精確匹配,為用戶在最短時間內準確獲取所需答案提供保證,減少了用戶反復查找信息的時間。

(3)提供智能化知識。Elsevier通過打通文章內部知識單元的關聯、構建文章與外部資源的鏈接,為用戶提供智能化的知識。2019年4月,Elsevier與靈北公司(Lundbeck)合作,有效解決了生命科學企業管理海量數據的難題。Elsevier通過化學及生物活性綜合數據庫Reaxys和Reaxys Medicinal Chemistry(RMC)藥物化學模塊,幫助科研人員提高信息的可見性、復用性和實踐性,加快數據分享和挖掘,推進企業用戶內部信息的自由訪問和與Reaxys及RMC模塊無縫對接,破除了內部信息孤島,提高了數據互通性。

3.2 Springer語義出版下的關聯開放數據

2017年3月,施普林格?自然集團(Springer Nature)推出了SciGraph關聯開放數據平臺,將所有的科研資助機構、會議、出版物等信息集成到這一平臺上,截至2017年底,這一平臺將學術界關注對象的信息(三元組)擴充到10億多條,并可以與CrossRef和DBPedia等數據集相鏈接。

Springer Nature SciGraph平臺在進行關聯數據發布之前,將需要發布數據中的實體類型和實體間的關系一一對應,并以URI為資源命名,保證資源的可獲取。目前Springer Nature已經可以做到期刊、文章、資助者、主題等實體型在關聯開放數據中發布。Springer Nature在建立唯一、有效的URI之后,還建立了SciGraphcore ontology本體,這一本體的構建使得數據不僅可以被Springer Nature更好地描述,還可以更好地被外界所引用。

Springer Nature SciGraph關聯開放數據平臺通過對數據進行關聯和互操作,打破了數據組織結構的原有體系,是關聯開放科研在出版領域得以實現的開始,使科研人員可以共享學術合作、機構知識庫等平臺,促進了學術期刊語義出版的發展。

3.3 Clarivate Analytics語義出版下的資源獲取

2017年6月Clarivate Analytics宣布與Impactstory開展合作,這一行為使得科研人員可以獲取高質量、經過同行評議的開放內容。Clarivate Analytics資助Impactstory建立oaDOI服務,以更容易發現開放獲取的內容,提高科研工作從發現相關信息到發布最后成果的效率。Clarivate Analytics可借助Impactstory創建的在線工具,使科學文獻可以更好地開放和重用。目前,oaDOI可通過免費開放的API實現9 000萬篇文章的開放獲取。Clarivate Analytics目前致力于提高從科研想法的出現到實驗驗證,再到同行評審以及最后出版的整個研究生命周期的效率。Clarivate Analytics與Impactstory的合作可以使研究人員實現開放獲取Web of Science上的1 800萬篇新文章,有利于科研用戶的研究和創新。

此外,Clarivate Analytics的Kopernio作為一個免費的瀏覽器插件及在線工具,通過集成超過2萬個期刊網站、平臺、數據庫、開放獲取知識庫和搜索引擎,幫助科研人員實現一鍵式合法獲取學術期刊全文文獻,可以有效節省科研人員獲取文獻的時間和步驟。此外,它可以自動將用戶檢索過的PdF全文保存在個人的PDF全文臨時儲存盤內,方便用戶后續回訪閱讀。

4 基于數字資源聚合的學術期刊語義出版模型

語義出版的發展為學術期刊的創新提供了新的方式,同時揭示了資源對象間的關聯,幫助資源內容實現更好地重組和發布,因而語義出版的實現需要以數字資源聚合作為基礎,數字資源聚合的目標則為語義出版。本文通過對當前學術期刊數字化進程中存在的問題進行分析,并結合基于數字資源聚合的語義出版存在的價值和應用,借鑒Elsevier、Springer、Clarivate Analytics的出版實踐經驗,探索了基于數字資源聚合的學術期刊語義出版模型。該模型以實現學術期刊的語義出版為目標,以數字資源聚合為抓手,從三個層面進行構建。第一層是基于本體的數字資源聚合,第二層是基于關聯數據的數字資源聚合,第三層是基于關聯數據的訪問和應用,如圖1所示。

(1)基于本體的數字資源聚合。由于學術期刊通常采用不同的元數據規范對來源不同、類型不同的資訊進行描述,使得大量結構異構的數字資源存在于學術期刊之中,造成聚合和檢索的困難。僅依靠元數據只能形成數字資源的語義化基礎,資源描述的異構性和語義性問題仍然存在。想要實現不同類型、不同格式的元數據進行互操作需要依靠本體來完成。本體可以通過對元數據進行描述,轉換為統一RDF格式,進而使不同元數據之間可以進行語義互操作。同時,同義詞的描述、領域本體庫的建立可以解決以往資源聚合中存在的一詞多義、一義多詞難題,幫助用戶更好地獲取信息。

(2)基于關聯數據的數字資源聚合。在這一層面將采用HTTO協議中的URI地址命名所有資源,對數字資源進行語義化描述,在元數據本體化模型的基礎上,同時采用SKOS語義化描述,統一RDF格式描述其他資源、鏈接相關資源,實現學術期刊內部不同知識單元間的聚合和外部知識組織的鏈接?;陉P聯數據的數字資源聚合可以實現不同格式、不同來源的數據相關聯。不同數據庫中的資源以及同一數據庫中不同格式、不同類型、無法實現互操作的數據均可以通過關聯數據構建數據網絡,將資源整合成無縫鏈接的整體。關聯數據還可以通過HTTP協議和RDF鏈接實現與其他相關資源在語義層面的關聯,通過揭示資源間的關系,豐富期刊的知識內容。

(3)基于關聯數據的訪問和應用。這一層面通過關聯數據來瀏覽查詢學術期刊中的數字資源,不僅可以得到簡潔清晰的答案,還可以鏈接到其他相關數據資源,實現資源間的無縫對接。在數據資源聚合和關聯數據發布的基礎上,用戶可以通過關聯數據瀏覽器在不同數據源之間進行瀏覽,這得益于數據之間已通過RDF進行鏈接,并且已實現語義搜索。同時,用戶還可以通過資源導航瀏覽整個數據網絡,借助關聯數據搜索引擎實現對關聯數據的查詢,高效抓取關聯數據檢索所需信息?;陉P聯數據的訪問和應用可以使用戶體驗到更加智能化的數據服務。

5 結束語

從印刷期刊到數字化期刊再到語義出版,學術期刊出版模式在不斷發生變化。數字環境下,傳統的圖片、文字、段落表達已經無法達到科研人員所需。而語義出版則是對出版物內容層面的深度挖掘,借助本體、關聯數據等語義技術生成有價值的知識單元,實現語義層面更細粒度的知識關聯。通過本文的研究,可以發現:①語義出版的應用實踐還處于發展階段,隨著語義技術的發展,基于淺層語義的資源組織方式會逐漸向深度語義化的知識關聯與集成轉變;②語義出版是學術期刊數字資源聚合的目標,而學術期刊數字資源聚合是實現語義出版的基礎性工作;③借鑒現有的國外學術期刊語義出版實踐,探索符合我國學術期刊發展的語義出版模式,是這一領域的重點研究內容之一;④借助本體、關聯數據等語義技術,實現對學術期刊及其知識內容的語義化描述是語義出版的主要技術路線,并以此為基礎,探索基于數字資源聚合的學術期刊語義出版模式,為國內學術期刊基于資源聚合和內容組織實現語義出版提供經驗與借鑒。

綜上所述,學術期刊數字資源的深度聚合為其語義出版實現提供了良好的資源基礎,在本體、關聯數據等相關語義技術的不斷變革和大量數據、知識的不斷涌現以及科研人員對語義出版更高要求更迫切需求的背景下,只有不斷發現和挖掘出更多的隱性知識特征,不斷促進學術期刊在資源上的深度聚合和在語義層面上的發展才能跟上數字化、語義化的時代潮流。為此,推動數字資源聚合下的學術期刊語義出版發展刻不容緩。

猜你喜歡
本體關聯語義
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
眼睛是“本體”
語言與語義
“一帶一路”遞進,關聯民生更緊
奇趣搭配
基于本體的機械產品工藝知識表示
智趣
批評話語分析中態度意向的鄰近化語義構建
“社會”一詞的語義流動與新陳代謝
“吃+NP”的語義生成機制研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合