?

一種基于領域本體的數據服務語義標注方法

2017-06-01 23:18郭超唐成務陳彥萍
電腦知識與技術 2017年8期
關鍵詞:數據服務

郭超 唐成務 陳彥萍

摘要:隨著互聯網技術的快速發展,越來越多的數據以服務的形式發布到Web上為用戶服務。由于數據服務發布者存在不同的領域或行業,數據服務在描述存在語義異構性,為了更精準的匹配所需的數據服務,該文從對數據服務描述文檔進行解析,提取關鍵標簽的屬性值,形成代表該數據服務的特征詞文檔,再對特征詞文檔進行聚類分析,結合領域知識,構建領域本體庫,在領域本體庫的基礎之上,提出基于領域本體的數據服務語義標注方法,對數據服務進行語義標注,解決數據服務描述存在的語義異構性。

關鍵詞:數據服務;領域本體;語義標注

中圖分類號:TP319 文獻標識碼:A 文章編號:1009-3044(2017)06-0172-02

隨著“互聯網+”理念的涌現,越來越多的企業或個人加入到互聯網中來,互聯網中的信息也越來越多,為了方便信息的傳遞和分享,一些企業或個人以服務的形式對外發布自己的數據,為用戶提供服務,這種方式被稱為數據服務。然而,數據服務發布者存在不同的領域或行業背景,造成數據服務在描述上存在語義異構性,導致無法準確的匹配所需的數據服務,從而帶來資源的浪費。傳統的數據服務是數據密集型的Web服務,已有研究對數據服務的描述大多采用RESTAPI方式或者WS-DL式的Web服務,然而這類Web服務缺乏語義信息,在自動服務組合等方面存在不足。OWL-Sf ontology Web language forservices)實現了Web服務屬性和功能明確的形式化表示,使得服務的描述具有了語義。但OWL-S對服務的動態信息描述不足,不支持服務的動態復合。本文在語義標注概念的基礎上,結合領域本體及語義標注技術,提出來一種基于領域本體的數據服務語義標注方法,為后續的數據服務發現、調用提供基礎。

1領域本體

本體(Ontology)起源于哲學,即概念的明確規范說明,是對世界上客觀存在物的系統描述。近年來,人們將本體的概念引入人工智能、知識工程和圖書情報領域,用于解決信息提取、知識概念表示和知識組織體系方面的有關問題。

由于應用領域的不同,對本體研究的側重點也有所不同。涉及特定學科領域的本體,被稱為領域本體(Domain Ontolo-gy)。領域本體是領域術語集和領域知識集的總體,是領域的概念化詳細說明,可用本體語言將其詳細說明。領域本體的目標是捕獲相關的領域知識,提供對該領域知識的共同理解,確定該領域內共同認可的概念,并從不同層次的形式化模型上給出這些概念和概念之間相互關系的明確定義,提供該領域中發生的活動以及該領域的主要理論和基本原理等。

由于本體工程到目前為止仍處于相對不成熟的階段,還沒有一個標準的本體構建方法。領域本體的建設還處于探索期,構建過程中存在著很多問題,主要問題分析如下:1)需求不充分和無計劃性;2)建設過程缺少規范性;3)成果沒有評價標準;4)忽視本體的共享和重用。用。

2基于領域本體的數據服務模型

由于數據服務描述中WSDL的語義缺乏性以及OWL-S存在著對服務動態信息描述不足、不支持服務動態復合的限制。本文將空間向量模型VSM引入進來,設計了一種基于領域本體的數據服務模型。使得數據服務兼具數據特征和語義雙重優勢,并能很好地進行服務組合及規劃。

將數據服務中的WSDL文檔中元素屬性值進行解析,獲得表示該數據服務描述文檔的特征詞集合。利用特征詞向量之間的相似度和K中心算法對數據服務進行聚類,依據聚類的結果和相關領域信息構建相應的領域本體,即通過基于OWL-S將各個數據源的數據模型映射到一個全局共享語義本體上,實現跨領域用戶對數據服務語義的理解。結合構建的領域本體,計算每個特征詞的權重,將特征詞集合及其權重依據本體的空間向量模型VSM進行存儲,把含有這些特征詞的WSDL文檔與相應的特征詞進行關聯,從而數據服務描述文檔與領域本體之間的概念相互關聯,即可基于領域本體實現數據服務建模。

3基于領域本體的數據服務語義標注方法

為了解決Web上發布的數據服務之間存在的語義差異,本文結合構建的領域本體庫,提出一種新的數據服務語義標注方法,對數據服務進行語義標注,解決異構數據服務之間的語義差異問題。

對所有的WSDL描述文檔的特征詞構建空間向量模型(VSM),WSDL描述文檔以VSM特征項作為其表示的基本單位,所有特征項組成的一個n維特征空間向量:D=(T1,W1;T2,W2;Ti,Wi)表示一個WSDL描述文檔,其中Wi為第i個特征項Ti在WSDL描述文檔特征詞中的權重。fij表示特征詞i在第i個WSDL特征詞文檔中出現的頻率,N表示所有WS-DL特征詞文檔的總數,ni表示出現有特征詞i的WSDL特征詞文檔的個數。權重的計算方法為權重計算公式(1):

由圖2可以看出,與領域本體庫相關的特征詞,特征詞在對應的特征詞文檔中的權重發生了變化,“travel”特征詞在WS-DL特征詞文檔DS1中沒有出現,“travel”特征詞在WSDL特征詞文檔中的權重為0,但是結合領域本體改進權重計算公式之后,由于本體中與“travel”相關的概念在WSDL特征詞文檔DS,中有出現,利用改進的權重公式計算,“travel”關于WSDL特征詞文檔DS,的權重變為0.1789而不是0,而與本體無關的“ip”的相應權重則不變。這樣當服務請求者以“travel”來查詢服務時,與“travel”相關的概念在WSDL特征詞文檔DS,中出現,即使“trav-ez”沒有在WSDL特征詞文檔DS1中出現,WSDL特征詞文檔DSl相對應的數據服務也能被檢索出來為數據服務請求者服務。

5總結與展望

本文主要從數據服務的語義標注方面進行研究,提出一種基于領域本體的數據服務語義標注方法,該方法在構建的領域本體基礎之上,結合數據服務描述文檔的特征詞向量,計算二者的語義相似度,完成對數據服務的語義標注,考慮如何對VSM進行改進以及對OWL-S的擴展是今后的工作中研究方向。

猜你喜歡
數據服務
大數據時代高校圖書館數據服務的困境及優化路徑
地理空間大數據服務自然資源調查監測的方向分析
基于數據中臺的數據服務建設規范研究
面向研究需求的數據服務體系構建與思考
NetApp將提供無縫混合多云體驗
面向科研用戶的嵌入式智慧數據服務模式研究*
大數據環境下我國大學圖書館數據服務調查分析
數據服務依賴圖模型及自動組合方法研究
大數據服務深度需求與SOA協作集成的異構系統融合機制
如何運用稅收大數據服務供給側結構性改革
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合