?

Web 大數據系統數據源選擇*

2018-03-12 08:38劉正濤王建東
計算機與生活 2018年3期
關鍵詞:元組數據源代價

劉正濤,王建東

1.三江學院 計算機科學與工程學院,南京 210012

2.南京航空航天大學 計算機科學與技術學院,南京 210016

1 引言

在Web大數據系統中,一般包含大量的異構數據源,這些數據源將形成Web大數據系統的多個參與者,這些參與者在數據類型、數據元素的命名、數據的約束與限制等方面都是獨立的,并且在操作執行與通信時,這些參與者也是獨立的。為了能夠同時訪問多個Web數據源,Web數據集成系統必須對查詢接口進行集成。當有了統一的訪問接口后,如果只是把集成接口上的用戶提交查詢簡單地轉換成一個領域的每個Web數據源上的查詢,顯然是不可行的。因為這樣操作存在以下問題:(1)查詢花費的代價太高;(2)不是Web上每個數據源都能提供高質量的查詢結果;(3)由于Web數據源返回結果之間存在大量冗余,查詢的數據源數量越多,冗余度也會越大?;谝陨显?,Web數據源選擇成為Web大數據系統集成中的一個關鍵問題。把查詢提交給很少量的數據源,但又要求返回的結果能夠很好地滿足用戶的特定需求,是數據源選擇的理想目標。針對不同的用戶集成需求,Web數據源的選擇方法各異。由于Web大數據集成系統需提供與查詢相關且高質量的檢索結果給用戶,從而研究人員主要依據數據源與查詢的相關性以及數據源本身質量來進行Web數據源選擇的相關研究。

傳統數據集成系統一般假定需要集成的數據源之間是相互獨立的。然而,在處理一個查詢所需要的大量Web數據源中,不同Web數據源中的數據存在著大量的重復記錄,同時還存在著一些數據源從其他數據源拷貝了部分或全部數據的現象。數據源之間的數據相互覆蓋與數據依賴將對數據源數據質量的評估、數據源排序及不同數據源的數據融合產生重要的影響。

本文主要目標是根據Web數據源的一些特征,從大量的數據源中選擇k個質量適合并且與用戶查詢相關的數據源,以最少的時間代價滿足用戶的查詢需求。本文的創新與貢獻如下:

(1)提出了一個兩階段數據源選擇方案。第一階段通過各個數據源模式與中間模式的相似度選擇與查詢相關度高的數據源,通過計算依賴數據源的質量來選取質量較好的數據源;第二階段基于最大熵理論計算數據源之間的重復率,選擇查詢效率最高的數據源。

(2)改進了ACCUNOD(accuracy of node)算法,在算法中加入了數據源之間依賴關系的考量,提出了一個新算法定義數據源的可信度。

(3)提出了最小代價查詢模型,運用最大熵原理計算不同數據源之間的重復率,定義了一個最小代價查詢優化算法。實驗表明,與相關算法相比,該算法可以提高查詢效率,具有一定的可擴展性。

本文組織結構如下:第2章對Web數據源選擇與有數據重復的數據源的處理進行了分析與總結;第3章給出了Web大數據系統集成相關問題的一些基本定義;第4章給出了數據源模式與中間模式相似度的計算方法;第5章提出了有依賴關系的數據源可信度的計算方法;第6章提出了最小代價查詢模型,并給出了運用最大熵原理計算數據源之間重復率的最小代價查詢優化算法;第7章介紹了本文采用的實驗方案,通過實驗對提出的最小代價查詢算法進行了評估,并對實驗結果進行了分析;最后對全文進行總結,并給出今后的研究方向。

2 相關工作

Yu等人[1]提出了一種基于直方圖的topN選擇方法。該方法分為兩步:第一步是判斷數據庫與特定查詢之間的相關性;第二步是確定最適合提交查詢的數據庫和從返回的結果中選擇最合適的記錄。算法實驗表明,這種計算topN查詢的方法是非常有效的??梢允褂帽倔w技術對數據源的特征進行概念描述,同時提取查詢的概念描述,計算相關性,進行數據源的選擇。在Web數據源選擇時,與用戶查詢相關的數據源質量參差不齊,數據源的質量是數據源選取的一個重要方面。Aboulnaga等人[2]設計了一個μBE(matching by example)數據集成系統,系統中使用了基于集成效用數據源選擇方法。μBE系統根據三方面評價Web數據源質量:數據源模式在受約束條件下相互匹配程度、數據源中數據特征(覆蓋度、冗余度、數據量)以及數據源自身的特征(延時、可靠性、費用、權威性)。μBE通過迭代一系列的受限優化問題來找出適合集成的數據源。Xian等人[3]提出了基于迭代的Web數據源選取和集成方法,該方法通過評價一個新加入數據源可能帶來的增益來決定是否選取該數據源,其核心在于增益函數的設計。為了解決面向混合類型關鍵詞查詢的非合作結構化Deep Web數據源的選擇問題,萬常選等人[4]提出了一種屬性與關鍵詞結合的Deep Web數據源選擇方法。該方法建立了特征詞與主題詞之間的關聯性,特征詞在約束型屬性離散值上的記錄分布直方圖,以及兩個特征詞在同一約束型屬性上直方圖之間的約束相關性,對非合作結構化Deep Web數據源的約束型屬性與檢索型屬性進行了有效的特征概括。Dong等人[5]平衡質量與花費,基于邊際主義理論進行數據源選擇。Rekatsinas等人[6]研究了動態數據源選擇問題,基于數據源內容是隨著時間而改變的,并定義了一組基于時效的評價集成數據質量的指標,如覆蓋度、新鮮性、準確性等,因此數據源選擇成為一個NP難問題,基于人工學習策略,給出了對應的近似解決策略。

在Web數據源選取時,數據源之間的數據重復是一個核心的問題。目前,有很多文獻在數據選取時考慮了數據之間的重復或相交問題。Florescu等人[7]首先將數據源按照不同的領域進行分類,將每個數據源分成一個或多個領域中,然后利用概率信息來計算領域間的數據重復問題,并最終選擇Top-k個數據源。StatMiner系統[8]在數據源排序時考慮了數據的重復問題。系統假定數據源與查詢都可以標記為類層次,通過一些樣本數據,計算不同類之間的重復問題,形成最佳的查詢方案。文獻[9-10]討論了依賴數據源中的最小代價、最大覆蓋率與數據源排序問題。Salloum等人[11]提出了一個OASIS(online query answering system for overlapping sources)系統,該系統使用最大熵原理動態統計數據源之間的重復率,實現了一個動態的在線數據源排序算法。

本文目標與以上文獻的不同在于:

(1)對于一個查詢q,本文目標是查詢Top-k個元組,而不是全部元組;

(2)所選擇的數據源必須滿足一定的相關性與數據源質量要求;

(3)聚焦于能夠獲得最小查詢代價。

3 相關定義

為了定義一個有依賴關系的Web大數據集成系統,給出了有關數據源、數據源的依賴關系等問題的形式化定義。

定義1(Web數據源)數據源為提供系統集成數據的來源,例如Deep Web數據站點、XML數據文件、關系數據庫等。一組數據源可以表示為S={s1,s2,…,sn},其中si(1≤i≤n)是第i個數據源。

定義2(實體)客觀世界中一個獨立存在事物的總稱為一個實體。每個實體具有唯一的標識符。

定義3(實體屬性)實體屬性表示一個客觀世界實體的特征的描述。一個實體的屬性可以表示為A={a1,a2,…,an},其中ai(1≤i≤n)為實體的第i個屬性。實體的屬性集合也被稱為該實體的模式。例如,一本書的屬性有ISBN號碼、價格、作者等。

定義4(數據源依賴性DAG)通過一個DAG來表示Web數據源集合S={s1,s2,…,sn}之間的依賴性,其中對于每個數據源si∈S,對應著DAG中的每一個節點v;如果si依賴于sj,即si從sj拷貝了數據,則有一條有向邊來表示二者的依賴狀況,記作si→sj。

4 數據源模式匹配

在一個Web大數據系統中,一項重要的工作就是創建一個中間模式和建立中間模式與源數據模式之間的映射關系。這項工作需要理解數據源的數據結構,并了解用戶將如何對數據進行查詢。但這對于Web大數據系統來說是不可能實現的,必須通過自動的集成方法來實現模式集成。該全局集成模式包括來自不同數據源模式的屬性集合,將該屬性集合定義為全局屬性(global attribute,GA)。同時,將所有數據源的模式與該全局屬性集合建立屬性之間的映射關系。一個良好的GA不能同時包含概念相同的兩個屬性。其定義如下:

定義5(良好GA)g是一個屬性集合,g∈GA,{aij}是數據源模式屬性與GA之間的映射,g是良好的當且僅當g≠?并且

定義6(中間模式)中間模式M={g1,g2,…,gn},其中gi∈M是良好的當且僅當

定義7(模式包含)中間模式M1包含中間模式

在模式映射相似度計算過程中,使用了多策略信息決策方法。使用的策略包括屬性名稱、實例與數據類型約束。對于以上3個決策預測結果采取了組合的方法進行合并[12]。

5 數據源可信度

數據源的可信度影響著數據值的準確程度,通常人們更愿意相信那些可信度比較高的數據源,就好像人們在向別人咨詢消息一樣,某些人可信程度較高,其提供的消息可信度就會很高,相反,有些人經常說一些謊言,可信程度比較低,其提供的信息可信度就會很低。數據源也一樣,可信度越高的數據源它所提供的數據值的可信度也就越高。依據這一理論,數據源可信度將對數據值的正確性產生影響。因此,在選擇數據源時,數據源的可信度是一個重要的指標。

針對數據源的可信度的求解,Yin等人[13]提出的ACCUNOD算法,該算法的基本思想是每一個數據源都有一個可信度,數據源的可信度影響數據信息可信度,而數據源的可信度又是根據它所提供的數據值的可信度決定的,因此數據源的可信度與數據值的可信度是相互影響的,利用迭代算法的思想去計算數據源的可信度和數據值的可信度。該算法沒有考慮數據源相互依賴的情況。Dong等人[14-15]進一步考慮了數據源的準確性因素,并將其與數據源的依賴關系結合起來,獲得了較好的效果。以上文獻的出發點是通過計算數據源的可信度與依賴度來發現數據的可信度,本文的出發點主要是發現高可信度的數據源。

ACCU(accuracy)算法是在BENE(beneficial)算法和MAL(malice)算法的基礎上提出的,該方法既考慮了數據源的依賴關系,也考慮了數據源的可信度。其基本計算方法如下。

當兩個數據源si與sj相互獨立時,即si⊥sj,根據概率公式有:

當數據源sj拷貝si時,即sj→si,根據概率公式有:

其中,Ot為數據源si與sj提供相同正確值的實體集合;Of為數據源si與sj提供不相同錯誤值的實體集合;Od為數據源si與sj提供不相同值的實體集合;ε(s)為數據源s提供錯誤值的概率;c為拷貝數據源拷貝數據比例。

對于數據源的可信度,可以使用以下公式來計算:

其中,m是數據源s提供的值的個數;V(s)是數據源s提供的數據值的集合;P(v)表示數據值v正確的概率。

P(v)可以通過以下公式來計算:

每個數據值的可信度C(v)為:

其中,I(s)為數據源s的選票數。

通過以上分析可以得知:數據源的可信度依賴于每個數據源中數據值的準確度;數據源之間的依賴性依賴于數據源中數據值的準確度與數據源的可信度;而數據值的準確度依賴于數據源的準確度以及與其他數據源之間的依賴關系。下面通過算法1的迭代得出各個數據源的準確度。

算法1給出了每個數據源可信度的計算方法,其基本思想為:首先給定每個數據源s的初始可信度為1-ε,然后通過迭代的方法求出每個數據源的可信度A(s)。其基本方法為:計算數據源相互之間的依賴概率,按照依賴概率對數據源進行排序,計算每個數據對象各屬性的可信度,計算數據源的可信度。直到每個數據源s的準確度A(s)變化小于某個值,并且需要確定的正確值集合無振蕩時結束循環。

算法1ACCU_VOTE

輸入:數據源集合S,數據源數據的值集合O。

輸出:每個數據源的可信度。

//每個數據源s的準確度A(s)變化小于某個值,并且需要確定的正確值集合無振蕩時結束循環

6 最小代價查詢算法

在Web大數據系統中,各數據源的訪問時間各異,數據源之間的重復情況不同,為了減少訪問時間,其關鍵問題在于各數據源的訪問順序。

定義8(代價)s為一個數據源,q是一個查詢。查詢數據源s的代價為C(s)=CC(s)+TC(s)×|q(s)|。其中,CC(s)為數據源s的連接時間;TC(s)為數據源s每個元組的傳輸時間;|q(s)|為查詢返回的元組總數。

定義9(查詢效率)一個數據源的查詢效率為vi=C(s)/|q(s)|,即查詢總體代價與所查詢的元組總數之比。

定義10(最小代價模型(time-cost minimization model,TMM))給定一個查詢qi,一個數據源集合S={s1,s2,…,sn},需要查詢k個元組,找到一個數據源的排列序列Πopt{1,2,…,k},使得其他任何排列Π都有C(qi(Πopt(S)))≤C(qi(Π(S)))。

例1不存在交叉。給定3個數據源s1、s2、s3,為簡便起見,CC(s1)=CC(s2)=CC(s3)=0,3個數據源的每個元組傳輸時間分別為TC(s1)=0.8 ms,TC(s2)=1.0 ms,TC(s3)=1.6 ms。對于一個查詢q,通過統計得知|q(s1)|=50,|q(s2)|=150,|q(s3)|=80,3個數據源的元組交叉情況為|q(s1)∩q(s2)|=0,|q(s1)∩q(s3)|=0,|q(s2)∩q(s3)|=0,|q(s1)∩q(s2)∩q(s3)|=0。也就是說,3個數據源相互獨立并且不存在交叉情況??梢缘贸鲆韵陆Y論:

例2存在交叉。給定3個數據源s1、s2、s3,為簡便起見,CC(s1)=CC(s2)=CC(s3)=0,3個數據源的每個元組傳輸時間分別為TC(s1)=0.8 ms,TC(s2)=1.0 ms,TC(s3)=1.6 ms。對于一個查詢q,通過統計得知|q(s1)|=50,|q(s2)|=150,|q(s3)|=80,3個數據源的元組交叉情況為|q(s1)∩q(s2)|=25,|q(s1)∩q(s3)|=10,|q(s2)∩q(s3)|=15,|q(s1)∩q(s2)∩q(s3)|=0。也就是說,3個數據源互相之間存在交叉情況??梢缘贸鲆韵陆Y論:

通過兩個例子,可以得出以下兩個觀察:

觀察1如果所選擇的數據源中不存在查詢結果交叉問題,則最小查詢代價模型可以得到查詢的最優結果。

觀察2如果所選擇的數據源中存在查詢結果交叉問題,則最小查詢代價模型需要考慮查詢數據源的查詢效率與數據源之間的數據重復情況。

在實踐中,可以觀察到一些小型網站經常引用或拷貝大型網站的數據,與大型網站的數據重復率很高,因此可以得到以下觀察。

觀察3數據數量少的數據源經??截惢蛞脭祿盗勘容^大的數據源,在查詢時,數據數量較大的數據源應賦予更高的優先級。

查詢效率貪婪算法(MinC)的核心思想:每次在待查詢的數據源集合中尋找一個最大效率的,直到查詢的元組大于等于k個元組或者所有的數據源都已經查詢完畢。該算法對于沒有重復的數據源可以得到最高的查詢效率。

算法2查詢效率貪婪算法(MinC)

輸入:一個查詢q,所需要查詢的元組數k,一個待查詢的數據源集合S,數據源集合的查詢效率V。

輸出:數據源優化序列Πopt。

數據源最大數量貪婪算法(MaxT)的核心思想是:每次在待查詢的數據源集合中尋找一個最大數據量的數據源,直到查詢的元組大于等于k個元組或者所有的數據源都已經查詢完畢。MaxT算法與MinC算法的步驟基本一致,MaxT算法優先選擇元組數目大的數據源。

算法3數據源最大數量貪婪算法(MaxT)

輸入:一個查詢q,所需要查詢的元組數k,一個待查詢的數據源集合S,數據源集合的元組數集合|S|。

輸出:數據源優化序列Πopt。

根據觀察2,優化排序算法(Optimization)優先選擇一個數據數量最大的數據源作為第一個數據源,然后根據已選擇數據源Πopt與待選數據源集合S的重復情況,優先選擇最大效率的數據源加入到Πopt隊列中,直到查詢的元組大于等于k個元組或者所有的數據源都已經查詢完畢。

為了估算Πopt隊列集合與剩余數據源集合S中的每個數據源s的重復率,應用最大熵原理來實現重復率的估算問題。

其中,V(Ω)為重復估計時的可能變量,使用了文獻[11]中的重復估計算法。

算法4優化排序算法(Optimization)

輸入:一個查詢q,所需要查詢的元組數k,一個待查詢的數據源集合S,數據源集合的查詢效率V。輸出:優化序列Πopt。

在實際的Web大數據集成系統中,數據源的選擇通常需要兩個階段:第一個階段是數據質量的評估以及查詢與數據源的相關性計算,選擇合適質量與一定查詢相關性的數據源;第二階段使用最小查詢代價模型算法給數據源進行排序。在排序時,如果用戶對查詢的相關性與質量有特殊需求,可以在第二階段算法中加入模式相關性與質量的影響因子。

7 實驗評估

7.1 實驗設計

為了評估算法的執行情況,本文搭建了一個模擬實驗平臺。首先,使用網絡爬蟲從不同的Web站點尋找了1 500個有關書籍的站點,然后通過算法1對每一個數據源的總體質量進行計算。1 500個網站的數據總共記錄數為241 660條,在這些記錄中,總共有25 320條不同的書目。為了簡化計算以及減少網絡因素的影響,首先對各個站點的訪問代價CC(s)、每個元組的傳輸時間TC(s)進行統計,然后收集每個站點的所有元組,經過一定的語義轉換,放到一個MySQL關系數據庫里面。為了進行評估,實現了4個算法。

(1)隨機算法(Random):通過隨機方法,任意選擇下一個數據源進行排序;

(2)最大元組法(MaxT):不考慮數據源之間的覆蓋問題,每次直接選擇當前隊列中的最大|q(s)|數的數據源s,進行數據源排序;

(3)最小代價算法(MinC):不考慮數據源之間的覆蓋問題,每次直接選擇每個元組最小代價的數據源s,進行數據源排序;

(4)優化算法(Optimization):根據算法4,在選擇數據源時,應用最大熵原理,動態計算待選數據源s與已經建立的隊列的重復情況,選擇最佳的數據源。

系統原型:使用Java語言實現了一個包括以上4個算法的數據集成系統實驗平臺。實驗平臺的操作系統為MS-Windows7,CPU為i54460,8 GB內存,所有的查詢都在同一個網絡中進行,實驗共使用了兩臺計算機,一臺用于數據存儲,一臺用于計算數據。

實驗參數設計:

(1)第一組實驗主要針對本文提出的4個算法進行了比較,共完成了3個實驗。第一個實驗測試4個算法在不同Top-k下的性能表現,分別將k的取值設為數據源不同數據總數的0.1、0.2、0.5、0.8。該實驗目的是測試不同算法在用戶需求數據數量不同時的表現。第二個實驗測試4個算法在不同數據源數目情況下的執行效率,該實驗k的取值為0.3,數據源的數據各選取500個、1 000個、1 500個,其中數據源的選擇采取了隨機選取的辦法。第三個實驗測試優化算法在使用多線程技術情況下的執行效率,該實驗中k的取值為0.3。

(2)第二組實驗主要對優化算法與文獻[11]中的DYNAMIC+算法進行比較,共完成了兩個實驗。第一個實驗測試完整優化算法與DYNAMIC+算法的性能,實驗中k的取值為0.3(共計7 600條不同記錄)、0.6(共計14 200條不同記錄)。第二個實驗兩個算法使用的數據源相同,都是經過第一階段預處理過的數據源,數據源總數為1 000個,實驗中k的取值為0.3(共計7 600條不同記錄)、0.5(共計10 400條不同記錄)。在兩組實驗中,各種算法都分別執行了100次,最后的取值為100次實驗結果的平均值。

7.2 實驗分析

7.2.1 第一組實驗

Fig.1 Response time of algorithms with different proportion of tuple圖1 不同返回元組數的查詢響應時間

第一個實驗的結果如圖1所示。通過實驗可以得知:不管k的取值大小,總體來說,Random算法的執行時間最長,效率最低,MaxT算法的執行時間比Random算法要少,MinC算法相對MaxT算法的效率有所提升,Optimization算法執行時間最少,相對其他算法有較大的提升;當k=0.1時,Random算法、MaxT算法、MinC算法、Optimization算法的執行時間分別為16.3、14.2、7.1、5.1 s;當k=0.8時,4個算法的執行時間分別為241.5、211.3、114.5、86.1 s。由圖1可以明顯看出,當k值增加時,Random算法增加的幅度最大,Optimization算法增加的幅度最小。

第二個實驗的結果如圖2所示。通過實驗可以得知:(1)隨著數據源數目的增多,各個算法的時間都有增加,但不管|S|取值大小,Optimization算法都是同等條件下最優的。(2)當數據源數目增加時,不同算法時間增加的幅度不同,其中Random算法增加的比例最大,當|S|=500時,CRandom=15.8 s;當|S|=1 000時,CRandom=71.4 s;時間增加了452%,與此同時,Optimization算法的訪問時間增加了252%。(3)Optimization算法隨著數據源的增加,訪問時間線性增加,算法具有一定的擴展性。

Fig.2 Response time of algorithms with different number of sources圖2 不同數據源個數的查詢響應時間

第三個實驗主要測試在多線程并行計算下4個算法的執行效率,實驗中k的取值為0.3,數據源數量為1 000個,實驗分別測試了1~12個線程的執行效率。實驗結果如圖3所示。通過實驗可以得知:(1)線程數量越多,各種算法的查詢執行時間都在減少,線程增加時,執行時間的降低并非線性降低。(2)當線程數量小于5開始,時間的減少比較明顯;當線程數量大于5時,時間減少速度開始明顯趨緩。

Fig.3 Response time of algorithms with Parallel query answering圖3 并行查詢各算法查詢時間

7.2.2 第二組實驗

第二組實驗主要比較Optimization算法與文獻[11]DYNAMIC+算法性能,測試中分別使用了單線程模式與并行模式。

在第一個實驗中,Optimization算法使用的數據源是經過第一階段排序過的數據源,DYNAMIC+算法使用的是隨機選擇的數據源。測試結果如圖4所示。通過實驗結果可以得知:(1)數據源數量越少,Optimization算法相對DYNAMIC+算法的性能越好。(2)Optimization算法總體來說性能比DYNAMIC+算法要好一些。(3)采用單線程模式與多線程模式對于趨勢的影響不大,主要原因就是Optimization算法使用的數據源經過了第一階段數據質量的評估。經過統計表明,質量高的數據源的響應時間往往比較小。當數據源數量較少時,根據第一階段的數據源選擇策略,從總體的數據源中選取了比較好的一些數據源,相應的執行效率就比較高;當數據源數量增多時,這種優勢就會降低,兩個算法的性能就會慢慢接近。

Fig.4 Performance comparison of optimization algorithm and DYNAMIC+algorithm圖4 覆蓋優化算法與DYNAMIC+性能比較

圖5給出第二個實驗的測試結果。通過實驗結果可以得知:(1)兩個算法的性能基本相當。(2)當查詢數據數量比較少時,DYNAMIC+算法性能更好一些;當查詢數據數量較多時,Optimization算法性能更好一些。

Fig.5 Performance comparison of optimization algorithm and DYNAMIC+algorithm圖5 覆蓋優化算法與DYNAMIC+性能比較

實驗小結:(1)第一組實驗表明,在同等條件下,Optimization算法比其他算法的性能更好;同時,Optimization算法具有一定的擴展性。(2)第二組實驗表明,與相關算法DYNAMIC+相比,Optimization算法總體上來說性能更優。

8 結束語

數據源的選擇與排序是Web大數據系統的關鍵問題之一。數據源之間的重復是選擇數據源的關鍵問題。本文提出了一個兩階段數據源選擇排序方法:第一階段通過組合的方法計算查詢與數據源之間的相關性,通過計算數據源的可信度計算數據源的質量,在計算數據源質量時考慮了數據源之間的重復情況。在第一階段選擇了與查詢具有一定相關度與質量標準的數據源。第二階段設計了4個算法,隨機算法、最大元組法、最小查詢代價算法、優化算法。4個算法各有不同的應用場景,通過該系列算法對第一階段選擇的數據源進行排序。實驗結果表明,與相關算法相比,Optimization算法可以減少系統查詢時間,具有一定的擴展性。下一步的工作是結合并行算法對目前的最小代價查詢算法進行進一步的優化。

[1]Yu C,Philip G,Meng Weiyi.Distributed top-Nquery processing with possibly uncooperative local systems[C]//Proceedings of the 29th International Conference on Very Large Data Bases,Berlin,Sep 9-12,2003.San Mateo:Morgan Kaufmann,2003:117-128.

[2]Aboulnaga A,El Gebaly K.μBE:user guided source selection and schema mediation for internet scale data integration[C]//Proceedings of the 23rd International Conference on Data Engineering,Istanbul,Apr 15-20,2007.Washington:IEEE Computer Society,2007:186-195.

[3]Xian Xuefeng,Zhao Pengpeng,Yang Yuanfeng,et al.Efficient selection and integration of hidden Web database[J].Journal of Computers,2010,5(4):500-507.

[4]Wan Changxuan,Deng Song,Liu Dexi,et al.Non-cooperative structured deep Web selection based on hybrid type keyword retrieval[J].Journal of Computer Research and Development,2014,51(4):905-917.

[5]Dong X L,Saha B,Srivastava D.Less is more:selecting sources wisely for integration[J].Proceedings of the VLDB Endowment,2012,6(2):37-48.

[6]Rekatsinas T,Dong X L,Srivastava D.Characterizing and selecting fresh data sources[C]//Proceedings of the 2014 International Conference on Management of Data,Snowbird,Jun 22-27,2014.New York:ACM,2014:919-930.

[7]Florescu D,Koller D,Levy A Y.Using probabilistic information in data integration[C]//Proceedings of the 23rd International Conference on Very Large Data Bases,Athens,Aug 25-29,1997.San Francisco:Morgan Kaufmann Publishers Inc,1997:216-225.

[8]Nie Zaiqing,Kambhampati S,Nambiar U.Effectively mining and using coverage and overlap statistics for data integra-tion[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(5):638-651.

[9]Sarma A D,Dong X L,Halevy A Y.Data integration with dependent sources[C]//Proceedings of the 14th International Conference on Extending Database Technology,Uppsala,Mar 21-24,2011.New York:ACM,2011:401-412.

[10]Liu Xuan,Dong X L,Ooi B C,et al.Online data fusion[J].Proceedings of the VLDB Endowment,2011,4(11):932-943.

[11]Salloum M,Dong X L,Srivastava D,et al.Online ordering of overlapping data sources[J].Proceedings of the VLDB Endowment,2013,7(3):133-144.

[12]Liu Zhengtao,Wang Jiandong.Pay-as-you-go schema integration in Web dataspace[J].Journal of Frontiers of Computer Science and Technology,2011,5(1):87-96.

[13]Yin Xiaoxin,Han Jiawei,Yu P S.Truth discovery with multiple conflicting information providers on the Web[J].IEEE Transactions on Knowledge&Data Engineering,2008,20(6):796-808.

[14]Dong X L,Berti-Equille L,Srivastava D.Integrating conflicting data:the role of source dependence[J].Proceedings of the VLDB Endowment,2009,2(1):550-561.

[15]Dong X L,Berti-Equille L,Srivastava D.Truth discovery and copying detection in a dynamic world[J].Proceedings of the VLDB Endowment,2009,2(1):562-573.

附中文參考文獻:

[4]萬常選,鄧松,劉德喜,等.面向混合類型關鍵詞查詢的非合作結構化深網數據源選擇[J].計算機研究與發展,2014,51(4):905-917.

[12]劉正濤,王建東.Web數據空間邊建邊用模式集成[J].計算機科學與探索,2011,5(1):87-96.

猜你喜歡
元組數據源代價
Python核心語法
針對隱藏Web數據庫的Skyline查詢方法研究*
一種基于時間戳的簡單表縮減算法?
海量數據上有效的top-kSkyline查詢算法*
一種面向傳感云的數據源質量評估框架
利用屬性集相關性與源誤差的多真值發現方法研究
愛的代價
幸災樂禍的代價
代價
數據有增加 圖表自適應
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合