?

基于用戶適用度的開放數據質量提升研究*

2019-01-15 11:12王瑞云賈君枝
數字圖書館論壇 2018年12期
關鍵詞:行數次數用戶

王瑞云 賈君枝

(1.山西大學經濟與管理學院,太原 030006;2.中國人民大學信息資源管理學院,北京 100872)

當前大數據和“互聯網+”等國家項目正致力于促進國家信息化發展,確保公民公平、公正、準確地獲取到所需信息。2015年,國務院印發《促進大數據發展行動綱要》規劃大數據發展目標,旨在2018年底前建成國家政府數據統一開放平臺,2020年底前逐步實現信用、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、資源、農業、環境、安監、金融、質量、統計、氣象、海洋、企業登記監管等民生保障服務相關領域的政府數據集向社會開放[1]。政府和公用事業機構的開放數據是大數據的基本數據內容,因來源機構的信用擔??煽慷哂泻芨叩挠脩粜湃魏蛻脙r值。

國內開放數據發展起步晚于國外,在開放數據規模和質量上都存在一定的缺陷,亟需改進。根據互聯網基金會發布的第四次《開放數據晴雨表》的評價,中國在115個國家/機構中排名71位。在開放數據評價的15個主題數據集中,我國只有人口普查細節數據和公共交通時間表兩項排名在前69位,其他項單項排名都在70位以后;而且已提供的開放數據只達到該機構的最低要求,即數據集存在和可在線獲取,沒有達到整體可用和提供數據關鍵元素鏈接等更高要求[2]。

國外學者[3-7]的研究重視開放數據與用戶需求的匹配,利用開放數據定量研究方法結合專家知識解決現實中的具體問題,如某一地區的人口下降和社區公共服務的可持續性,以及空氣污染治理、疾病傳播和控制等。國內學者[8-9]首先研究分析發達國家開放數據的經驗以供借鑒,還有一些學者[10-13]采用各種定量研究方法進行國內開放數據的質量評價和質量提高研究。國內的定量研究通常采用問卷調查方法,對開放數據門戶網站的整體質量進行評價。評價指標采用通用網站評價指標(如網站的下載速度等),不反映開放數據網站的重要特征。由于初期用戶對開放數據使用很少,很多被調查的用戶前期沒有瀏覽和下載過開放數據[14],回收的調查問卷準確性受到用戶對開放數據認知的限制,所以現階段有必要根據開放數據用戶使用行為方面的特點,研究開放數據質量和質量提升。北京開放數據門戶網站是國內開放數據各方面指標較好的網站之一,有大量的用戶進行瀏覽和下載,本文后續部分以北京開放數據門戶網站數據集作為案例數據來源。

1 研究的概念框架構建

1.1 用戶適用度的用戶行為表示

用戶適用度是開放數據滿足用戶應用各方面需求的綜合指標。開放數據的根本目的是利用[15],開放數據集的用戶適用度指標可以通過用戶需求匹配和選擇數據集的行為顯式地表示出來?;谟脩粜枨笃ヅ浜瓦x擇數據集的行為全過程見圖1。首先用戶面對開放數據門戶網站的海量數據集,根據網站推廣和導航進行初選,得到初步匹配需求的所有數據集集合。集合中的數據集都獲得了用戶瀏覽點擊行為,該行為參數包括瀏覽的對象、瀏覽時間。本文只簡單化選取當前時點數據集的累計瀏覽次數指標。其次,用戶通過瀏覽數據集的內容說明和元數據,進一步精確地判斷該數據集和自身需求的匹配程度。用戶根據元數據詳細說明來判斷該數據集是否為所需內容,數據集的更新頻率、最新更新時間影響用戶對數據的及時性需求;數據集發布更新主體的可信程度影響用戶對數據的可靠性需求;數據格式、數據集行列數等也是影響用戶判定的質量指標。經過綜合需求匹配階段的精確判斷,用戶決定是否下載數據集提供的數據資源,符合用戶精確需求匹配的數據集選入精確匹配數據集集合,并得到用戶下載點擊行為,行為參數具體包括下載對象和下載時間,本文表示為當前時點數據集的累計下載次數指標。用戶開放數據的利用還包括手機端的APP用戶關注的新型用戶行為,表現為用戶關注數的指標。最后,用戶對下載到本地的數據資源進行處理,可能做出質量評價、問題反饋、提出進一步需求等一系列行為,作為門戶網站未來提高數據集的質量參考。

1.2 用戶適用度的數據集內在質量

數據的內在質量是用戶選擇的內因和基礎,而行為統計為數據表示內在質量的需求匹配結果。用戶適用度概念是由Vetrò等[3]提出,由于低質量的開放數據集增加了用戶的再利用成本,從而不能滿足用戶顯式和隱含的需要;并提出基于用戶適用度的質量量度定義,包括從數據集到單元格不同粒度對象的9個質量量度定義,即創建更新可溯源性、及時性、過期延遲時間、數據單元和行的完整性、數據單元和數據集的標準符合性、單元粒度的易理解性和單元粒度的準確性。從上述九方面達到用戶選擇利用的要求,能降低用戶的整體使用成本,提升數據集可靠性、及時性和準確性,從而大幅降低開放數據集的總體利用成本,整體上提高數據的用戶適用度[5],使數據集得到增值性的利用和再利用。

圖1 用戶需求匹配和選擇數據集的行為全過程

另一個數據質量內在標準是關聯開放數據質量的五星標準[16],主要基于開放數據的發布格式和符合標準的程度,最低標準是存在任何格式用戶可獲取的開放數據,但是這些數據可能是圖片格式,不方便用戶的機器編輯處理。二星和三星的數據集分別是.xls和.csv格式的表格數據,這兩個級別的數據集可以導入數據庫;三星與二星的數據集相比,其優勢體現在表格數據集不局限于微軟的Excel數據(.xls格式)。四星的數據集符合W3C的開放標準,數據采用RDF表示,并且可以通過SPARQL查詢獲取。五星開放數據實現數據到其他提供方數據的關聯。四星和五星的高質量數據方便用戶集成多來源的開放數據,實現開放數據門戶的互操作。國內的開放數據總體達到三星標準,提供.xls和.csv格式的表格數據,還有少部分的word文件和pdf圖片文件。三星標準的數據集質量限制用戶在多網站來源的數據集之間的互操作,提高用戶的處理成本。而word和pdf圖片格式的數據資源需要用戶付出更高的處理成本,甚至需要安裝專門軟件處理數據,用戶的利用成本更高。

1.3 基于用戶適用度的數據質量框架

構建基于用戶適用度的數據質量框架可以分為數據集內在質量指標和用戶行為的外在質量指標。內在質量指標包括數據集的內容主題、數據集的元數據說明、數據集的及時性、數據列表現出的數據屬性豐富度、數據行(多個表的總行數)表示出的數據規模5方面指標;用戶行為的外在質量指標包括瀏覽次數、下載次數和用戶關注數3個方面基本指標,以及計算出的下載瀏覽比、時段下載瀏覽比等分析性二級指標。

2 數據集內在質量與用戶行為的關系

以北京開放數據門戶網站作為實例研究對象,利用網絡爬蟲工具從門戶網站的用戶互動信息、數據集的主題導航、主題數據集的下載/瀏覽排行、數據集的熱門下載等統計信息中獲取數據集質量和用戶行為數據,對該開放數據門戶每個數據集的用戶選擇行為和數據集內在質量的關系進行分析,旨在為基于用戶適用度的數據集質量提升奠定基礎。

2.1 下載瀏覽關注與數據集內在質量的關系

2.1.1 下載次數與主題數據集個數的相關關系

門戶網站共提供20個主題的1 023個數據集,由于網站數據集個數較多,為方便用戶選擇適合自身需求的數據集提供主題導航,通過主題數據集個數和主題內容兩個屬性向用戶展示數據。門戶網站給出按主題分類的數據集個數如表1所示,可以看出,不同主題的數據集分布差異明顯。根據一般常識和開放數據提供者的考慮,提出假設S1。

S1:各主題的數據集個數與用戶下載瀏覽次數正相關。

表1 按數據集個數排序的數據集主題情況

本文樣本的獲取時間為2018年10月10日,下載排名前30的數據集信息見表2[17]。由于“下載次數”比“瀏覽次數”更能體現開放數據集用戶適用度的行為結果,故選取下載次數為首要因素排序。其中的6~8列在后文研究中使用。對瀏覽次數和下載次數按照主題分類匯總統計見圖2。由于瀏覽次數遠大于下載次數,為了圖形顯示清晰,圖2中對瀏覽次數除以10。

下載量最多的數據集主題集中在教育科研、交通服務、旅游住宿、企業服務。教育科研主題占據下載次數排名第1和第2,該主題在下載次數前30的數據集個數為8,總下載次數12 087,遠大于其他主題的數據集;但表1中該主題的數據集個數為81,排名第3,遠少于第1主題的數據集個數298,所以教育科研主題是不支持假設S1正相關關系的一個異常。不支持假設S1最大的異常是表1中提供數據集個數最多主題的經濟建設,在表2中下載量前30的數據集中沒有出現。具體到經濟建設主題內部,該主題按下載次數排名的數據集信息見表3。該主題下載次數排名前2的數據集在總體排名分別為111和136,其他的都在總體排名260以后。

上述兩種異常否定了基于提供者和一般常識的假設S1。第一個異常的數據集主題是當前用戶重點關注教育科研主題的外在表現,主題內容對瀏覽下載次數的影響遠超過假設S1的正相關影響。第二個異常更需要開放數據門戶管理者思考,經濟主題的數據集提供的數據集個數很多,但是并沒有被用戶瀏覽和下載,網站需要對該主題的數據集增大推廣力度,更好地滿足用戶需求,使該主題的數據集更多地被用戶瀏覽下載。

表2 按下載次數排序前30的數據集

圖2 主題分類的下載次數和瀏覽次數匯總(前8項)

2.1.2 下載次數與數據集及時性的正相關及異常

本文后續將研究6個正相關關系,分別是下載次數與數據及時性、數據表列數、數據表行數的3個相關關系,以及下載瀏覽比與數據及時性、數據表列數、數據表行數的3個相關關系。為準確地判定各數據集的各對指標的正相關關系是否成立,下面分別根據每個正相關判斷的兩個指標,對表2的數據集進行聚類。本文的6個相關關系共涉及5個指標,分別為下載次數、下載瀏覽比、及時性、列數、行數;應用這5個指標對數據集進行聚類。聚類算法采用最小化組內距離、最大化組間距離的原則,分組參數設為5,編寫程序計算。上述5個指標對表2的30個數據集的聚類分組結果見表4。

表3 經濟建設主題按下載次數排序前5的數據集

表4 數據集的下載次數、下載瀏覽比、及時性、列數、行數聚類分組賦值結果

表4第1列是5個分組對應的分值,第2~6列是按指標的聚類結果分組內的數據集編號。對5組分別按5級量級賦值,同一組內的數據集賦同一值,如第2列第1個分組“1,2,3”,表示1、2、3號數據集按下載次數分在一組,分值為5(5最好,1最差)。

指標及時性需要元數據給出固有的更新頻率,在最新更新時間基礎上分析。先按公式(1)計算數據集的延遲度。

其中研究時點、最新更新時間的單位為年。由于門戶網站數據集的元數據中沒有提供更新頻率,本文假設更新頻率為1次/年。再根據公式(2)計算及時性。指標聚類采用的是最后計算出的及時性值,聚類結果見表4的第4列。

利用表4“下載次數各分組數據集”和“及時性各分組數據集”的結果,對30個數據集的對應值進行成對比較,基本支持正相關15個數據集;找到極端不支持正相關的6個數據集,屬于異常數據集,不符合及時性高數據集的下載次數高的正相關常識。這6個異常數據集為“小學”“中學”“土地用途區分”“北京地區博物館”“車管所”和“養老機構”。其中有重要參考價值的是前3個數據集,分別為“小學”“中學”“土地用途分區”,這3個數據集下載次數最大,及時性反向最差,是極端負相關異常;該異常說明與這些數據集主題相關的社會問題得到大量用戶關注,故下載和瀏覽次數最高。網站尤其需要解決異常數據集的及時性問題,及時更新數據集,更好地滿足大量用戶的數據及時性需求,避免嚴重挫傷大量用戶的積極性。而另外的3個異常數據集為“北京地區博物館”“車管所”和“養老機構”,及時性最高,下載數卻排在表2的最后組,但是只是相對表2前面的20個數據集最低,放在全部數據集中下載數不低,可以排除該異常。

2.1.3 下載瀏覽次數與數據集行列數的正相關及異常

數據集的列數反映數據屬性的豐富程度,行數反映數據集的規模。數據集的列數和行數越多,說明數據集的質量越高,可以得到更高的用戶下載瀏覽次數,一般列數、行數與下載瀏覽次數具有正相關關系。

利用表2“列數”和“行數”兩列的數據聚類分組結果(見表4的“列數各分組數據集”和“行數各分組數據集”),將其分別與表4“下載次數各分組數據集”列的數據成對比較,分析兩組正相關關系。結果表明,基本支持列數與下載瀏覽次數正相關的數據集有16個,正相關性不顯著。支持行數與下載瀏覽次數基本正相關的數據集個數有13個,正相關同樣不顯著。

列數與下載瀏覽次數正相關的極端異常為“土地用途分區”數據集,下載次數最高極端反向對應了列數最少值,該異常需要對數據集的列進行深入分析,對于用戶亟需的重點數據用2列是否足夠表達實際數據的屬性,能否滿足用戶的應用需求。行數正相關的極端異常為“軌道交通線路”數據集,下載次數較高反向對應了行數最小值,對此異常進行深入分析,該數據集為用戶重點瀏覽下載的數據集,但只有16行數據,是否能滿足用戶的數據要求,是否需要細化數據粒度。

2.1.4 下載次數與及時性、列數、行數的正相關異??偨Y

綜合下載次數與及時性、列數和行數的正相關的極端異常,需要提醒開放數據管理者注意共有的異常數據集(即用戶下載次數最高的“小學”“中學”和“土地用途區分”數據集),更需要抓住用戶需求迫切的契機,提高這些數據集的及時性,提高“土地用途區分”數據集的列豐富性和“軌道交通線路”數據集的行數。

2.2 用戶下載瀏覽比與開放數據集內在質量的關系

2.2.1 用戶下載瀏覽比的含義與計算

用戶的下載瀏覽比反映用戶在瀏覽數據集內容選擇下載數據集鏈接數據資源的概率,代表用戶根據數據集的元數據詳細說明與自身需求進一步匹配選擇的概率。表2中30個數據集的瀏覽次數和下載次數的分布見圖3,圖4中給出二者的3種方案的線性擬合,包括所有點的直線擬合、高區的直線擬合、低區的直線擬合。

分析數據集實際語義,下載次數小于瀏覽次數,下載次數與瀏覽次數正相關。下載次數y和瀏覽次數x函數關系如公式(3)所示。

圖3 瀏覽次數和下載次數散點分布

圖4 整體擬合直線和高低區分別擬合直線

由于門戶網站初期用戶下載需要用戶注冊登錄,而瀏覽不需要登錄,所以某一段時間數據集的瀏覽次數增長,而下載次數為0,這時間點情景為x>0、y=0;該實際情景下,直線與x的交點x≥0,則與y交點處y≤0,即要求公式(3)中的參數a≤0。擬合結果如圖4中的全部點、低區和高區的3條擬合直線,其參數(a,b)分為(155,0.071),(106,0.090),(-2 057,0.145)。其中兩條擬合直線的參數a>0,嚴重違反實際情形;只有高區的擬合直線a=-2 057,不顯著違背實際情況,其下載瀏覽比值為0.145。以上分析說明每個數據集的瀏覽下載擬合直線有顯著差別,不能用同一條直線擬合。所以本文后續對每個數據集計算下載瀏覽比。

本文用兩種方法計算下載瀏覽比。方法1:在公式(3)參數a=0時計算每個數據集的全局平均下載瀏覽比。方法2:根據公式(4)計算在最近參考時間段(2018年8月23日—10月13日)的下載瀏覽比b1[18],這兩種下載瀏覽比計算結果如圖5所示。

方法1的下載瀏覽比集中在0.07~0.14;方法2的下載瀏覽比中有8個數據集超過0.20,最高是幼兒園數據集達0.45。經濟建設主題的數據集下載排名在100后,但方法2計算的下載瀏覽比較高,為0.35。

比較圖5下載瀏覽比和圖3的下載次數,可以看出,雖然前6個數據集瀏覽次數和下載次數都很高,但是下載瀏覽比很低。這說明門戶網站前6個數據集雖然被大量的用戶瀏覽,但是其中大部分用戶進一步根據元數據判斷數據資源與自身需求匹配時,沒有選擇下載數據集資源,數據集其他方面的質量可能無法滿足用戶需求。后面24個數據集用方法2計算的最近區間平均下載瀏覽比高于全局平均的下載瀏覽比,說明后面數據集的下載次數有加速發展的趨勢。綜合上述分析,兩種方法下載比加權綜合得到最終下載瀏覽比,用于數據集根據下載瀏覽指標的聚類,聚類結果見表4的第3列下載瀏覽比各分組的數據集。

圖5 數據集的平均下載瀏覽比和最近時段的下載瀏覽比

2.2.2 用戶下載瀏覽比與數據及時性的正相關及異常

用表4中的下載瀏覽比和數據及時性的聚類分組值進行成對比較,驗證這2個指標的正相關性。支持正相關的數據集有13個,正相關關系不成立。從本次正相關驗證得到一個新的解釋:2.1.2節的5個極端異常在本次不再是異常,而變成支持正相關的數據集,“小學”“中學”“土地用途區分”和“軌道交通線路”4個數據集的2個屬性分類都在最低組,支持正相關,該結論可以部分解釋2.1.2中下載次數與及時性正相關的極端異常,這4個數據集的下載瀏覽比指標低,表明下載次數的相對速度有降低的趨勢,更是提醒管理人員盡快提高這些數據集的及時性,才有可能扭轉下載次數下降的趨勢。

本次相關驗證在解釋消除已有異常的同時,驗證結果還發現了新的負相關的極端異常,異常數據集是表2的“中職”數據集和“幼兒園”數據集,這兩個數據集的下載瀏覽比最好,表明它們有很好的下載應用趨勢,但是及時性最差。這兩個數據集在下載次數和及時性正相關驗證中,沒有表現出明顯的相關異常。所以需要提醒網站管理者重視這兩個隱藏的異常數據集的及時性質量提升。另外,不太極端的負相關異常還包括“三級醫院”“機場班車線路”“快速路”數據集,也應該得到網站管理者注意,提早安排數據更新。

2.2.3 下載瀏覽比與數據集行列的正相關及異常

對表4中的下載瀏覽比與數據集的列數和行數的聚類數據進行成對比較,分別計算兩個相關關系。支持下載瀏覽比與列數正相關的數據集有10個,正相關不能成立。異常數據集為“教育部直屬高?!薄懊褶k高校及獨立學院”數據集,下載瀏覽比最差,但數據集的列數在最好組;分析其原因是:①雖然教育科研主題是熱門主題,但用戶的關注熱點在主題內部更加細分,這兩個數據集正在逐步退出用戶熱門數據;②列數雖然多,但列內容不能匹配用戶需要。

支持下載瀏覽比與行數正相關的數據集有13個,正相關不成立。但是在兩個指標最高和最低兩端組內,正相關表現比較顯著。如下載瀏覽比最好的“備案停車場(位)”“幼兒園”數據集,正相關行數在最好組;下載瀏覽比最差的“軌道交通線路”“教育部直屬高?!薄懊褶k高校及獨立學院”數據集,正相關行數在最差組,該部分正相關也部分說明“教育部直屬高?!焙汀懊褶k高校及獨立學院”數據集的列相關異常,可能是內在質量行數上存在缺陷;發現的行數正相關異常數據集是“小學”和“土地用途區分”數據集,下載瀏覽比最差,但數據表行數在最好組。說明數據規模對下載瀏覽比的影響遠小于數據集主題內容的影響。

2.2.4 下載瀏覽與內在指標的正相關及異常小結

數據集的及時性、數據表列數和行數與下載瀏覽比的正相關關系都不能得到顯著支持。但是2.1.2節下載次數與及時性正相關的極端異常在本節的下載瀏覽比與及時性的正相關得到部分解釋,并且發現不太外顯的2.1.2節沒有發現的新隱含異?!爸新殹薄坝變簣@”數據集,需要提醒網站管理者注意這些隱含的異常。列相關的異常數據集中的“教育部直屬高?!焙汀懊褶k高校及獨立學院”數據集,既可能是用戶關注熱門的細分和分支熱門的轉變,也可能有行數指標差的影響因素。行相關的異常數據集為“小學”和“土地用途區分”兩個數據集,也可以從其下載比和及時性的同為最低正相關得到解釋,這兩個數據集行數雖然很多,但是及時性最差,所以下載瀏覽比最差。

2.3 下載瀏覽比與用戶總體適用度的關系

下載瀏覽比可以顯式地反映數據集與用戶需求的匹配選擇情況,在很大程度上,可以反映數據集的用戶適用度質量,所以本文前面研究下載瀏覽比(下載次數)與其他質量指標的正相關關系,試圖通過提高相關的質量指標來提高下載瀏覽比或下載次數,以期最終提高數據集的用戶適用度。

下載瀏覽比過低表示數據集的質量有待提高的方面,但是并不能只限于提高下載瀏覽比。下載行為是用戶根據數據集詳細頁面上元數據和數據說明,判斷數據集的內容主題是否與需求的內容匹配;數據集的及時性是否符合用戶要求,以及數據集的列數和行數與數據的屬性豐富度和數據規模需求的匹配度。數據集元數據的準確說明為用戶下載選擇提供正確的依據,避免用戶下載不適用數據的后期處理成本,對數據集的總體利用成本的降低和數據集的總體適用度有積極的作用。

因此,數據集的總體適用度質量需要在準確詳細的數據集元數據基礎上,保證數據集質量提升是建立在對總體成本有效降低的基礎上,再提高重點數據集的相關指標質量進而提高下載次數和長期的下載瀏覽比。

3 研究結論及展望

本文基于用戶利用開放數據的行為過程研究開放數據的用戶適用度質量,研究對象涉及最微觀的單個數據集和主題分類,通過研究下載次數、下載瀏覽比與數據集的及時性、列數和行數的正相關關系,發現極端不符合正相關關系異常數據集,深入分析異常數據集的應用情景,針對異常數據集,提出質量提升建議。

影響數據集下載次數和下載瀏覽比的最重要因素是數據集的主題內容和細分主題,門戶網站應該根據用戶的需求,發布更多熱門主題的數據集,對數據集的主題分類盡量劃分到熱門主題,使數據集得到高的瀏覽次數和下載次數。

對于在多對正相關研究中發現的異常數據集,分析具體應用情景提出的建議應及時反饋給開放數據管理者。積極推進管理者利用相關關系改進熱門重要異常數據集的質量缺陷。對于熱門主題相關的異常數據集更為重要,重點提高異常數據集的及時性,長遠提高異常數據集的下載瀏覽比;再進一步提高數據集列數,豐富數據集的屬性信息,并且提高數據集的行數,從更細的粒度,提供規模更大的、更精準的數據,從而為用戶提供更高的利用價值。最終不僅要提高數據集的當前下載瀏覽次數,更從長遠發展的角度提高數據集的下載瀏覽比,提高開放數據的整體適用度。

另外數據集還應該保證元數據說明的準確性,提高下載次數和下載瀏覽比的工作應該在不增加后期應用成本的基礎上進行,防止用戶因下載不適用的數據集而浪費大量的后期處理成本。

本文研究的局限在于研究案例的開放數據還處在發展的初級階段,無法獲取多個階段的用戶行為數據比較,以及用戶的行為數據還缺少后期應用成本數據;下一步研究將跟蹤國內開放數據的發展,從更加系統的動態演變的角度關注開放數據的質量提升,同時關注關聯數據技術在國內開放數據中的應用發展,提高開放數據機器處理方面的質量,更好地發掘海量開放數據的潛在價值。

猜你喜歡
行數次數用戶
機場航站樓年雷擊次數計算
2020年,我國汽車召回次數同比減少10.8%,召回數量同比增長3.9%
一類無界算子的二次數值域和譜
英語專業八級統測改錯試題語言特征
玉米超多穗行數基因型通15D969 的 單倍體育種效應
玉米超多穗行數DH系15D969的發現
依據“次數”求概率
關注用戶
關注用戶
關注用戶
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合