?

保險業務數據質量指標體系及指數研究

2017-04-10 10:49葉立武王東李井波顧佳盛
中國新通信 2017年4期
關鍵詞:數據質量保險指標

葉立武+王東+李井波+顧佳盛

【摘要】 數據質量是一個抽象概念。針對保險業務,如何評價數據質量,提升數據質量一直是困擾數據管理人員的一大難題。通過借鑒信息生命周期管理理論與數據治理成熟度模型,從數據生命周期的角度,對影響數據每個周期的環節進行主要因素分析,結合保險業務的特點形成了相對全面的數據質量指標體系。同時,根據應用實踐的需要,通過利用數理統計的技術完成了數據質量指數模型的建立,指導數據質量工作的改進。

【關鍵詞】 保險 數據質量 指標 指數

圍繞公司“科技國壽”戰略,建立健全適應大系統、大集中、大數據的數據管理機制。項目組以新一代業務系統建設為契機,不斷優化數據管理結構,提升數據質量。對于數據質量的提升,需要明確數據質量真實情況,評價過程需要一套相對完整、客觀、符合保險業務的評價標準或評價體系,指導數據質量治理工作在保險公司的開展。

一、數據質量指標體系構建

1.1指標體系設計

在信息生命周期中,影響數據質量的因素較多,數據質量指標體系框架設計的目的在于從一定的角度觀察、了解可能影響數據質量的因素,通過對其范圍及程度的研究,形成可量化、可落地的評價指標。利用統計學相關理論和技術,形成數值量化。以信息生命周期、影響數據質量的基本要素、影響數據質量的廣義要素形成的數據質量指標體系框架如圖1所示。

1.1.1影響數據質量的基本要素維度

數據:對數據質量的研究首先需要明確對象,具體數據的分類將影響對數據質量的分析,如主數據、交易數據、參考數據及元數據。

流程:涉及影響數據或信息的功能、活動、行動、任務或程序(業務流程、數據管理流程、公司外部流程等)。

人員和組織:影響或使用數據或者與信息生命周期的任意階段過程密切相關的組織、團隊、角色、職責或個人,包括管理及使用數據的人等。

技術:與信息生命周期的任意階段流程密切相關,或人員和組織使用的用來存儲或操作數據的軟件、數據庫、文檔、程序等。

1.1.2影響數據質量的廣義要素維度

廣義影響要素指影響信息質量的其他要素。在整個信息生命周期中都應該考慮這些要素,它們處理的恰當與否將間接影響數據質量的情況。

需求:需完成的內容以及支持完成這些內容所需的數據及信息。

時空:事件在哪里發生,數據何時使用,以及需要用多久。

權責:職權、治理、所有權、動機和收益。

優化:根本原因、持續提高、檢測、度量、目標。

結構:定義、背景、關系、標準、規則、體系結構等。

溝通:認知、影響范圍、教育、培訓和文檔資料。

1.2數據質量指標分解

結合保險業務及數據質量管理實踐需要,進一步將數據質量指標設計為三級,其中第一級指標4項,包括數據類、流程類、人員類、技術類;第二級指標22項,包括數據規劃、數據獲取、數據存儲等;第三級指標161項,例如對數據類規劃情況的評價,具體包括了主數據類別數量、主數據標準的數量、建立元數據的數量、元數據規劃標準率、交易/參考數據類別數量、交易/參考數據標準的數量等。通過指標分解,將描述數據質量的抽象維度盡可能落地為具有實際意義的數據,并進行加工分析。

二、數據質量指數構建

根據已建立的數據質量指標,通過標準化策略將指標同趨化處理,進一步利用層次分析法、熵權法等統計方法,形成各級指標權重,構造數據質量指數計算模型。在各類指標數據采集的基礎上,結合數據質量指數計算模型完成指數的測算,最終形成數據質量指數。

2.1用層次分析法求解第一級和第二級指標權重

一是明確評價對象。項目組選擇以公司某一業務處理系統的數據質量為指標權重計算對象, P=某業務系統數據質量。

二是構造評價因子集。根據影響數據質量的基本要素建立遞階層次結構體系。

三是構造判斷矩陣。采用T.L.Saaty教授提出的標度法,構造三個判斷矩陣。

四是判斷矩陣的一致性檢驗。用EXCEL計算判斷矩陣S1的最大特征根得λmax=4.214836159。為進行判斷矩陣的一致性檢驗,需計算一致性指標:CI==0.071612053,平均隨即一致性指標RI=0.89。隨機一致性比率:CR==0.080462981<0.10。因此,認為層次分析排序的結果有滿意的一致性,即權重系數的分配是合理的。同理,分別對S2和S3進行一致性檢驗,CR皆小于0.1,因此認為權重系數的分配是非常合理的。

五是計算一級指標權重。利用幾何平均法,計算S1各行各個元素的乘積,得到一個4行1列的矩陣B:B=[27,0.0247,0.0062,243,計算矩陣每個元素的4次方根得到矩陣C:C=[2.27951,0.39640,0.28030,3.94822,對矩陣C進行歸一化處理得到矩陣D:D=[0.33015,0.05741,0.04060,0.57184,該矩陣D即為所求權重向量。

六是計算二級指標權重。利用幾何平均法,得出三級矩陣的權重系數。數據類指標的權重:[0.06294,0.26543, 0.67163],技術類指標的權重:[0.1,0.9]。

2.2 用熵權法求解第三級指標權重

一是原始數據標準化?,F有36個待評價項目,準確性和完整性衡量中有7個評價指標,根據原始數據,通過正向指標標準化方法:,逆向指標標準化方法:按照上述方法將原始數據標準化。將標準化后的矩陣進行歸一化處理,計算第j個指標下第i個項目的指標值的比重,計算出。

二是求各指標的信息熵。根據信息熵的計算公式,可以計算出7項指標各自的信息熵,見表一。

三是計算各指標的權重。根據指標權重的計算公式,可以得到各個指標的權重。

綜上所述,數據質量指數模型中各級指標權重設計見表二所示。

2.3 數據質量指數計算與評估

結合數據質量指標,并根據數據質量指數模型試算,進一步獲得各省級分公司業務的數據質量指數,例如:

(1)P1公司數據質量指數= 7960

(2)P2公司數據質量指數= 3948

利用5-MEANS法對各省數據質量指數聚類,共得到A、 B、C、D、E五類,其中A類分公司的數據質量指數分數最高,E類分公司的數據質量指數分數最低,各類指數均值分別為7273、6269、5353、4477、4011。根據中位數選取法則,將C類公司的數據質量指數均值5353作為描述在該統計周期內系統數據質量指數,指數的變化將反映該系統整體數據質量的變化情況。

參 考 文 獻

[1] 李美娟,陳國宏,陳衍泰.綜合評價中指標標準化方法研究.中國管理科學,2004,12:45-47

[2] Danette McGilvray.數據質量工程實踐——獲取高質量數據和可信信息的十大步驟[M].北京:電子工業出版社,2010

[3]Batini,Carlo,and Scannapieco,Monica(2006).Data Quality:Concepts,Methodologies,and Techniques. Springer.

猜你喜歡
數據質量保險指標
主要宏觀經濟指標及債券指標統計表
主要宏觀經濟指標及債券指標統計表
主要宏觀經濟指標及債券指標統計表
主要宏觀經濟指標及債券指標統計表
淺析統計數據質量
金融統計數據質量管理的國際借鑒與中國實踐
淺談統計數據質量控制
金融支持養老服務業發展
淺談不婚主義下保險“受益人”的指定問題
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合