?

基于大數據審計的全量業務系統數據收集方法研究

2024-04-09 14:57莊曉明
信息系統工程 2024年3期
關鍵詞:數據質量大數據

莊曉明

摘要:隨著信息技術的快速發展,數據已成為企業的核心資產,如何有效地收集、處理和分析數據以支持決策成為企業面臨的關鍵問題。業務系統數據是企業最直接、最完整的數據來源,包含大量有價值的信息。然而,傳統數據收集方法在處理大量、多樣性和實時性數據方面存在局限,難以滿足企業對全量業務系統數據的需求。針對現有數據收集方法的不足,提出一種基于大數據的全量業務系統數據收集方法。通過對該方法的研究與實踐,驗證其在提高數據質量、滿足業務需求和降低數據收集成本方面的有效性。

關鍵詞:大數據;全量數據收集;業務系統;數據質量

一、前言

在信息技術快速發展的時代背景下,互聯網的飛速發展推動了企業業務系統的爆炸性增長,數據產生速度之快達到了幾何級數。這些數據蘊藏著無盡的信息寶藏,對企業決策和業務流程的優化起著至關重要的作用。因此,高效地收集和處理這些業務系統數據成為了企業面臨的一大挑戰。傳統的數據收集和處理方法在面臨大規模數據和數據多樣性時顯得力不從心,無法滿足現代企業的需求。為了解決這個問題,必須探索基于大數據技術的全量業務系統數據收集方法。大數據技術以其強大的數據處理能力和對復雜數據類型的處理優勢,為解決這一問題提供了新的可能性。大數據技術可以幫助企業收集和處理海量的業務系統數據,無論是結構化數據還是非結構化數據,都能夠得到有效的處理。通過運用大數據技術,企業能夠從這些數據中挖掘出有價值的信息,為決策提供有力的支持。此外,大數據技術還可以通過實時分析,幫助企業及時發現問題,快速響應市場變化,從而提高業務的靈活性和競爭力。

二、傳統業務數據處理的主要問題

(一)人工處理速度慢,效率低下

在審計過程中,審計人員面臨著一個棘手的問題,那就是大量業務數據的處理。采用傳統的人工處理方式,不僅速度慢,而且容易出錯,影響審計結果的準確性和可靠性[1]。

首先,在審計調查過程中,審計人員需要對海量數據進行檢索、篩選、分析和計算。這個過程不僅耗時較長,而且容易因為人工操作失誤而導致數據丟失或遺漏。在面對日益繁重的審計任務時,審計人員往往疲于應對,無法滿足企業對審計工作的迫切需求。因此,提高審計效率勢在必行。其次,人工處理方式的出錯概率也較高。在審計過程中,數據精確性和完整性至關重要。然而,人工檢索和計算大量數據時,審計人員容易因為疲勞、注意力不集中等原因出現失誤,可能導致審計結果失真,給企業帶來潛在的風險。為了避免這種情況,審計人員需要尋求更為可靠的處理手段。最后,采用人工處理方式還可能導致審計工作難以適應現代商業環境的快速變化。隨著企業規模不斷擴大,業務越來越復雜,審計面臨的挑戰也在不斷增加。如果審計人員仍然依賴于傳統的人工處理手段,將難以應對日益嚴峻的審計形勢。

(二)計算機處理局限于數據統計和提取

隨著科技的發展,計算機處理技術在業務數據處理方面的應用越來越廣泛。然而,現有的計算機處理技術在業務數據處理方面側重于數據統計和數據提取,而對于數據的真實性、準確性和相關性權重的辨識能力不足[2],在一定程度上限制了審計工作的深入開展,影響了審計結果的準確性和可靠性。在數據統計方面,計算機處理技術能夠快速對海量數據進行匯總、計算和分析,對于審計人員來說確實提高了工作效率,但是,在實際審計過程中,審計人員需要關注的不僅僅是數據的數量,更重要的是數據的真實性和準確性?,F有的計算機處理技術在這方面的辨識能力較弱,容易導致審計人員忽視潛在的風險。在數據提取方面,計算機處理技術可以根據預設的規則和條件,快速從大量數據中篩選出符合要求的數據。然而,這種提取方式往往忽略了數據之間的關聯性和內在邏輯。而在審計工作中,審計人員需要對關聯性強的數據進行深入分析,以發現潛在的問題。因此,計算機處理技術在數據提取方面的局限性影響了審計工作的效果。

(三)數據處理缺乏智能化和自動化

當前的業務數據處理主要依賴于人工和計算機進行,而缺乏智能化和自動化的處理手段。缺乏智能化和自動化的數據處理手段會導致審計人員在處理大量數據時,需要耗費大量時間和精力。由于數據量龐大且復雜,人工篩選、分析和整理數據的工作量巨大,并且現有的人工和計算機數據處理方式容易出錯[3]。在數據處理過程中,無論是人工還是計算機,都可能因為操作失誤或算法缺陷等原因導致數據處理結果不準確,給審計工作帶來潛在的風險,影響審計結果的可靠性。此外,現有數據處理方式難以適應審計工作需求的快速變化。隨著企業業務越來越復雜,審計面臨的問題也越來越多樣化。然而,人工和計算機數據處理方式難以迅速調整和優化,使得審計人員在面對新興業務領域時,難以有效應對。

三、全量業務系統數據收集系統的設計思路

(一)數據解譯與提取

數據解譯是企業內部數據挖掘的第一步。首先,需要對企業內部的各類數據進行解譯。這些數據可能來自不同的業務系統,解譯的目的是理解數據的來源、格式、含義等,為后續的數據提取提供基礎。

其次,在數據解譯的基礎上,采用全量數據提取技術,綜合考慮數據的完整性、準確性和及時性,確保提取到的數據能夠真實反映業務情況。數據提取是數據挖掘的關鍵環節,關系到后續數據分析的質量。因此,在提取數據時,要確保不遺漏任何有用信息,保證數據的真實性和可靠性。

最后,提取到的原始數據可能包含噪聲、缺失值、異常值等,需要進行數據預處理,將數據轉化為干凈、規整的數據,以便后續分析。數據預處理主要包括數據清洗、數據整合、數據轉換等步驟。數據清洗是指對數據中的噪聲、缺失值、異常值等進行處理,以提高數據質量。數據整合是指將來自不同業務系統的數據進行整合,形成一個統一的數據存儲。數據轉換是指將原始數據轉換為適合后續分析的數據格式。

(二)數據關聯關系分析

對于預處理過的數據,將運用數據挖掘技術,發現數據之間的關聯關系。這些關聯關系可能是顯性的,也可能是隱性的。顯性關聯關系指的是數據之間的直接聯系,而隱性關聯關系指的是數據之間的潛在聯系。挖掘數據關聯關系有助于更好地理解數據之間的聯系,為后續數據分析提供依據。

對于挖掘出的數據關聯關系,將進行證據推理運算,以評估數據關聯關系的強弱和準確性。這個過程可能涉及概率論、統計學等學科知識。證據推理運算旨在根據已知數據推斷未知數據,從而為企業決策提供有力支持。

對推理運算的結果進行評估,判斷其是否符合預期。如果不符合,需要調整數據挖掘和推理運算的參數,直到取得滿意的結果,評估結果包括關聯關系的強度、準確性等指標。

(三)數據匹配與價值提取

數據匹配是企業內部數據挖掘的重要環節,其目的是在大量數據中找到具有相似特征的數據。數據匹配的過程可以采用聚類、分類等機器學習技術。通過數據匹配,企業可以更好地理解數據之間的內在聯系,為后續的數據分析和應用提供基礎。在數據匹配的基礎上,企業需要進一步提取出具有較高價值的數據。這些數據包括但不僅限于關鍵業務數據、異常業務數據、潛在業務機會等。價值數據的提取有助于企業發現潛在的業務機會,優化業務流程,提高業務效率。

對于提取出的有價值數據,企業需要利用特征項集比對引擎對其類型和值進行比對??梢园驯葘^程看作是數據校驗,目的是確保數據的正確性和一致性。特征項集比對引擎可以幫助企業發現數據中的錯誤和異常,從而提高數據質量。比對引擎會將正確信息進行持久化存儲,以便后續的審計調查使用。此外,企業還需對整個數據收集過程進行監控和跟蹤,以便在出現問題時進行溯源和解決。數據持久化存儲可以確保數據的穩定性和可追溯性。

四、全量業務系統數據收集系統的設計策略

(一)企業內部數據全量提取設計

根據企業內部系統授權,或通過 HOOK 技術接口對企業內部數據文件進行解譯,使用全量數據提取技術,提取目標業務系統中的所有數據。針對提取的數據進行預處理,包括數據清洗、去重、格式轉換等,以便后續數據分析。

在數據分析引擎中,事先設置業務關聯關系,其中一部分信息需要手動錄入備用。這些業務關聯關系包括項目投標信息和供應商信息等,信息是后續關聯關系推理的基礎。構建一個數據證據推理運算引擎,它的功能如下:1.根據手動錄入的關聯預置信息,例如項目投標信息中的標段編號和供應商信息中的供應商編號,用于推斷標段與供應商之間的關系。2.通過供應商之間的推理,判斷是否存在信息關聯,例如同源關系和中標關系,以此類推。

使用了可靠性因子(r)和重要性權重(w)來衡量證據的質量和重要性??煽啃砸蜃樱╮)表示信息源能夠對問題提供精確評估或解答的能力,它是證據的固有屬性。重要性權重(w)則用于確定某個證據相對于其他證據的重要性,取決于哪些證據被使用以及使用情境。

(二)系統數據處理邏輯設計

該系統利用相似性評估數據之間的相似程度。在數據處理領域,相似性應用廣泛,用于判斷數據相關性、發現相似數據、去除多余信息,以及進行數據清理。數據挖掘、機器學習和模式識別等領域都重視相似性的概念。通過計算數據的相似性,操作者能將相似的數據聚合,形成不同的群組,公式(1)表示X_i^k匹配A_j^i的相似度,用于后續衡量屬性X和類別Y之間的關系:

(1)

相似性對于數據處理和分類問題都至關重要。在分類問題中,可靠性是一個核心概念,它反映屬性的分類能力。越可靠的屬性越能明確地分類樣本,而可靠性高的屬性具有較小的屬性值重疊。因此,信息源的可靠性可定義為能夠直接基于屬性判斷為某個具體類別的樣本數量。這一數量越大,屬性的可靠性越高。其中aij為相似度,Xik為區間分布(如:投標價格區間),Aji為讀取的樣本數據(如:從業務系統中獲取的投標價格數據)相似度和,an,j是所有樣本對Xik匹配Aji,同時該樣本屬于yn的相似度和。將公式(1)相似度分組求和獲得如表1所示。

相似性和可靠性在數據處理和分類問題中發揮著重要作用。它們幫助操作者理解數據之間的關系,識別相似性,以及評估屬性的可靠性。這對于數據挖掘、機器學習和模式識別等領域具有深遠的意義。yn為各樣本特征值類別,δn為樣本個數, Cn,j為特征的似然函數值列表,將結果輸入得到單一特征似然函數表,再將計算所得輸入 得到信度矩陣表。

∑k=1N Ck,j對似然函數表進行累加得到總和,計算出βn,ji? 信度矩陣列表,使用新的樣本,某個特征X的值Xik在類別yn中的信度由加權和計算求得Pn,i=an,jβn,ji+ai,j+1βn,j+1i,可靠性高的屬性下,不同類的屬性值區間之間具有相對小的重疊。因此,信息源X_i的可靠性可以定義:

(2)

其中,Qi表示能夠直接根據屬性Xi判斷為某個具體類的樣本數量,它越大,屬性的可靠性越高。

(三)數據特征項集比對與應用

進行數據特征項集比對的目的是為了維護數據的一致性、準確性和可靠性,這是數據管理和分析過程中的關鍵環節。通過比較不同數據集中的特征項,可以識別和解決數據冗余、錯誤和不一致的問題,這對于確保數據質量和提高數據分析和決策的效率至關重要。此外,特征項集比對還有助于發現數據之間的關系,支持數據挖掘和機器學習項目,以及確保數據符合特定行業的法規和標準。系統的匹配項分為類型匹配、語義匹配和數據質量匹配三類,類型匹配是根據數據對象的屬性類型進行匹配,以確保匹配的數據具有相同的類型。這一步驟主要是為了確保后續的數據處理和分析能夠順利進行。語義匹配是根據數據對象的屬性值進行匹配,以找到具有相同或相似含義的數據。這一步驟主要是為了消除由于詞義差異導致的匹配誤差。數據質量匹配是根據數據對象的屬性值進行匹配,此過程會重點關注數據的質量,如數據的完整性、一致性和準確性等。這一步驟主要是為了確保匹配到的數據具有較高的質量。

在完成數據特征項匹配后,這些價值數據將作為后續數據特征項集比對訓練引擎的輸入,以便進行進一步處理和分析,將訓練樣本數據歸一化到[0,1]之間,根據實際需求創建合適的神經網絡結構。在本研究中,采用BP(反向傳播)神經網絡進行訓練,設置BP神經網絡的訓練參數,如精度、次數和固定值等,這些參數將影響模型的性能和訓練速度,如果發現準確率較低,可以針對失真對象返回預處理階段重新訓練。

五、結語

研究針對當前企業全量業務系統數據收集的難題,提出了一種基于大數據的全量業務系統數據收集方法。該方法從數據解譯與提取、數據關聯關系分析、數據匹配與價值提取等方面進行設計,可以有效解決傳統數據收集方法在處理大量、多樣性和實時性數據方面的局限性,通過該方法的推廣,可以解決大數據時代企業業務數據處理難、大的問題,有助于企業充分利用數據資產,提高業務處理效率和決策水平。

參考文獻

[1]張永智,何可人.基于大數據技術的全量數據中心的建設[J].電子技術與軟件工程,2022(15):200-203.

[2]劉根寅.云制造環境下車間生產大數據處理系統研究與開發[D].沈陽:沈陽工業大學,2022.

[3]汪爭賢,吳建琳,陳胡嶸,等.基于數據中臺的財務大數據可視化分析的實現[J].經濟研究導刊,2021(20):128-130.

責任編輯:張津平、尚丹

猜你喜歡
數據質量大數據
電子商務平臺數據質量控制系統及仿真模型分析
強化統計執法提高數據質量
淺析統計數據質量
金融統計數據質量管理的國際借鑒與中國實踐
淺談統計數據質量控制
大數據環境下基于移動客戶端的傳統媒體轉型思路
基于大數據背景下的智慧城市建設研究
數據+輿情:南方報業創新轉型提高服務能力的探索
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合