吳 丹 李旭芳 劉 潔 黃榮裕
近年來,隨著交通行業的發展和智能交通系統的應用,大量交通數據被生成和積累,數據治理的問題逐漸由企業擴展至政府領域,成為學術界研究的熱點[1]。交通行業作為國家經濟的重要支柱,其數據治理水平對整個社會的運行和發展具有重要意義。隨著大數據、云計算、物聯網等技術的發展,交通行業數據呈現出爆炸式增長,數據類型和來源日趨多樣化[2]。這使得交通行業數據治理面臨諸多挑戰,如數據質量、數據安全、數據隱私、數據共享等。為了應對這些挑戰,本文提出了一種基于微服務架構的交通行業數據治理框架。
交通行業數據包括結構化數據(如數據庫中的表數據)、半結構化數據(如XML、JSON 等格式的數據)和非結構化數據(如圖像、視頻、文本等)。數據產生速度快,數據量大,如實時定位數據、報警數據,對數據存儲和處理能力提出了較高要求。
數據的實時性要求較高,如實時路況信息、交通擁堵預測等,需要快速響應和處理。為了滿足這些需求,數據處理系統需要具備低延遲、高吞吐量的特點,以便在有限的時間內分析和處理大量實時數據。
交通數據中可能包含個人隱私信息,如位置數據、出行記錄等,如何在保障數據安全和隱私的前提下進行數據治理成為一大挑戰。此外,交通數據還涉及國家安全和公共安全等方面的問題,因此需要在數據收集、存儲和處理過程中確保數據的安全性和合規性。
交通數據具有明顯的地域性特征,不同地區的交通狀況、道路狀況和出行需求差異較大。因此,在進行交通大數據分析時,需要充分考慮地域特點,以便為各地區提供更有針對性的交通優化建議和措施。
交通行業涉及多個部門和企業,如政府部門、公共交通公司、出租車公司等。為了實現交通行業的高效治理,需要在這些部門和企業之間實現數據共享和協同。這要求數據治理框架具備良好的互操作性和標準化,以便在不同系統和平臺之間實現順暢的數據交換。
一個基于云計算和微服務架構的數據治理框架可以有效解決交通行業大數據應用中的問題。這個框架包含數據采集與集成、實時數據處理與分析、數據存儲與管理、數據安全與隱私保護、數據共享與協同、微服務架構六大方面。
如圖1所示,該框架利用各種數據采集工具和接入程序,實時收集來自不同來源的交通數據,如傳感器、監控攝像頭、GPS 設備、公共交通系統等。數據接入程序負責對原始數據進行清洗、去重、格式轉換等操作,以提高數據質量。數據治理服務根據數據標準對數據進行深度融合和加工,數據集成模塊將整合不同來源的結構化、半結構化和非結構化數據,為后續分析提供統一的數據視圖。
圖1 數據采集清洗入庫流程
如圖1所示,該框架使用流處理技術(Apache Kafka)對實時數據進行處理和分析。實時數據處理模塊可以對交通狀況、擁堵情況等進行實時監測和預測,為交通管理部門提供實時決策支持。此外,利用機器學習和深度學習技術可以從海量交通數據中挖掘有價值的信息和模式,為交通優化提供智能建議。
該框架采用Clickouse 存儲大量交通數據,能夠提高存儲能力,滿足數據量大和地域性強的挑戰。同時,通過數據分層存儲策略,將熱數據存儲在高速緩存(Redis)中,以提高數據訪問速度。
為確保數據在傳輸和存儲過程中的安全性,該框架采用加密技術對數據進行加密,支持SM4、AES、SM3、FPE、XGS 等加密算法。對于涉及個人隱私和國家安全的數據,使用數據脫敏(如數據掩碼、偽造數據等)和訪問控制技術,確保只有授權用戶可以訪問敏感數據。同時,遵守相關法律法規,確保數據治理的合規性。
該框架構建了數據共享平臺,通過API 和數據交換規范實現跨部門和企業的數據共享。數據共享平臺可提供數據質量評估、數據血緣分析等功能,以確保數據的準確性、完整性和一致性。此外,平臺可支持數據權限管理,以便在保護隱私的同時實現數據共享。圖2 是靜態數據共享流程,對于動態數據,會根據交通實時數據的數據緊湊性、交換實時性和基于數據流的交換特點,建設有別于基于報文交互式的服務調用通道的交通實時數據交換通道。
圖2 數據共享流程
該框架采用微服務架構(如Spring Cloud、Istio)組織各個數據處理和分析模塊,實現模塊化、解耦合可擴展性。微服務架構有助于快速響應不斷變化的業務需求,提高系統的靈活性和可維護性。技術架構如圖3所示。
圖3 基于微服務技術的數據治理技術架構
本文提出了一種基于微服務架構的交通行業數據治理框架,能夠為交通管理部門、企業和公眾提供高質量的數據服務,助力實現智能交通和城市可持續發展,已在寶雞市交通管理局的實際案例中取得了良好效果。然而,仍存在一些挑戰和局限性,如非結構化數據處理、數據源變化、數據共享與隱私保護之間的平衡等。為應對這些挑戰,采用了自研的數據集成工具處理非結構化數據;引入數據版本控制應對數據源變化; 以及采用數據脫敏技術(如數據掩碼、偽造數據等)對敏感數據進行處理;采用加密技術(如AES、RSA)對數據進行加密存儲和傳輸;在保護隱私的同時實現數據共享。
未來研究可以從以下幾個方向展開:一是研究新興技術(如區塊鏈、人工智能等)在交通行業數據治理中的應用;二是探討如何進一步完善和優化現有數據治理框架,以適應不斷變化的需求;三是深入研究數據治理過程中的倫理和法律問題,確保數據治理的合規性和道德性。通過優化和完善這一框架,不斷為交通行業數據治理領域的發展提供有力支持。