?

基于自動標簽的城市信用畫像系統的設計與實現

2022-04-09 22:30駱文輝
電腦知識與技術 2022年6期
關鍵詞:風險預警系統

駱文輝

摘要:為了解決管理人員對城市信用數據查詢效率和質量問題,實現信用畫像快速、準確圈定數據的要求,提出了一種基于自動標簽的城市信用畫像系統。通過自動化標簽技術來構建市場主體的信用畫像,并基于標簽結合集成學習算法實現了信用風險的自動預警,有效提升了信用監管工作的效率。

關鍵詞:自動標簽;信用畫像;集成學習;風險預警;系統

中圖分類號:TP391? ? ? 文獻標識碼:A

文章編號:1009-3044(2022)06-0001-03

開放科學(資源服務)標識碼(OSID):

1 概述

近年來,多地以信用信息平臺為支撐,以推進誠信文化建設、建立守信激勵和失信懲戒機制為重點,以聯合獎懲、信用服務為主要手段,全面推進社會信用體系建設工作[1]。在大數據時代,匯聚企業基本信息、經營狀況、經營風險、知識產權、發展狀況等數據,可以勾勒出企業整體特征與輪廓,建立起立體的企業全息畫像[2]。信用畫像是指將企業所有的信用標簽綜合起來,對其信用等級做出全面精確的評價。

傳統的數據查詢與統計模式無法洞悉數據全貌,也無法滿足同類信用群體識別及多維度的分析比較,更無法完成在對信用主體智能識別的基礎上實現信用風險自動化預警[3]。本文面向社會信用領域研發一款集標簽開發、管理與服務業務于一身的信用畫像系統,支持從海量數據中挖掘和計算標簽,并通過良性的標簽運營機制,促進標簽在信用業務中應用。以信用業務需求為導向,讓業務與標簽深度結合,通過標簽增強業務,信用業務需求拉動標簽開發,從而進入一種良性循環,讓標簽體系在信用管理業務中持續迭代。

2 系統架構與功能

2.1 系統總體架構

城市信用畫像系統采用了層次化的設計思想,結合了國家有關標準和實際業務需求,構建了信用風險預警模型預置在系統中,并基于機器學習等算法技術實現了企業標簽的自動化提取。城市信用畫像系統由數據源、數據層、計算層和應用層四部分組成。數據源主要包括各類政務數據和公開社會數據,經規整匯集到指定數據庫。計算層針對用戶自定義的標簽、指標、信用分等進行計算,此外還針對用戶指定的標簽進行聚類計算以查找相似群體。數據層包括兩類數據:第一類是用戶創建的存儲在系統相應目錄下的實時數據;第二類為基于標簽規則集和預警規則集產生的數據,包括信用標簽數據、信用風險預警數據;第三類是基于第一類、第二類的基礎之上產生的畫像數據,包括企業單體畫像、群體畫像。應用層在計算層之上是向用戶提供服務,包括畫像可視化、風險預警監控等。系統架構如圖1所示。

城市信用畫像系統前端采用VUE和Layui,通過nginx負載,依托JWT和Spring Security實現權限認證體系,服務層分為系統后臺服務和計算服務,系統后臺服務主要使用SpringBoot、Mybatis Plus和Jasypt加密等技術;計算服務依托HDFS、Hive、Azkaban、Sqoop等大數據框架實現分布式計算和數據查詢。調度工具有xxl-job系統調度平臺和Azkaban大數據調度平臺。數據存儲層使用Redis緩存數據庫、Mysql數據庫、Hive數據庫。文件存儲采用FastDFS。系統技術架構圖如圖2所示。

用戶請求通過前端Nginx負載分發到后端服務,后端服務部署至少兩個節點,保證服務的高可用;部署Druid監控數據庫、Springboot admin監控應用、Prometheus和Grafana監控系統;xxl-job任務調度平臺調用后端服務實現定時任務,后端服務通過Azkaban對大數據集群進行調用;大數據集群5個節點,主節點上部署hive、azkaban、sqoop、hadoop,四個數據節點部署hadoop;數據庫層面使用關系型數據庫Mysql存儲系統數據、NoSql數據庫redis和Hive數據庫。運行環境為linux、Docker容器或者云服務器上,Git負責項目版本控制,jekins持續集成部署。城市信用畫像系統部署架構圖3所示。

2.2 數據庫設計

政務數據、公開社會數據經過匯集后,進入系統目錄,以企業的統一社會信用代碼作為唯一標識碼,目錄按照配置的更新周期定時更新數據。由目錄數據通過系統配置生成的標簽、預警規則集,被系統自動轉化為SQL語句文本或python代碼文本,并以指定的表結構存儲。同時,判斷標簽、預警數據是否初次版本,初次版本數據全量保留;若已存在初次版本數據,則異步分析差異數據,存儲每個版本差異數據。當系統需要查詢具體某一版本的數據時,根據初次版本數據和歷次版本的差異數據,匯集計算得到想要版本的全量數據提供給具體的查詢業務場景。

2.3 功能設計

城市信用畫像系統具體由目錄管理、行為事件管理、標簽管理、風險預警管理等功能模塊構成。用戶可通過目錄管理功能模塊將清洗數據上傳為數據目錄,在行為事件管理、標簽管理、風險預警管理功能模塊實現將目錄構建為行為事件、標簽、預警等,并在以上功能模塊基礎上構建企業信用畫像,支持實時查詢查看,同時通過大數據可視化技術將企業畫像各個維度信息做出可視化處理供用戶查看。

3 自動化標簽

3.1 企業競爭力標簽

企業競爭力是在競爭的市場上,通過發展企業資源和能力,實現自身價值的綜合性能力,企業競爭力與企業創新能力、企業產品生產及質量優劣、企業文化、企業招投標數量、企業知識產權數量等息息相關,這些因素越高,企業發展動力越足,企業的競爭力就越強。通常企業競爭力影響著企業風險狀況,企業競爭力越強,相應的企業風險狀況就越低。自動標簽構建步驟如下。

1) 數據預處理

企業競爭力標簽的數據處理主要包括臟數據的清洗、空數據的填充、數據類型轉換等。數據分為字符型和數值型,判斷數據類型,數值型進行歸一化處理,非數值型LabelEncoder()并歸一化處理。

2) 特征工程

從數據集中挑選出包括企業從業人員人數、股東信息、變更信息、裁判文書信息、專利信息、軟著信息、招投標信息、經營狀況信息、知識產權信息等特征,經過特征多項式、特征組合等方式得到212個特征字段。

統計計算各個字段特征的max、min、mean等,對相關字段特征進行標準化操作。然后,基于多項式的、基于指數函數的、基于對數函數的進行特征變換,同時日期型數據處理成年、月、日等多個字段。

3) 數據集和模型選擇

整理和收集蕪湖市工業100強企業、商業100強企業、制造業100強企業等其他百強企業名單作為競爭力強的企業,數據集分為訓練集和測試集,總數據量為3萬條,訓練集和測試集以5:1的比例劃分。

采用決策樹作為模型訓練的算法,對訓練集數據進行模型訓練,其中不純度計算方法criterion使用基尼系數,樹深max_depth設為6,特征切分點splitter設為“best”。

4) 模型調參

采用網格搜索GridSearchCV()方法進行調參,設置參數取值區間,循環調用參數訓練模型,尋找最優參數,調整決策樹算法的各個參數為最優。

3.2 企業發展潛力標簽

企業的發展潛力包含企業的對外投資信息和分支機構信息,企業的軟件著作權、專利、對外網站和商標信息說明企業具有一定的創新能力,企業的資質證書和行政許可可以看出企業的發展動力。自動標簽構建步驟如下:

1) 數據預處理

整理出數據集3萬條,主要包含企業類型、企業所屬行業、企業營收等字段數據。數據的預處理包括數據填充、文本分割、數據清洗、類型轉換等操作,經過數據的預處理,整理出145個字段特征。

2) 特征工程

特征工程包含對時間特征的轉換和編碼處理、交叉特征的處理、占比特征的處理。經過特征工程和初步的特征選擇后形成94個特征。將94個特征經過多項式變換之后,形成4185個特征。

3) 特征選擇

方差選擇:給定方差閾值,計算特征方差,刪除低于方差閾值的特征;卡方、F檢驗選擇:根據卡方檢驗、F檢驗進行特征與分類結果的相關性檢驗篩選特征。

4) 模型訓練和調參

標簽采用決策樹算法作為分類器,進行模型的訓練,調整特征選擇函數的參數步驟如下:

①方差選擇中的方差閾值(VarianceThreshold),最優值為0;

②卡方檢驗/F分布中的比例值,最優0.85;

③互信息(mutual_info_classif),最優閾值為0;

④正則化選取L1正則化,最優C=0.01。

4 信用風險預警

4.1 信用風險標簽

系統產生的風險類標簽包含自身風險類標簽、周邊風險類標簽、預警提醒類標簽、經營風險類標簽,構建成圍繞企業風險信息的標簽體系,具體的標簽說明如表1所示。本文通過這些標簽來進行企業風險預警。

4.2 信用風險預警

集成學習(Ensemble learning)通過構建并結合多個學習器來完成學習任務,有時也被稱為多分類器系統(multi-classifier system)、基于委員會的學習(committee-based learning)等。根據個體學習器的生成方式,目前的機器學習集成方法主要分為兩大類。

1) 個體學習器間存在強依賴關系、必須串行生成的序列化方法,代表為Boosting。

2) 個體學習器間不存在強依賴關系、可同時生成的并行化方法,代表為Bagging和隨機森林。

①隨機森林

隨機森林(Random Forest,RF)算法是基于bagging算法與決策樹結合的集成算法,在分類、預測和缺失值檢測等方面的多個場景下均得到了廣泛的應用。其核心思想是利用每棵決策樹對袋外數據的輸入矩陣進行預測,將各決策樹預測結果均值作為最終預測輸出結果。相比于傳統的決策樹算法,該算法能夠平衡分布不均勻樣本的誤差,分類精度高,對異常值和噪聲有很好的容忍度。

在RF算法中,對基決策樹中的每個企業節點,先從該節點的候選屬性集合中隨機選擇一個包含k個屬性的子集S,然后再從這個子集中選擇一個最優屬性用于數據集的劃分。k的選擇對模型的效果起著比較重要的影響,一般選擇[k=log2d]作為子集大小。

②XGBoost

XGBoost(eXtreme Gradient Boosting)是一種基于梯度提升樹的集成算法[4],通過在模型構建過程中引入正則化損失函數來構建若干弱評估器,整合弱分類器的分類結果,得到一個準確率較高的強分類器,利用多模型整合的優勢降低了模型過擬合的風險。由于 XGBoost 使用了預排序、加權分位數、稀疏矩陣識別以及緩存識別等技術,故其擁有可以并行運算、算法的復雜度可控、泛化能力強的優點,其目標函數如下所示。

[L=i=1nl(yi,yi)+k=1kΩ(fk)]

其中,l是損失函數,yi是第i個樣本xi的真實值,[yi]是第i個樣本xi的預測值,fk表示第k棵樹的預測函數。

③LightGBM

LightGBM(Light Gradient Boosting Machine,LGBM)是基于決策樹算法的梯度提升框架,相比于 XGBoost算法,速度更快,內存占用率更低[5]。其原理是利用最速下降法,把損失函數的負梯度在當前模型的值當作殘差的近似值,進而擬合出一棵回歸樹。經過多輪迭代,最后將所有回歸樹的結果累加得到最終結果。與XGBoost的節點分裂方式不同的是,LightGBM先將企業特征進行分桶,構建多個直方圖,再進行節點分裂計算。對于當前模型的每個葉子節點,需要遍歷所有的特征,來找到增益最大的特征及其劃分值,以此來分裂該葉子節點。

4.3 結合策略

本文使用投票法(voting)的結合策略來融合RandomForest、XGBoost和lightGBM模型結果,其具體過程如下。

1) 將輸入數據分割成Train Set和Test Set,使用Train Set分別訓練RandomForest、XGBoost和lightGBM模型。

2) 分別使用RandomForest、XGBoost和lightGBM模型對Test Set進行預測得到對應predrf、predxgb和predlgb。

3) 使用加權投票法(weighted voting)對三個模型的預測結果進行處理得到最終的預測結果:

[pred=λ1*predrf+λ2*predxgb+λ3*predlgb]

其中,[λ1,λ2,λ3]分別為對應模型的投票權重且滿足[λ1+λ2+λ3=1]。

4.4 預警大屏

基于集成學習的信用風險預警模算法,通過區域信用風險地圖對各類風險事件進行多維呈現,分析各類主體的歷史數據,遍歷主體信用變化的痕跡,對市場主體信用異常波動情況進行及時預警,如圖5所示。

5 結束語

本文提出了基于大數據研究信用標簽和畫像體系,能夠對信用主體進行全方位、多維度地刻畫、洞察,通過不斷拓展數據維度:基于自動化智能標簽實現對信用主體或目標群體的快速圈定;基于集成學習的信用風險預警算法,智能識別同類群體實現對信用主體的深度挖掘,實現信用風險的實時預警;基于對信用主體全維度的解析、綜合評估,輔助智能化信用監管。

參考文獻:

[1] 張遠.社會治理視角下的社會信用體系建設問題探討[J].征信,2021,39(11):46-50.

[2] 陳鋼,佘祥榮,秦加奇,等.面向精準政務服務的自然人全息畫像[J].電子技術與軟件工,2021(15):209-210.

[3] 李珂琦.大數據技術助力社會信用體系建設[J].網絡安全技術與應用,2020(08):81-82.

[4] T. Chen and C. Guestrin, “XGBoost: A Scalable Tree Boosting System,” in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD 16, San Francisco, California, USA, 2016, pp. 785-794, doi: 10.1145/2939672.2939785.

[5] Ke G,Meng Q,Finley T,et al.Light GBM:a highly efficient gradient boosting decision tree[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems,2017:3149-3157.

【通聯編輯:謝媛媛】

猜你喜歡
風險預警系統
WJ-700無人機系統
基于PowerPC+FPGA顯示系統
基于UG的發射箱自動化虛擬裝配系統開發
半沸制皂系統(下)
連通與提升系統的最后一塊拼圖 Audiolab 傲立 M-DAC mini
以運營動態為載體,推動地市運監工作實用開展
高校財務風險預警指標的建立與應用研究
行政事業單位的內部控制問題以及解決策略思考
信息化手段實現檢驗檢疫工作風險管理的可行性探討
電網企業財務管理
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合