王俊宇, 邢國棟, 李海濤, 付革民*
(1.國能包神鐵路集團有限責任公司機務分公司, 內蒙古, 鄂爾多斯 017000;2.安徽安為科技有限公司, 安徽, 合肥 230000)
機務大數據閉環整合算法集合了互聯網和大數據技術,對鐵路運行的全部過程實行數據管理,挖掘與機務管理相關的數據信息,形成閉合的數據鏈。在此基礎上,實現數據的快速分析、整理、編輯等,獲取數據中有價值的數據,提升機務大數據的利用率。離線計算和遷移學習則分別屬于大數據技術和互聯網技術:前者屬于大數據技術中的大數據計算,其指的是在計算開始前[1-4],所有輸入數據為已知的計算,并能夠立刻得出計算結果;后者則是在網絡應用不斷發展下,將已有領域中的數據遷移至新的領域,提升數據的應用性。
為實現大數據的整合,邱保志等[5]和張巧靈[6]分別研究基于殘差分析的混合屬性數據聚類算法和基于時間序列的數據融合算法,但是僅能夠完成同領域內的數據融合,對于跨領域數據的融合仍需進一步驗證。
因此,本文針對機務大數據的應用需求和現狀,在分析離線計算和遷移學習的優勢后,將兩者結合用于機務大數據閉環整合中,提出結合離線計算與遷移學習的機務大數據閉環整合算法,解決機務大數據信息孤島、利用率較低以及數據查找耗時等問題,為機務管理提供有效、可靠的數據管理。
本文提出的結合離線計算和遷移學習的機務大數據閉環整合算法,主要以機務大數據的高效實時采集以及各類數據的整合、統一化為主要目標,實現機務管理過程中各項機務業務之間的協調性[7]、部門和區域之間的數據共享性、數據格式的統一性;并且整合后的數據可通過Web技術實現數據可視化。該方法整體劃分為3個部分:一是機務大數據采集;二是機務大數據管理;三是決策支持,如圖1所示。
圖1 機務大數據閉環整合算法框架
該算法能夠與機務段數個應用系統之間集成,可實現用戶的統一管理、認證以及權限管理,通過數據的可視化完成機務宣傳三維動畫的展示,提升機務管理的相關工作效率,為管理決策、機務安全運輸生產等提供綜合的數據支持。
機務大數據包含的數據類別較多,其整體可劃分成3類:人員大數據、設備大數據、輔助大數據。本文算法通過閉環數據鏈的形成,實現機務數據的信息化,3類大數據可用于機車安全分析、機車檢修、人員安全分析、司乘管理、輔助決策等應用場景。各個應用場景之間的關聯關系如圖2所示。
圖2 機務大數據的應用場景
機務大數據聚類是實現機務大數據在閉環整合的基礎,機務大數據采集部分采用離線計算的基于人工蜂群(ABC)算法的并行劃分聚類算法,完成機務大數據的聚類。該算法結合ABC和相對熵策略(RES)、數據均衡策略以及MapReduce計算模型形成。三者分別實現機務數據預處理、數據均衡以及并行劃分聚類。其中,ABC算法用于完成機務大數據的預處理,RES則實現機務大數據的均衡處理,MapReduce計算模型實現最終機務大數據的并行化分聚類。
(1) 機務大數據預處理
依據數據聚類特性,引入聚類準則函數CCF,保證獲取的最優解滿足聚類特性,聚類準則函數CCF的公式為
(1)
式中,P(Xi,Oj)和P(Xi,Xj)分別表示簇內和簇間相似度,前者的值越大表示聚類效果越佳,后者的值越小表示聚類效果越佳。
(2)
(2) 大數據的均衡處理
在上一步驟中,獲取初始簇中心后,為了防止各個節點中機務數據發生傾斜現象,引入數據均衡策略。該策略能夠依據動態方式完成節點的負載收集,同時完成節點之間的負載分配,有效抑制數據傾斜現象,即使發生機務數據大量調動時,依據能夠較好地保證大數據的穩定。
i表示節點,當其發生過載沒有及時處理時的機務數量用L(i)m表示,則在Reduce階段中,懸掛和恢復所需的和時間分別用Ts和Tr表示;在執行機務數據時的通信開銷用Tc表示,則機務數據的均衡策略公式為
(3)
T(i)m>2Ci
(4)
Ci=Ts+Tc+Tr
(5)
式(3)~式(5)中,i節點發生過載時,其時間開銷用T(i)m表示,在該過載下,執行機務大數據調度時所需的總時間開銷用Ci表示。式(4)表示機務數據調度過程中所需的時間開銷小于過載節點的時間開銷,滿足機務數據調度標準,避免數據傾斜,實現數據均衡。
(3) 機務大數據的并行劃分聚類
完成機務大數據均衡處理后,采用MapReduce計算模型獲取簇中心,實現機務大數據的聚類。MapReduce計算模型是一種分布式編程模型以及任務調度模型,可完成大規模數據集的并行運算,其核心包含2個階段,分別為Map(映射)和Reduce(化簡),前者能夠完成輸入數據塊的轉化,后者則是完成整合以及輸出。MapReduce計算模型結構如圖3所示。
圖3 MapReduce計算模型結構
在機務大數據的并行劃分聚類過程中,主要利用Map和Reduce對數據實行相關處理,Map實現步驟(1)和步驟(2)的結果讀取后,采用歐氏距離計算公式確定初始簇中心距離和數據之間的距離,并向各個簇中分配對應的機務數據,獲取并存儲局部機務數據的聚類結果;Reduce依據Map的局部聚類結果完成局部簇的合并;以代價函數為E判斷依據,衡量合并結果是否為最優解。代價函數結果為Emin時,表示為最優解,即獲取機務大數據的聚類結果;反之則重新采用MapReduce計算模型進行迭代計算,達到Emin時停止,輸出機務數據的并行劃分聚類結果,形成機務大數據的閉環數據鏈。
設聚類形成機務大數據的閉環數據鏈中,機務管理所需的機務數據符號集合用V={V1,…,VM}表示,該符號的序列則用Vt表示,其中t表示變量,屬于一個代表序列長度;Vt的某個依賴子集用O表示,其觀察值序列用O=o1,oi,…,ot表示。機務數據的隱含狀態集合用S={S1,…,SN}表示,其狀態序列集合用St表示;其子集用Q表示,其狀態序列為Q=q1,qi,…,qt,且qi和oi相對應。
如果抽取的機務大數據的序列域用D表示,其中包含2種機務數據域,分別為已標注和未標注,用Dt和Du表示,前者由O和其邊界概率P(O)組成,后者由Q和其邊界概率P(Q)組成。
D的識別任務用G表示,該識別的主要目的是為O∈ξ找到Q∈ζ,以此保證數據最大化利用指標的實現;O和Q之間的序列關聯參數用λ={A,B,π},其中A表示機務數據狀態遷移矩陣,B表示機務數據符號發射矩陣,π表示機務數據的初始狀態分布。
矩陣A={aij},其中aij=(qt+1=Sj|qt=Si),A表示機務數據抽取過程中不同屬性之間的相互轉換概率。
矩陣B={bj(k)},其中bj(k)=P(ot=Vk|qt=Sj),B表示機務數據中檢索獲取的數據生成概率。
由于機務數據符號和數據狀態之間的分布不滿足獨立同等標準,因此,采用式(6)的最佳路徑指標保證機務數據抽取以及檢索的完成概率最大化,其公式為
(6)
依據粒度馬爾科夫模型完成不同機務數據域中抽取和檢索數據的識別,將識別后的數據用于機務管理中。
為測試本文算法對于機務大數據閉環整合的效果,抽取某鐵路局運行管理中心連續6個月的數據作為實驗對象,采用本文方法對其實行閉環整合測試,獲取測試結果。
由于機務數據在實際應用過程中,具有逐漸增加的特點,因此,本文算法在對其實行整合過程中需保證算法在數據不斷增加情況下的擴展性,測試在機務數據量逐漸增加的情況下以加速度(用于衡量數據的處理效率,期望標準達到0.9)作為衡量標準,獲取本文算法在不同節點數量下隨著數據量的不斷增加,加速度的結果,如圖4所示。
圖4 擴展性能測試結果
對圖4的結果進行分析后得出:在不同的數據節點下,隨著數據量的逐漸增加,加速度的結果均在0.9以上,表示本文算法的擴展性較好,能夠滿足機務數據在不斷增加的情況下,完成數據的整合。
為測試本文算法在進行機務數據查詢時的查詢性能,獲取本文方法在源域中未標注數據比例逐漸增加的情況下,隨著查詢數據量的逐漸增加,對源域數據實行查詢時的空間復雜度結果(期望結果低于0.35),如圖5所示。
圖5 機務數據查詢空間復雜度測試結果
對圖5的結果實行分析后得出:在不同的未標注數據比例下,隨著查詢數據量的逐漸增加,本文方法機務數據檢索過程中的空間復雜度均低于期望結果,復雜度結果均在0.3以下,因此,即使數據量在5 TB時,空間復雜度結果約在0.32左右,因此,本文方法具備良好的數據應用性能,能夠為機務管理快速提供所需的相關機務數據。
為測試本文算法的應用性能,采用智能系數(有效范圍值大于120,值越大表示算法的聚類性能越佳)和數據訪問載荷(有效范圍值大于20,值越大表示算法在數據整合過程中的協同處理性能越佳)作為評價指標,測試本文方法的應用性能,結果如表1所示。
表1 數據整合性能
對表1的結果進行分析后得出:在不用的節點數量下,本文方法的智能系數和數據訪問載荷兩種指標的結果均明顯高于標準的結果,最高結果分別達到155.7和74.6,因此,本文方法具備良好的數據整合性能,并且對數據實行協同處理能力較好。
鐵路信息化管理議程成為當下鐵路機務管控中心的重要內容,信息化的管理能夠實現機務管理全面、可靠掌握鐵路安全運行狀況,實現鐵路管理過程中各個路段管理處之間的數據共享,實現統一化管理、調控?;诖?結合離線計算和遷移學習,提出機務大數據閉環整合算法,保證算法擴展性較好,可滿足增長式機務數據的應用,可靠完成機務大數據聚類,并且數據在應用過程中的空間復雜度較低,整合效果理想,能夠為鐵路機務管控中心提供全面、可靠的數據依據,進而保證鐵路安全運行的全面管控。