?

時間觸發以太網與時間敏感網絡時鐘同步失效對比分析

2023-10-14 02:56彭逸飛涂曉東王顥鋼蔣體鋼
電子科技大學學報 2023年5期
關鍵詞:報文時鐘概率

彭逸飛,涂曉東,許 都,王顥鋼,謝 軍,蔣體鋼

(電子科技大學信息與通信工程學院 成都 611731)

確定性網絡(deterministic networking, DN)技術是一類在承載多種混合流量的網絡中控制并降低特定業務流端到端時延以及抖動的技術。它能給“時間敏感”業務提供確定性業務保證的能力,其基本特征主要包括:時鐘同步、零擁塞數據丟失、可靠數據包交付等。時間觸發以太網(timetriggered ethernet, TTE)和時間敏感網絡(timesensitive networking, TSN)是兩種代表性的DN 網絡,其關鍵技術之一是建立可靠的網絡時間同步。

SAE AS6802 時間同步協議[1]定義了時間觸發以太網(TTE),滿足了分布式綜合化航電系統[2-3]的發展需求,并已經逐步在航空電子系統中得到應用。為了進一步滿足分布式綜合化的需求,保障混合關鍵網絡中高安全的時間觸發業務與其他業務隔離,構建支撐飛行控制系統和航電系統的機載統一通信網絡,基于SAE AS6802 協議對系統可靠性影響的分析將變得尤為重要。

文獻[4-5]已經通過形式化方法對AS6802 協議收斂性進行驗證,文獻[6]僅討論了如何利用TTE 網絡構建單一拜占庭失效場景下的應用層協議。文獻[7-8]利用形式化方法對TTE 時鐘精度進行證明。文獻[9-10]研究了TTE 網絡故障的仿真模擬方法,文獻[11]研究了故障注入測試方法,但并未給出失效概率評估方法。雖然前人已經對TTE 網絡有了一定的研究,但并未對協議失效場景進行系統分析,也未給出時間同步失效概率計算方法。

目前TSN 技術的研究主要活躍在車載網絡和工業網絡領域。文獻[12]著重研究了車載時間敏感軟件定義網絡,將TSN 與軟件定義網絡(software define network, SDN)結合,研究結果表明,在較低的網絡層上,自動控制流的可見性對于在整個網絡基礎設施中提供隔離和訪問控制至關重要。文獻[13-14]也在探索TSN 技術與邊緣計算網絡的結合方式。

TSN 網絡采用IEEE Std802.1AS 協議中規定的算法實現時間同步。文獻[15]使用Petri Net 技術對該協議進行了形式化驗證,但并未考慮802.1AS的失效場景。文獻[16]分別對無線以及工業場景無故障情況下運行該協議組成的多跳網絡時鐘精度等性能進行了評估。文獻[17]探討了幾種在TSN網絡中時間敏感流的可靠性保障機制。但均未給出可靠性理論評估方法。故目前802.1AS 時間同步缺乏針對各種失效場景下的系統性分析以及失效概率評估方法。

針對目前兩種協議缺乏失效場景系統性分析和對比的問題,本文首先根據協議分析了時間同步過程以及造成時間同步失效的原因,在此基礎上對比了兩種協議的失效場景。再針對目前兩種協議缺乏失效概率理論分析的問題,分別給出了失效概率的計算模型,并用模型進行失效概率對比,用OPNET 軟件進行失效概率模擬。結果表明本文提出的模型計算結果與仿真結果一致。

1 AS6802 同步失效場景與故障概率評估模型

網絡失效是指由于組件故障造成的網絡的非正常運行。本文進一步將網絡時鐘同步失效進行定義。

定義 1 定義網絡時鐘同步失效為網絡中未發生故障的設備數量不足以保障協議的正確運行,或者網絡形成了多個相互獨立的同步集團。

相關參數如表1 所示。

表1 關鍵參數含義說明

1.1 AS6802 同步過程與同步失效因素分析

AS6802 協議規定時間同步過程可分解為冷啟動和穩定同步兩個主要階段,每個階段均通過PCF幀(protocol control frame)交互實現,交互過程如圖1 所示。

圖1 協議交互模型

SM(synchronization master)和CM(compression master)為協議定義的兩種協議實體。SM 協議實體通常運行在終端節點上,CM 協議實體通常運行在交換機上。通過協議交互模型可知,如果交互過程中PCF 幀發生了丟失、超時等異常,就存在導致系統無法正常進入同步狀態,或者無法正常維持同步的風險。

其同步關鍵為協議中定義的時鐘容錯平均算法,即CM 設備會首先對每個輪次來自SM 的時間信息進行排序,其次選取位于序號居中的時間信息,取平均后作為本次修正的參考時鐘。

根據該算法,結合協議運行流程[8],假設全局時鐘基線為每次同步之前各個設備的本地時鐘相對于tglobal存在偏差,假定各個設備相對于全局時鐘基線的偏差為:

式中,tlocal,device代表設備device 的本地視圖。

可以得到校正后的時鐘值為:

式中,telapse為SM 完成一次時間同步算法后的觀測點。需要說明的是,式(3)和式(4)形式上是一致的,這說明AS6802 時間同步算法組建的網絡系統,各個設備的時鐘均收斂到第k+1與 第n-k個設備的時鐘平均值,這也體現了分布式時間同步算法無主時鐘的特點。

結論1 通過式(3)和式(4)可得,對于共有n個 SM 設備的系統,在系統中有k個SM 設備故障,并且不考慮時鐘偏移的情況下,不失一般性地假設各個SM 設備的PCF 幀的固化時刻按照設備編號遞增排序,最終交換機與SM 設備時鐘會保持一致,且時鐘同步的最終值僅和落入窗內的第k+1和 第n-k個SM 設備的時鐘有關。

1.2 AS6802 失效保障機制與失效模式轉化

AS6802 協議定義了3 種失效保障機制。

1) 自檢測對機制

Self-check pair 算法要求各個設備(包括交換機和端系統)需要對發送到鏈路的數據幀進行完整性檢查與一致性檢查。

每個設備將會包含兩個獨立運行的協議服務實體,正常情況下,這兩個協議服務實體的動作應該保持一致。當兩個協議實體不一致時,會阻止協議數據幀輸出。

2) Central guardian 機制配合leaky bucket 機制

Central guardian 算法要求交換機對輸入的數據幀進行時間完整性和數據完整性檢查,對于不滿足完整性要求的數據幀,交換機會將其丟棄。

Leaky Bucket 算法通常是用來限定流量占用的帶寬,配合Central guardian 實現協議幀合理性檢查:在確定性網絡中拓撲通常是固定的,所以交換機可以檢查是否接收到了異常來源的數據幀,或者某些來源的數據幀數量異常,同時利用leaky bucket 限定特定流量的帶寬。

3) 集團檢測機制

集團檢測機制用于保證網絡不會分裂成多個相互獨立的同步集團。如圖2 所示,該拓撲包含2 臺CM 設備和4 臺SM 設備,CM1、SM1、SM2設備的時鐘在1:00±10 min 范圍內,CM2、SM3、SM4 設備的時鐘在3:00±10 min 范圍內。CM1 檢測到SM1、SM2 的信息落入窗中(圖中CM1 窗口所示),由結論1 可知,CM1 本輪次的參考時間為(1:00+1:10)/2,即1:05,而SM3、SM4 的信息由于沒有落入CM1 窗內,而不被CM1 使用,對于CM2類似。這樣就使得網絡形成了兩個互不相干的時間同步集團。根據定義1,此時發生時間同步失效。

圖2 網絡形成多個不相交同步集團

為了處理這種失效,協議規定了集團檢測算法,該算法本質為設備監視落入窗內的時間信息個數,當該信息數量低于集團檢測閾值Q時(換句話來說如果有大部分時間信息均未落入窗內),設備就會認為自己當前處于小集團中,進而會選擇進行重啟或者凍結。集團檢測的關鍵在于閾值Q的確定,下面給出確定方法。

結論2 根據結論1,在交換機不發生故障,且網絡設備均開啟失效保障機制的前提下,網絡中SM 設備的數量為n≥2k,同步集團檢測的閾值Q至少應為n-k。(其中k為發生故障的設備數量)。

證明:

1) 當Q<n-k時 ,意味著系統第n-k個SM 設備的時鐘發生故障,這與結論1 矛盾。

2) 利用反證法,假定當 Q ≥n-k時,仍同時存在m個穩定同步的子系統,則應有:

則可推得:

由:

可得:

式中,m∈[2,n]。

所以,當m=2時,右邊取最大值,故網絡中SM 設備的數量為n≥2k,同步集團檢測的閾值Q至少應為n-k。

如圖2 所示,SM 總個數為4 個,此時應設置集團檢測閾值為2。觀察CM1,落入CM1 窗內的時鐘信息數量為2,2=2 不滿足 2 >Q,所以同步集團1 集團檢測成功。同步集團2 同理。

根據定義1,當網絡中有超過k個設備發生故障時,將無法滿足AS6802 協議正常運行的要求,協議將無法維持當前網絡的時鐘同步服務,最終導致同步失效。

1.3 AS6802 協議失效概率評估模型

利用1.2 節中所述的故障保障機制,可以將構成TTE 網絡中的任何一個運行AS6802 協議的設備看作為一個兩狀態組件(正常工作狀態和失效狀態)。TTE 網絡最終是否能夠正常同步則取決于當前網絡中正常工作的設備數量與閾值的關系。事實上,此種TTE 網絡的可以正常同步的概率取決于可用設備的數量。因此,AS6802 協議構建的時間同步網絡是典型的k-out-of-n系統。k-out-of-n系統可采用二項分布進行建模[18],因此給出如下定理。

定理 1 在不考慮CM 發生故障的情況下,可以給出由n個設備組成的系統,由于k個SM 設備發生失效而導致網絡同步故障概率為:

式中,R(t)如表1 定義為節點可靠性函數。

當網絡規模較大時,對網絡同步故障概率的求解將變得復雜,這主要是因為導致網絡失效的排列組合數量急劇增多??紤]到一般情況下交換設備的故障率相較于端系統會低一個數量級,根據式(10)可以得出:

結論3 對于TTE 網絡,隨著網絡規模變大,交換設備(CM)發生故障將成為導致網絡故障的主要因素。(由于篇幅限制,本文將證明過程上傳到Github,網址為https://github.com/YifeiPengEE/AS6802_IEEE8021AS)

進一步考慮實際情況,設備的失效通常小于10-3,所以本文對于k-out-of-n的求解進行如下簡化。當 λ <10-2,且運行時間小于100 h 時,同步失效可近似為(由于篇幅限制,本文將證明過程上傳到Github,網址為https://github.com/YifeiPengEE/AS6802_IEEE8021AS):

評估TTE 網絡時間同步失效概率的算法如下。

該算法的輸入包括節點、交換機的可靠度函數R(t), 網絡的鄰接矩陣G(v,e)以及網絡中SM 的總數量n。算法輸出為網絡時鐘同步失效概率函數fprob(t)。其中1~3 行為相關參數的初始化操作。第4 行調用 g et_tt_failcomp()函數,該函數用于根據結論2,獲取當前網絡拓撲下,所有可能造成時鐘同步失效的設備失效集合。該算法遍歷各種交換機失效場景。下面進行舉例說明(其中深色為失效設備),如圖3a 所示為正常網絡,圖3b 為系統中交換機未發生失效,此時根據結論2,則系統中至少存在4 個以上節點發生失效,才會導致系統時間同步失效,則此時失效情場景:{Node3,Node4,Node5,Node6}。圖3c 所示為一臺交換機失效場景示例,當SW1 發生失效后,意味著Node1 與Node2 也無法正常與其他節點通信,根據結論2,與SW2 連接的節點,至少存在2 個節點失效才會導致系統時間同步失效,則此時失效情況為:{SW1,Node3,Node4}。圖3d 為在當前拓撲下,當SW1 與SW2均發生失效時,導致系統時間同步失效,則此時失效情況為: { SW1,SW2}。第4 行comb 變量就保存了這些會導致系統時間同步失效場景的可能集合。5~7 行為遍歷comb 統計的所有失效場景,tteget_failprob()函數利用式(11)求解各種場景下的失效概率進行求和,該求和結果作為系統最終的失效概率。

圖3 TTE 網絡時鐘同步失效組合示例

2 802.1AS 系統模型與可靠性評估模型

2.1 802.1AS 同步過程與同步失效因素分析

802.1AS 協議實現的同步過程同樣也可以人為地劃分為冷啟動階段和同步維持兩個階段。協議的正常運轉通過如下3 類業務實現。

1)基于Announce 報文交互,實現的BMCA(best master clock algorithm)算法;

2)基于Sync 等報文交換,實現網絡時間同步;

3)基于Pdelay 等報文交互,實現的頻率和延時參數補償;

圖4 為802.1AS 協議流程。網絡設備初始化后,首先Announce 報文獲取對端設備的信息(包括同步優先級、時鐘源等)。根據所獲取的信息,按照BMCA 算法規定的比較規則,選出主從設備,生成全局時鐘樹。此后,端到端之間通過交互Pdelay 相關報文獲取鏈路時延、端到端頻率偏差等相關信息。同時主設備周期性地下發Sync 報文,用于更新從設備的時鐘信息,進而實現周期性的時鐘校準。

圖4 協議交互模型

通過對協議流程的分析可以看出,如果協議數據幀發生了丟失或者報文發生了延時發送,就會對網絡的時間同步造成影響,甚至會導致網絡形成多個獨立的同步集團。然而802.1AS 協議僅對超時事件給出了記錄機制,并沒有說明其他可靠性保障機制。所以可以給出如下失效模式。

2.2 802.1AS 失效處理機制與失效概率評估模型

首先需要說明802.1AS-2020 介紹了時鐘樹冗余策略,但是并沒有給出多時鐘樹生成算法以及類似的時鐘容錯平均算法,所以本文暫不討論。

802.1AS 對故障的處理機制可以簡單理解為:發生超時后,BMCA 進行重新選舉,進而形成新的時鐘樹。如圖5 所示,假設某一時刻TSN1 發送的Sync 報文發生了故障,即承載在Sync 報文中的時間信息發生了突變(變大)。當TSN 設備2 接收到后,就會將自身的時鐘修正到Sync 報文中指定的時刻。此外如果當前設備運行在立即轉發模式(非鎖步模式),則會將該錯誤的Sync 報文向下游設備傳播。當TSN 節點2 依據Sync 報文中的時間信息修訂本地時鐘后,觸發Announce 報文接收超時故障,進而導致該節點重新進入BMCA 算法的選舉狀態,下游節點類似。并且選舉過程需要一定時間后才會穩定。

圖5 故障處理機制說明

由此可以得出,雖然BMCA 算法擁有一定的能力可以使得系統從故障中恢復,但是仍然會引入抖動。并且BMCA 算法的自恢復能力是有限的,如果失效設備一致無法恢復,極端情況下有可能導致系統分裂成多個同步集團。

BMCA 算法本質是按照廣度優先遍歷的結果,以GM 節點為根節點,實現逐層同步。所以在不考慮惡意攻擊的前提下,802.1AS 協議失效可以定義為至少一臺非最下層交換機所連接葉節點設備發生故障的概率。

根據式(10),802.1AS 網絡同步失效概率為:

式中,

P1表示網絡所有設備均不發生故障的概率;P2表示僅邊緣設備發生故障的概率。

對802.1AS 算法進行故障概率分析可以分為兩個步驟,依據廣度優先遍歷算法求解網絡時鐘同步樹,根據式(12)計算網絡同步失效概率,具體算法如下。

該算法的輸入包括節點、交換機的可靠度函數R(t), 網絡的鄰接矩陣G(v,e)。算法輸出為網絡時鐘同步失效概率函數fprob(t)。其中第1 行為相關參數的初始化操作。第2 行根據802.1AS 標準給出的BMCA 算法求取當前時鐘樹,結果保存在bfs_result 中。第3 行 get_kleaf_cnt()函 數,依 據bfs_result結果,求取當前同步樹的最下層葉子節點數量。第4 行tsnget_failprob()函數依據式(12)計算系統最終的失效概率。

3 仿真與分析

3.1 失效場景對比分析

對TTE、TSN 同步失效場景進行對比,如表2所示。當TTE 網絡運行1.2 節所述的失效保障機制后,將大部分失效模式轉化為靜默失效。由于遺漏失效和崩潰失效對外特性與靜默失效類似,即均為缺失部分數據幀,因此在3.2 節仿真中考慮將TTE 網絡節點的故障模式設置為靜默故障,即根據表1 節點都以1 -R(t)的概率發生靜默失效。

表2 TTE、TSN 失效場景對比

對于TSN 網絡,由于802.1AS 協議并未規定類似的失效保障機制,因此幾乎每一種失效模式都有可能導致網絡同步失效。因此3.2 節直接將TSN 網絡節點的故障模式設置為時鐘大幅度偏移,即根據表1 節點的同步時鐘都以1 -R(t)的概率發生大幅度偏移。

3.2 失效概率對比分析

通過對比理論計算和OPNET 仿真的方式說明本文的故障概率計算算法的合理性。

圖6a 和圖6b 分別給出了本次采用的兩種拓撲仿真[19]。其中實線連線為實際物理鏈路,SW 代表運行AS6802-CM 或運行802.1AS 協議的交換機,Node 代表運行AS6802-SM 或802.1AS 協議的端系統。這些端系統通??梢允菙z像頭、雷達、GPS等設備。

圖6 OPNET 網絡仿真拓撲

為了便于理解,當網絡采用AS6802 協議時,僅觀察拓撲中標記為SM/CM 的設備,如圖6a 所示,此時Node1 運行AS6802-SM 協議,別名為SM1。SW1 運行AS6802-CM 協議,別名為CM1。當采用802.1AS 協議時,其中標記為GM 的設備為主時鐘,如圖6b 所示,各個設備均運行802.1AS協議,假定Node1 為當前拓撲下的802.1AS-GM設備(主節點),虛線箭頭給出了BMCA 算法形成的時鐘同步樹,其他節點均為運行802.1AS 協議的普通節點。

表3 所示為本次對比試驗所采用的參數設置,該參數設置與所選擇的仿真拓撲無關,需要說明的是,上述Rdur持 續時間或 A STO超時時間均是指離散時間仿真器中的仿真時間,而非實際設備的運行時間。

表3 仿真參數說明

圖7 和圖8 分別展示了兩種拓撲下AS6802、802.1AS 網絡按照算法1 和算法2 理論計算和使用OPNET 進行150 000 次試驗后取平均的結果。其中節點相關參數按照表1 進行設定,縱坐標代表失效概率,橫坐標代表所模擬的系統運行時間。

圖7 拓撲1 同步失效概率對比

圖8 拓撲2 同步失效概率對比

對比理論計算結果曲線和OPNET 仿真結果曲線,失效概率偏差范圍均在一個數量級。理論計算方法所獲得曲線與仿真所得失效概率最大偏離不高于同一個數量級(如圖中標注)。說明本文提出的時間同步協議故障概率量化估計模型與OPNET仿真實驗得出的結果基本一致。理論計算與OPNET 仿真兩種失效概率曲線存在偏差,主要原因是計算二項分布結果時對排列組合的計算進行了放縮與近似(由于篇幅限制,本文將證明過程上傳到Github,網址為https://github.com/YifeiPengEE/AS6802_IEEE8021AS)。

4 結 束 語

失效模式作為協議的薄弱環節,在設計使用這兩種協議組網的過程中需要重點考慮。本文針對兩種協議提出的失效概率模型符合OPNET 失效概率仿真結果,可以為相關人員評估兩種協議時間同步服務可靠性提供方法。此外,從本文的分析與仿真可看出,802.1AS 時間同步相對于AS6802 故障概率較高,未來可以通過改進同步機制,如采用分布式時鐘容錯算法等策略,提高時鐘同步服務的可靠性,進而提高TSN 網絡整體可靠性。此外,當前針對可靠性的量化評估采用的是k-out-of-n 系統基本可靠度模型,未來計劃在評估精度與仿真性能方面,對比其他可靠度模型。

猜你喜歡
報文時鐘概率
基于J1939 協議多包報文的時序研究及應用
第6講 “統計與概率”復習精講
第6講 “統計與概率”復習精講
別樣的“時鐘”
概率與統計(一)
概率與統計(二)
古代的時鐘
CTCS-2級報文數據管理需求分析和實現
淺析反駁類報文要點
有趣的時鐘
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合