?

政企客戶租線丟包的原因和排查方法

2020-01-08 14:10張士華
中國電氣工程學報 2020年20期

張士華

摘要:租線是政企客戶常用的業務,用來各個分支機構傳送內部數據。在新開和后期運行中均有可能導致丟包,丟包會導致傳送效率降低,直接影響用戶使用感知,從而引起客戶投訴甚至離網。作為智網工程師,必須掌握租線丟包常見的原因,在建設過程中就要做好防控,在后期運營中出現投訴,要掌握快速排查的方法,從而做到極速極致,提升客戶滿意度。

關鍵詞:丟包;雙工模式;租線

隨著政企客戶對網絡品質要求越來越高,特別是些金融的客戶對網絡時延、丟包等要求非??量?,租線中丟包率必須是0。但是由于各種原因,運營商的租線中經常出現丟包問題,從而引發客戶不滿。有些丟包故障,處理時長長,直接引發客戶離網。所以作為運營商維護人員,必須對租線丟包的原因深入了解,并且掌握快速的定位方法,從而為客戶提供高效的服務。

一、丟包定義

丟包可以用Ping進行檢測,Ping使用了ICMP協議(Internet Control Message Protocol)回送請求(Echo request)與回送回答報文(Echo reply)。源主機向目的主機發出Echo request 后,收到此報文的目的主機必須給源主機發送Echo reply。丟包率 =(Echo request - Echo reply)/Echo request*100%。

比如下圖中的測試結果:

丟包率=(10-4)/10*100%=60%

二、租線丟包成因分析

1.雙工模式不一致

當兩個互聯的端口一邊是半雙工、一邊是全雙工,就會導致丟包。由于半雙工是收發不能同時進行,當半雙工一方發送數據時候,必須將接收器關閉,如果此時對方正在發送數據就會產生丟包。

產生雙工模式不一致的原因是由于端口協商導致。802.3標準中定義自動協商功能:允許一個設備向遠端設備通告自己運行的工作方式,并偵測遠端通告的相應運行方式。雙方通過“討論”選擇最佳工作方式。電口自協商是通過快速連接脈沖(Fast Link Pulse)的信號實現的,在FLP中有支持的速率能力、雙工能力、流控能力等,雙方通過FLP來交換數據,適配出最優的速率、最優雙工能力和是否支持流控等。對端不支持自協商的情況下采用并行檢測機制。10M設備在鏈路上發送普通連接脈沖(Normal Link Pulse)。100M設備在鏈路上發送4B/5B編碼的Idle符號。NLP和Idle中不攜帶雙工能力、流控幀,自動協商一方就會認為對方不支持雙工和流控,將自己端口置為半雙工。所以兩個互聯的端口雙工模式不一致一般出現在一方是自動協商,另外一方是強制模式。但是當千兆電口對接時候,如果一端配置成強制千兆全雙工模式,一端配置為自動協商,那么協商結果很可能是千兆全雙工模式。是因為這里的強制模式是假象,實際上端口依然工作在自協商模式,只是取消了千兆全雙工以外的能力。兩個千兆電口對接時,一端要工作在master模式,另一端則工作在slave模式。Slave一端不使用自己的時鐘,而是從接收到的信號中恢復時鐘,自己發送信號時就使用恢復出來的時鐘。這樣,可以有效保證雙方的同步。但是,誰當master,誰又當slave呢?這就要通過自協商功能做出裁決。正是因為這個原因,IEEE 802.3ab-1999標準規定,自協商功能是1000BASE-T以太網的必選項。

2.網絡擁塞導致丟包

客戶電路帶寬擁塞或者網絡異常如環路等,出現突增的異常流量會導致PING包被丟棄,從而產生丟包。帶寬利用率可以在網管上查看,日常主動監控、提前預警。同時將服務衍生到客戶內網,按照客戶等級定期對客戶內網進行免費評測,如利用wireshark軟件檢測環路。高價值客戶可以提供增值服務,部署第三方的內網監控,細化到NetFllow分析。

3.硬件出現故障

硬件故障可能是網線、光纖、網卡、光模塊和外圍環境導致,達不到中斷,但是影響數據傳送。設備安裝符合規范,如接地等。機房環境符合要求,如溫濕度。為了防止自然老化,主動進行老舊設備改造。 定期巡檢和設備診斷,及時發現隱患。網管性能數據定期查看,如光口光功率,特別關注端口CRC錯報。

4. 網絡參數設置

網絡參數包括MTU設置、MPLS-VPN電路中的QOS設置和時鐘設置等。MTU在線路新建時候進行核對,總體原則是雙方保持一致。MPLS-VPN的QOS在售前方案時候需要與客戶對內網應用進行合理規劃,確保白金等級的流量不能溢出。? ? 路由器的CPOS接口與SDH設備相連時,SDH網絡的時鐘精度高于CPOS本身內部時鐘源的精度,路由器使用從時鐘模式。

三、租線丟包排查方法

1.先網管后測試

當遇到丟包故障時候,先在網管核查各個網元指標、核對參數配置,再進行測試。很多故障在網管上就能查看異常,如端口的CRC告警,帶寬擁塞等。無需去現場測試,從而提高工作效率。

2.先網內后網外

先確保運營商網絡正常,再與客戶內網聯調。接到客戶報障的時候兩端先在運營商的設備上進行測試,確保運營網內正常后再排查客戶的內網。而且一定要在客戶內網進行端到端測試,因為運營商的線路最終是交付給客戶使用。

3. 先本地后對端

在排查運營商網內問題時候由近到遠的測試,先確保本地正常,再協調對端測試。特別涉及國際租線,溝通成本高。為了提高溝通效率,先通過分段環回排查本地、省內、國內線路正常,再與對端進行聯調。

4. 先儀表后電腦

先掛表進行專業測試,掛表正常后再下掛電腦測試。因為儀表有專業的測試參數,如以太網表可以同時進行大小包、打流量、抖動等功能。

5. 先輕載后重載

ping測先小包,后大包。先空閑測試,再滿載測試。因為空載不丟包或者丟包很少,如果重載網絡里面丟包,基本是網絡中某兩個互聯的端口出現了雙工模式不一致導致,從而減少故障的定位時長。

四、典型案例

某客戶MV專線東莞至惠陽、東莞至深圳、惠陽至深圳均出現不同程度的丟包,丟包時間點無規律,丟包嚴重時候達到10%丟包率,嚴重影響日常生產。

1.測試工具:使用PingPlotter ping測整個網絡,進行7*24小時ping包測試,找到準確的丟包時間點和丟包段落。

2.網管檢查:三地PE上流量有過載,與丟包時間點吻合。白金流量存在丟棄,客戶內網規劃混亂,協助客戶做好內網規劃,將生產流量納入白金,暫時解決生產線路丟包。

3.分段測試:分別在各地的PE與CE之間進行測試,發現深圳PE與CE之間丟包嚴重,深圳接入機房空調故障,更換后丟包率下降到1%,后發現深圳的CE對ICMP有限制,取消后不丟包。

4.流量分析:后期客戶仍然反饋丟包,但是均是流量擁塞導致。內網部署探針,通過NetFlow流分析發現客戶高層的筆記本存在定期備份導致流量突增。

結語

運營商提供給用戶的租線由接入層、匯聚層和核心層組成,物理距離從幾十公里到幾千公里不等。網絡中任何一個細小的環節出現問題均由可能出現丟包。作為運營商維護人員必須深知丟包產生的原因,遇到丟包問題排查的時候必須有章可循,才能高效的響應客戶,快速解決丟包故障。

參考文獻

[1] 張強. 淺析計算機網絡數據丟包問題及應對方法[J].中文科技期刊數據庫(全文版)工程技術2017年04月(16):300-300.

[2] 賀濤.淺談“網絡丟包”[J].科技傳播,2010年4月(01):49-50.

[3] 劉欣榮.計算機網絡內部丟包節點檢測仿真研究[J].計算機仿真,2018(035),001:353-356.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合