趙京波
【摘 要】在當前出現越來越多的互聯互通業務層面質量問題的情況下,工業和信息化部,各運營商之間對互聯互通問題暫時沒有有效的解決方案,缺少相關技術支撐手段來實現快速發現、定位、取證、申告等一系列工作。另外,公司目前缺乏前瞻性的網絡性能測試手段,不能準確預見提供的互聯網業務服務質量及接入網網絡質量,無法及時發現網絡瓶頸及故障。本文提出了互聯網業務質量監控平臺的方案設計。
【關鍵詞】互聯網;業務質量;監控平臺
1.實現方案
1.1系統架構
平臺包括測試部分、綜合管理部分和北向接口,測試部分負責互聯互通電路質量的測試,測試結果在綜合管理部分進行處理、入庫和呈現,并且提供北向接口數據給綜合告警等其他系統。
平臺采用層次化設計的思想,包括測量層、測量分析和存儲層、測量任務管理層、系統管理層和外部接口:
(1)測量層實現對底層的測量模塊/板卡的管理和調度功能。提供了基于Java實現的WEB Agent、基于嵌入式系統的Embedded Agent 和基于硬件實現的高速網絡測量板卡。這些測量模塊和板卡之間可以測量互通。
(2)測量分析模塊對測量獲得的數據進行處理,獲得最終的測量結果; 測量存儲模塊對測量結果進行存儲管理, 這些積累的歷史數據可供運營商形成網絡“健康報告”。
(3)測量任務管理實現分布式的測量任務下發和控制,通過任務管理器將測量指令發送給各個測量器。
1.2功能架構
平臺的功能主要包括以下九個部分:
(1)互聯網HTTP業務測試:進行HTTP業務的質量測試,同時可以自動化進行網絡層質量診斷工具的聯動調用,包括ping、traceroute和telnet等。通過HTTP業務測試,能夠診斷出當前HTTP業務的質量好壞,并且在出現質量問題時,進行故障的定位。
(2)互聯網DNS業務測試:進行DNS業務的質量測試。
(3)互聯網MAIL測試:進行SMTP和POP業務的質量測試,同時可以自動化進行網絡層質量診斷工具的聯動調用,包括ping、traceroute和telnet等。通過SMTP和POP業務測試,能夠診斷出當前SMTP和POP業務的質量好壞,并且在出現質量問題時,進行故障的定位。
(4)互聯網接入帶寬測試:可以實現端到端剩余帶寬的微流量測試。
(5)互聯網接入質量測試:可以實現端到端的單雙向丟包、時延等指標的測試
(6)互聯網網絡擁塞測試:可以進行網絡擁塞點進行測量定位,確定出現擁塞的位置。
(7)互聯網測試VOIP測試:進行音頻傳輸層傳輸時延的測試。
(8)互聯網網元Rping測試:使用CISCO路由器Ping功能進行測試的能力。
(9)測試任務管理:進行測試任務進行下發、任務狀態查詢、任務測試結果展現等測試任務的所有內容的管理功能。
(10)告警管理:針對測試任務中測試指標超過預設閥值,則會觸發相應告警。告警管理則對告警進行存儲、短信和郵件轉發、告警內容展現等內容管理。
(11)系統管理:平臺自身的管理功能。
(12)用戶管理:平臺自身用戶的用戶信息和權限的增加、修改、刪除的管理。
(13)報表:平臺測試結果的數據展現。
1.3主要技術創新點
A.實現了基于規則判定的互聯網業務服務質量的自動關聯測試方法
基于規則判定的互聯網業務服務質量的自動關聯測試方法的主要工作流程:
(1)遠程下發一個本機PING測試任務讓客戶執行,如果ping不通說明網絡不可達。
(2)啟用Traceroute測試,確認網絡中斷節點位置。
(3)如果PING測試沒有問題,進行telnet 80端口,確定端口是否有效,目的端口是否被限制。
(4)如果telnet 80端口測試正常,則進行時延丟包測試,則確定端到端時延,時延丟包很大的話則診斷出問題。
(5)如果時延很大,則使用擁塞定位確定可能出現問題的位置。
(6)如果時延很小,則說明網絡層無問題。進行http業務測試,判斷dns、首字節傳輸時間等來判斷是dns出現問題還是http服務器本身出現問題。
(7)自動進行下一步接入帶寬的測試,通過對單向的剩余帶寬和時延抖動結果分析,是否是客戶本身問題(如服務器中毒、大量使用BT等),還是由于鏈路帶寬不夠,需要擴容。
(8)根據所設置門限值彈出告警,生成報表,綜合各項指標判定投訴問題所在。如果是互聯互通問題,根據所取結果證據收集,可以向相關部門提出申訴。
B.實現了基于HTTP業務的互聯互通故障定位技術
HTTP服務測試的流程和各參數意義說明如下:
(1)客戶端向DNS服務器發送DNS查詢請求WEB服務器的IP地址,DNS服務器返回查詢結果。這段時間為DNS查詢時間,該測試參數可定位DNS服務是否正常。
(2)客戶端獲得WEB服務器IP地址后,向該WEB服務器發送TCP SYN包,要求建立連接;WEB服務器做出應答,完成三次握手,連接建立。這段時間為建立連接時間,可定位互聯互通故障采取的路由及端口限制手段。
(3)客戶端向WEB服務器發送GET請求,在收到服務器的ACK后,開始下載頁面。這段時間為首字節傳輸時間,可定位WEB服務是否正常。
(4)客戶端從收到第一個字節到接收完整的HTML文件的時間為頁面下載時間,頁面的大小為傳輸字節數,吞吐量等于傳輸字節數和下載時間的比值,可定位互聯互通故障采取的訪問速率限制手段。
C.實現了微流量可用帶寬測量技術
鏈路帶寬是指一條通信鏈路的最大分組發送速率。瓶頸帶寬是指一條網絡路徑上各鏈路帶寬中的最小值,它決定了網絡路徑端到端最大發送速率。比如下圖,鏈路1為40Mbps,鏈路2為20Mbps, 則端到端的瓶頸帶寬為20Mbps。端到端剩余帶寬,由路徑上剩余帶寬最小的那段鏈路決定。就好像交通網絡中最為堵車的位置是整個交通網絡的瓶頸位置。剩余帶寬是用戶端到端的性能中最具決定性的因素。
2.解決問題及應用情況
本項目解決的問題主要包括:
2.1實現了高效的互聯網網絡端到端性能及業務測試平臺
(1)實現主動網絡性能測量功能,測量參數可靈活配置。
(2)實現微流量測量技術,減少網絡負擔。
(3)能夠進行擁塞定位,可主動定位網絡瓶頸。
(4)提供集團專線及個人寬帶用戶接入網絡質量測試功能。
(5)HTTP,FTP,POP3/SMTP,DNS,VOIP業務服務質量測試。
2.2實現了互聯網業務層面互聯互通障礙自動申告技術體系
(1)實現互聯網業務層面互聯互通故障的自動發現,自動定位。
(2)實現互聯網業務層面互聯互通故障的自動證據收集,狀態跟蹤。
(3)實現通信管理局故障工單處理系統的自動申告。
2.3互聯網業務服務質量監控平臺符合集團ONE OSS要求
(1)實現“主動測試、定位預警、閉環處理”的維護流程。
(2)實現豐富的數據報表統計及門戶站點展示功能。
(3)形成可測試、可考核的并實際反映網絡質量的KPI指標。
(4)開發高效的與網管系統,通管局申告系統等外部系統接口。
3.經濟和社會效益
互聯網業務服務監控平臺上線以來,極大減少了日常質量撥測及現場排障工作量,有效降低了客戶投訴崗位人員日常工作量。
(1)提升移動寬帶業務服務質量,提高用戶滿意度 互聯網業務服務監控平臺可實現網絡質量及各種業務的自動撥測及定位,有利于及時發現故障,提升處理效率,避免以往用戶投訴先于故障告警的不良局勢。
(2)提供了互聯互通技術監測手段,凈化互聯網競爭環境。
目前,該平臺已可解決以往監測手段缺乏的問題,為有效遏制競爭對手在互聯互通限制行為,規范互聯網互聯互通保障行為。