?

IPv6流量流向及應用分析系統研發

2024-04-17 04:10項朝君段俊娜劉倩羅望東白潔魏利朋
數字通信世界 2024年3期

項朝君 段俊娜 劉倩 羅望東 白潔 魏利朋

摘要:文章針對IPv6流量流向及應用分析進行研究,通過對互聯網NETFLOW流量、域名解析數據、BGP路由表、AS號地域對應關系、IDC戶籍信息、應用標簽數據等信息進行關聯建模,給出互聯網IPv6流量流向與應用分布的判斷方法,并通過對應用域名的cname信息與IDC戶籍信息的分析比對,深度挖掘應用實際的CDN內容承載商。

關鍵詞:NETFLOW;DNS;IPv6;互聯網應用;數據建模

doi:10.3969/J.ISSN.1672-7274.2024.03.028

中圖分類號:TN 929.5? ? ? ? ? 文獻標志碼:A? ? ? ? ? ?文章編碼:1672-7274(2024)03-00-04

0? ?引言

我國計劃在2025年末實現IPv6網絡規模、用戶規模、流量規模全球領先,并面向下一代互聯網平滑演進升級[1]。河南聯通作為全國用戶規模排名領先的運營商,亟須研發一套精準識別全網用戶IPv6訪問流量流向和熱點應用網內網外分布情況的分析系統。本文重點研究IPv6流量分布和應用的識別方法。

1? ?系統研發思路

隨著全行業自上而下大規模地進行IPv6改造,IPv6活躍用戶數大幅增長,從國家到集團各個層面均需要掌握IPv6業務的發展情況。因此,為實現對IPv6業務監管以及推進IPv6規模發展,研發IPv6流量的識別分析手段是當前運營商迫切需要的能力[1]。

1.1 項目創新點

本系統通過大數據分析等智能化技術,對全省IPv6流量流向及應用情況進行識別統計。主要研發方向和創新點有以下幾點。

(1)IPv6流量識別。河南聯通寬帶用戶規模超

1 000萬,移網用戶規模超過3 000萬,系統從每日產生的海量數據中提取IPv6 FLOW流信息,針對IPv6流量進行單獨統計分析。

(2)IPv6應用標記。建立熱門應用IPv6域名IP對應庫,利用域名CNAME特征進一步識別應用實際承載商并明確IPv6流量的分布情況。

(3)IPv6地址庫自動更新。與城域網建立BGP鄰居實時獲取現網路由信息,通過AS和區域對應關系自動更新IPv6和區域對應關系。

(4)IPv6地址落點快速判斷。使用位運算技術將IPv6地址和海量IPv6區域地址段轉為大數類型,通過IPv6的大數快速判斷落點是否屬于該區域。

(5)數據可視化。通過表格和多種圖形化方式展現IPv6相關的流量流向、流量組成、流量TOP、應用流量及城域網/IDC流量分析。

1.2 系統工作流程

系統使用通用X86服務器架構,支持物理機和虛擬機部署;使用Hadoop的分布式文件系統進行分布式文件的存儲、復制、災備、提取等操作。

系統資源管理集群接收處理NETFLOW日志、DNS日志、BGP路由表、全網AS號、地域對應關系數據庫、IDC戶籍信息、應用數據標簽庫,將日志、計算任務分發至各分析服務器。

分析服務器根據數據算法模型,計算IP地址間流量、IP地址歸屬、DNS解析數據、匹配應用標簽等,分析出區域間流量、應用流量、應用實際承載商,并將結果匯總至資源管理服務器。

資源管理服務器將流量信息匯總,執行過濾和去重分析并下發任務至分析服務器,經計算匯總得到最終去重后的流量數據,完成計算分析后將結果匯總至主資源管理服務器數據庫。

2? ?系統設計原理

2.1 系統邏輯架構

系統通過專有的分布式系統,索引并分析全省NETFLOW數據,并將日志信息采用壓縮傳輸的方式上傳到集中節點,結合BGP路由表、全網AS號和地域對應關系數據庫對海量的IPv6流量流向進行統計和趨勢總體分析,并結合DNS日志、IDC戶籍信息、應用數據標簽庫進行關聯匹配,識別出熱門應用的IPv6流量情況,同時標記應用的實際承載商。

2.2 系統軟件架構

系統通過自行研發的查詢引擎和分布式系統架構,提供對IPv6視角下應用的快速識別和IPv6流量流向的詳細統計分析展示。

統一數據源處理模塊通過探針采集的方式采集全省CR發送的NETFLOW流生成既定格式日志,SFTP方式接收本省DNS日志,手動導入AS號地域信息、應用域名庫、IDC戶籍信息,與CR建立BGPPEER實時接收全省路由表,將采集到的數據傳送給數據存儲模塊。

數據存儲模塊將采集到的信息通過數據處理按照統一格式保存在分布式文件系統內。在數據保存前進行去重更新及備份策略制定,并將數據計算模塊的分析結果入庫保存并提供即席查詢,系統根據分析結果的數據量和查詢特點存入不同的數據庫。

數據計算模塊從地市CR采集數據,結合DNS日志和各種關聯信息,通過分布式計算平臺的任務調度和分析系統查詢引擎對核心數據進行檢索、分析、數據挖掘和定位等處理,并將分析結果保存到雙活CLICKHOUSE數據庫。

業務應用將已經完成統計分析的信息數據按照數據類別分別展現在用戶界面上,可提供導出多種格式的分析結果。

2.3 系統構成

系統由數據層、數據分析層、結果展示層構成。數據層實現NETFLOW及DNS日志收集、BGP路由信息收集以及關聯信息收集,并將AS號地域信息表、應用域名庫、IDC戶籍信息錄入數據分析服務器。數據分析層基于Hadoop大數據分析架構,結合分布式文件系統和分布式計算的優勢,建立四種分析場景(支持IPv4、IPv6流量分析,IP協議有IPv4和IPv6兩種,通過兩種地址的特征進行區分識別[2]):熱門應用分析場景、城域網流量分析場景、IDC流量分析場景、違規轉售分析場景。結果展示層將數據層的各個數據交叉計算、分析、統計,并通過Browser/Server架構展示給管理員。

3? ?項目成果展示

本系統已推廣至全省18個市分公司使用,成為河南聯通寬帶網絡運營、IPv6流量分析、IDC用戶分析、運維稽查等工作中的重要支撐手段。

3.1 系統總覽

本項目通過算法設計和數據建模,對河南聯通41臺路由器的NETFLOW進行分析,日均交叉處理分析約350億條NETFLOW日志,2 000多個區域組合,100多個熱門應用[3]。系統預制的四大分析場景(城域網流量分析、IDC流量分析、熱門應用分析、違規轉售分析)覆蓋了流量分析的各個高頻維度,同時提供精細的流量管理模塊,可精細到一個端口、一個協議的數據分析,供維護人員按需自定義分析策略。

3.2 城域網流量分析

系統分析顯示省內整體IPv6流量占比為15%,各市城域網的IPv6占比8~21%。4G/5G移動業務的IPv6占比高于寬帶網,在40%以上。城域網固網IPv6流量占比整體低于20%,還有較大提升空間,需要重點關注家寬光貓、路由器等老舊終端對IPv6的支持情況。

3.3 IDC流量分析

系統分析顯示省內IDC主要節點的IPv6流量占比為20%~30%之間,主要集中在快手、抖音、騰訊視頻。通過與IPv4流量的比對,今日頭條、有道、拼多多、虎牙、華為云、金山云、喜馬拉雅等應用流量使用IPv6協議承載較少,政企部門可以加大與這些頭部企業的溝通合作,多引入一些IPv6資源來優化IPv6流量占比。在市公司維度上,鄭州、洛陽等IDC節點業務發展較好,IPv6流量占比在20%左右,明顯高于其他地市。

3.4 熱門應用流量分析

本項目對互聯網熱點應用IPv6與IPv4使用情況進行分析,IPv6流量TOP10為抖音、今日頭條、快手、華為、金山云、愛奇藝、拼多多、騰訊視頻、微信、天翼云。

TOP10內的大部分應用IPv6流量占比相對較低,嗶哩嗶哩、華為云、咪咕視頻等熱門應用IPv6流量占比低于5%,需要深入合作引入更多IPv6資源。

3.5 違規轉售業務流量識別

本項目對全省IDC客戶承載內容進行了分析,重點識別互聯網直簽客戶違規轉售的問題,運營商政企部門可以利用分析數據,與白手套公司進行約談停止違規行為,有利于規范IDC市場發展,提升IDC業務收入。

4? ?結束語

IPv6流量流向及應用分析系統通過對運營商骨干網NETFLOW數據、域名解析數據、BGP路由表、全網AS號、地域對應關系數據庫、IDC戶籍信息、應用數據標簽庫進行建模關聯分析[3],實現了運營商對互聯網IPv6流量占比及分布情況精準掌握,并結合各類日志將IPv6地址間的交互流量映射為地區、運營商、應用、IDC客戶等具有業務發展指導價值的信息,通過對全省IDC客戶承載內容的分析,重點識別互聯網直簽客戶違規轉售的問題,協助運營商政企部門規范IDC市場,提升IDC業務收入。項目自上線以來,每周向工信部輸出IDC和熱門應用維度的IPv6/IPv4流量報表,可視化展現城域網、IDC、熱門應用的IPv6流量流向情況,該系統具有可復制性、可推廣性良好。

參考文獻

[1] 葛監,劉宏潔.我國IPv6流量問題探討[J].信息通信技術與政策,2019(12):17-20.

[2] 任曉磊.IPv6協議研究及IPv4/IPv6過渡方法和實驗[J].電腦開發與應用,2014(10):76-78.

[3] 李春平,王東,張淑榮,葉裴雷,李妍.基于Netflow的網絡流量監測與分析[J].現代計算機,2022(4):45-51.

91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合