?

利用Box-Cox變換對移動通信中小區級業務流量分布的研究

2021-04-09 02:05于澤洋周文勝
數字通信世界 2021年3期
關鍵詞:正態高斯分布網絡結構

于澤洋,周文勝

(1.上海諾基亞貝爾軟件有限公司,上海 201204;2.中國電信股份有限公司湖南分公司,湖南 長沙 410011)

0 引言

移動通信建設中,小區級的流量分布有著重要的意義,在網絡規劃階段,這一分布可以影響規劃的站數、連接數等基本規劃數據;在運營階段,這一分布可以幫助判斷網絡結構是否合理,是否需要改進網絡結構來提高投資收益等。尤其在現在的大數據時代,獲取小區流量的分布并從中抽取具有價值的特征具有更為重要的意義。

但另一方面,由于各小區的位置、人口、經濟發展狀況等不同,各小區的業務流量也不同。有研究認為,蜂窩移動電話網話務密度圖在地域上的分布近似服從瑞利分布的規律[1]。在實際的基站建設中,每個小區的覆蓋范圍不同,在業務密集區域還存在多載波、小站、室分等多種分流形式,因此,小區的業務流量分布就更為復雜,不能簡單認為小區級業務流量符合瑞利分布。

另一個流量分布的研究方向是從人類行為的角度來研究各種業務模型[2],[3],例如短消息[4]、網頁[5]、E-mail[6],[7]等,這些模型可以用來在網絡規劃時做為各種業務模型的參考,但對于實際運營中的網絡還缺乏指導意義。

一般認為,小區級的業務流量分布人為因素過多,缺少統一的規律性。因此,有關小區級業務流量分布的研究較少。在網絡規劃階段,一般只是根據背包模型、非對稱高斯模型等,假定人口、業務分布來對密集市區、市區、郊區等情況進行一般性的估計,得到平均值。在運營階段,經常把小區簡單地分為容量型小區和覆蓋型小區,但其具體劃分也缺少嚴格的依據。因此,針對小區級業務流量分布的研究具有重要意義,同時又是目前比較欠缺的一環。

1 研究方法

本文收集多個地市的小區級業務流量,利用大數據分析的方法對流量數據進行分析,以期能得到小區級業務流量的一般性規律。需要注意的是,本文并不是找到了一種嚴格適用于所有地市小區級流量數據的分布,而是提供了一些方法可以對流量數據進行處理,得到近似的分布。

1.1 數據清洗

因為本次研究的目的是對整個城市的網絡進行評估,所以不宜對數據進行過多剔除。剔除的主要對象為:一是統計期內數據不完整的小區;二是統計期內新開的小區;三是統計期內關閉的小區。下列數據不列入剔除范圍:統計期內因故障流量為0或部分時段數據為0的小區。

1.2 數據平滑化處理

通常得到的小區流量數據為分時數據,具有較大的偶然性和潮汐性。本文采用了比較簡單的平滑化方法,僅僅對分時數據求和與平均處理。

1.3 正態化處理

把數據處理成符合高斯分布或接近高斯分布的過程叫正態化處理[8]。高斯分布又叫正態分布,是一種非常經典的分布[9]。高斯分布是人們了解非常透徹且豐富的處理方法。在大數據處理中,很多時候都是把分布處理成高斯分布,然后利用其豐富的處理方法、各種庫函數進行進一步的分析。高斯分布的分布密度函數為[9]:

式中,μ為期望值;σ為標準差。

μ=0,σ=1時的高斯分布成為標準高斯分布,其分布密度函數為:

高斯分布的檢測方法有很多,其中最常用的是Q-Q圖方法。Q-Q圖方法把數據分布和標準高斯分布做對比,如果數據分布和標準高斯分布相似,則該Q-Q圖趨近于落在y=x線上。如果數據分布和高斯分布線性相關,則點在Q-Q圖上趨近于落在一條直線上,但不一定在y=x線上[10],[11]。

布做對比,如果數據分布和標準高斯分布相似,則該Q-Q圖趨近于落在y=x線上。如果數據分布和高斯分布線性相關,則點在Q-Q圖上趨近于落在一條直線上,但不一定在 y=x線上[10],[11]。

1.3.1 對數化處理

對數化處理是一種簡單的高斯化方法。取對數后符合高斯分布的數據分布稱為對數高斯分布[8],其密度函數為:

對數化處理不能把所有的數據變換為高斯分布。

1.3.2 Box-Cox變換

Box-Cox變換是在大數據時代更為通用的高斯化方法[12]。Box-Cox變換公式為:

為了得到最佳的變換效果,選擇不同的 ,使得變換后的分布符合高斯分布,或者得到最小的方差概率(p),然后通過Q-Q圖像等方式檢驗處理后的分布是否符合高斯分布。如果符合高斯分布,我們就能夠通過反變換得到原始的小區業務流量分布。但是需要注意的是,Box-Cox方法也不能把所有分布處理成高斯分布。

1.4 殘差分析

通過正態化處理,可以使數據近似符合高斯分布,把該分布和高斯分布比較,可以清晰地得到分布本身固有的一些特征。

1.5 網絡結構評估

這是殘差分析的一個應用。通過流量數據分布的特征,分析產生這些特征的原因,可以得到期望的理想分布特征,并進一步可以對某一地市的網絡結構作出評估。

2 多個地市進行業務流量數據分析

2.1 數據說明

統計某省種多個地市4G小區級一周日均流量數據,分地市進行分析。下面所有的數據都是某一個地市的日均流量數據。

2.2 常見分布檢驗

圖1是一個典型地市的小區級流量分布。

圖1 某地市各流量小區占比

本文對數據進行分布檢驗,包括驗證數據是否符合高斯分布、Y分布、泊松分布、指數分布、瑞利分布,均得到了否定的答案,且和實際數據存在較大誤差。因此可以認為,小區級業務流量分布不符合上述的各種分布。

2.3 對數變換后的分布

對原始數據進行取對數,然后進行正態擬合,得到對數變換后,各地市流量數據變換后的頻次數據和高斯分布的對比。如圖2所示。

圖2 對數變換頻次圖

從圖2中可以看出,大部分區間上,變換后的數據和高斯分布基本能夠吻合,只是在某些區域內有一些出入。

為了更好檢驗變換后數據和高斯分布的差別,我們還做了Q-Q圖(見圖3):

圖3 對數變換Q-Q圖

從Q-Q圖中可以看出,對數變換后,數據和正態分布依然存在較大差異。

2.4 Box-Cox變換后分布

各個地市數據Box-Cox變換后的最佳λ,SSE見表1:

表1 最佳Box-Cox變換結果

表1中的ref SSE是指通過對數變換后擬合得到的SSE。從表1可以看出,所有地市的Box-Cox變換的SSE小于對數變換的SSE,即Box-Cox變換的結果比對數變換更接近于高斯分布。各地市流量數據變換后的頻次數據和高斯分布的對比如圖4所示。

從圖4可以看出,大部分區間上,變換后的數據和高斯分布能夠較好地吻合,只是在某些區域內有一些出入。為了更好檢驗變換后數據和高斯分布地差別,我們還做了圖5。

圖4 Box-Cox變換頻次圖

圖5 Box-Cox變換Q-Q圖

從圖5可以看出,絕大部分地市的數據和高斯分布吻合較好,但也有幾個地市,(例如地市1、2、7)的數據和高斯分布有一定差別。即使這些地市,在大部分區間上,變換后的數據和高斯分布能夠較好地吻合,只是在最左側和最右側,即超低流量區域和高、超高流量區域內有一些出入。

對比對數變換和Box-Cox變換可以認為,對數變換在后的數據分布從曲線形狀上接近了高斯分布,但Box-Cox變換的效果遠好于對數變換。

2.5 殘差分析

對比圖4和圖5的各個子圖可以看出,這些分布有一定的共性。但對比圖1,各個地市正態化變換以后的分布各自特征變得非常明顯,顯示出了各個網絡自身的特性。下面我們以地市1為例進行研究。

在圖6所示的為地市1的頻次圖和殘差圖中,我們把流量分布曲線分作5段:低流量段(圖中①),中低流量段(圖中②),中等流量段(圖中③),高流量段(圖中④),超高流量段(圖中⑤)。各段特點如表2所示。

各段頻次和高斯分布的差異分析如下:

圖6 典型地市分布和高斯分布差異

表2 Box-Cox變換后的地市1各段數據特征

(1)低流量段,頻次高于高斯分布。這可能是原始數據中有一些小區可能存在一定的小區在部分時段內有退網、退服等情況,造成了低流量的小區增加;也可能是無效小區過多。

(2)中低流量段,左側頻次略低于高斯分布。這可能是因為低流量段的頻次偏高,造成了擬合曲線向左偏移,使得中低流量段的統計頻次高于擬合曲線。參考其他地市的擬合曲線可以看出,凡是低流量段頻次差異不明顯的地市,其中低流量段的擬合也基本看不出差異。

(3)中等流量段,和高斯分布匹配較好。這部分殘差看起來比較大時因為這部分小區數量絕對值更大。

(4)中高流量段,頻次略高于高斯分布擬合結果。這是由于超高流量小區的容量限制,造成了高流量小區只能達到中高流量。運營商擴容也使得中高流量小區增加而高流量/超高流量小區減少。

(5)高流量段,頻次低于高斯分布擬合結果。事實上,高流量段應該稱為超高流量段。由于LTE 系統容量能力限制使得小區峰值流量有了一個上限,使得一些本來應該處于高流量段的小區落回到了中高流量段。當然,由于用戶行為的不同,小區繁忙時長的不同,造成了實際的超高流量小區的流量上限也有所不同。另外,對于超高流量小區,運營商也會采用各種分流、擴容的方法來降低小區負荷,這也造成了高流量小區的數量減少而中高流量小區的數量增加。

3 網絡結構分析

根據上面的分析,差異最大的,也是和網絡結構關系最大的是3個區域:低流量區、中高流量區和高流量區。理想的網絡具有以下特征:一是低流量小區少;二是中高流量小區多;三是超高流量小區少。

利用Box-Cox變換后的流量分布和高斯分布的對比,可以對地市的網絡建設是否合理給出以下參考:

(1)低流量小區分析:第一,短期內的低流量小區的過多,一般是退網、退服小區過多,應加強基站小區的維護,使得更多的小區處于正常的工作狀態。第二,而長期的低流量小區過多可能是一些小區沒有吸收到足夠的流量,應對網絡結構進行調整。

(2)中高流量小區和超高流量小區分析:第一,理想的狀況是中高流量小區多而高流量小區少,這說明網絡結構比較合理,流量密集區的負荷得到了有效的控制,并且大部分業務需求得到了很好的滿足。第二,如果超高小區過多,甚至頻次超過高斯擬合曲線,而中高流量小區數量少,可能是高負荷小區周邊的基站沒有有效分流,應該調整該地市網絡結構以實現有效分流,或者檢測流量密集區域是否需要擴容。第三,如果中高流量小區和超高流量小區都多,則說明網絡需要整體擴容。

4 結束語

綜上所述,利用Box-Cox變換可以上把一個地市的小區級業務流量近似轉化成高斯分布。Box-Cox變換可以作為正態化處理的有效手段,Box- Cox變換后的分布和高斯分布可能存在一定差異,通過分析這些差異可以得到該地市網絡的一些基本特征,利用這些特征可以對該移動網絡的運維狀況,網絡結構、網絡負荷的狀況進行評估。由于數據量較少,且缺乏足夠的運維數據與之相印證,定量的評估方法還需要進一步的研究。

猜你喜歡
正態高斯分布網絡結構
利用二元對數正態豐度模型預測鈾資源總量
快遞網絡結構研究進展
直覺正態模糊數Choquet 積分算子及其決策應用
基于AutoML的保護區物種識別①
抽樣分布的若干反例
在航集裝箱船舶搖擺姿態的概率模型
改進的自適應高斯混合模型運動目標檢測算法
改進RRT在汽車避障局部路徑規劃中的應用
一種基于改進混合高斯模型的前景檢測
基于時效網絡的空間信息網絡結構脆弱性分析方法研究
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合