?

基于混合神經網絡的電力客戶細分研究?

2019-03-26 08:44歐家祥張俊瑋
計算機與數字工程 2019年3期
關鍵詞:決策樹細分神經網絡

歐家祥 曹 湘 張俊瑋 丁 超

(1.貴州電網有限公司電力科學研究院 貴陽 550002)(2.上海電力學院計算機科學與技術學院 上海 200090)

1 引言

隨著電力工業的改革和智能電網的建設,電力客戶在電力市場中的地位越來越重要??蛻艏毞值闹饕悸肥钦页鼍哂邢嗨菩袨?、價值特征的客戶群。對電力客戶進行深度細分,有助于供電企業了解客戶用電行為,識別價值客戶,制定有針對性的服務措施和差異化營銷戰略,從而提升服務水平。

近年來,國內一些高校和電力研究院開始利用數據挖掘技術在用電客戶細分方面進行一定的理論研究和實際應用。張鐵峰等[1]以傳統行業劃分為基礎,利用聚類技術對用電客戶進行分類研究,其分類的結果與目錄電價中按照行業劃分的結果相似。周國鵬[2]針對某電力公司大用戶實際負荷曲線數據,使用模糊聚類中的典型算法模糊C均值(FCM)對其進行聚類分析,將電力用戶分類。胡小雪[3~4]等提出的算法利用自組織映射神經網絡訓練輸入數據,以獲取代表輸入模式且數據量遠小于輸入數據量的原型向量,使用圍繞中心點的切分對該原型向量聚類并用Davies-Bouldin指標判定最優聚類個數以保證聚類效果。黃星?。?]等針對電力企業服務水平提升的需求,以電力營銷系統等作為基礎,對數據挖掘過程中,結合電力銷售中的風險客戶,提出決策樹算法和回歸預測兩種方法對客戶進行分類。文獻[6]對電力用戶價值進行分析和定義,從當前市場價值、潛在市場價值、區域貢獻價值三個方面,構建了電力用戶評價指標體系,使用K均值聚類方法從這三個維度進行聚類分析,將用戶分類。許青林[7]等提出的模型根據旅客的行為偏好對旅客進行細分,構建模型采用的方法為層次分析法,其中在使用層次分析法確定各參數權重時的關鍵在于如何構造完全一致的判斷矩陣,提出了一種改進判斷矩陣一致性的算法,使得一致性調整過程簡單且結果有效。Dzobo O[8]等在所提出的模型中使用了三個客戶參數——經濟規模,經濟活動和能源消耗。該模型在南非和瑞典的兩個案例研究中進行了檢驗,并將結果與傳統的客戶細分模型進行比較。

但上述方法都是把電力用電數據的每一個屬性的權重都設為一樣的,沒有把屬性、時間之間的聯系關聯在一起分析,導致電力客戶細分沒有達到較好的準確度。本文提出的H-LSTM混合神經網絡的電力客戶細分方法很好地把屬性、時間之間聯系關聯在一起。先從原始用電數據中提取出用電特征指標[9],利用特征指標的前后時間關聯性來分析,通過同時設定混合的LSTM神經網絡[10~15]求解,最后得出結果值。本文利用的改進的H-LSTM神經網絡的長短期記憶應用到客戶細分上,在本文的第2節描述了用電特征選擇[16~18],第3節詳細介紹了模型的構建,第4節使用改進的H-LSTM神經網絡細分的結果和決策樹[19~21]的結果作對比,第5節總結了結論并對未來的工作做了展望。

2 特征選擇

2.1 確定特征指標

從客戶價值進行客戶細分有利于企業為高價值客戶分配有限資源。沒有統一的標準來衡量客戶的價值。根據對電力企業管理者的調查,我們知道他們最關心的是貢獻和可信度,所以決定從信譽,發展,成長和忠誠四個方面來衡量客戶價值,然后定義了八個二級分析指標:

1)可信性:拖欠率,拖欠頻率,拖欠付款期限

2)貢獻:每月功耗,每月電費

3)發展:額定功率,電力年增長率

4)忠誠:客戶保存期限

2.2 分析指標說明

拖欠率Ar:拖欠和應收賬款的比例。對于最新的拖欠率最能反映客戶的可信度,我們使用最近三個月,半年,一年和歷史的加權拖欠率累計。Ar的計算如下:

其中 ξi=Ar3是最近三個月的欠款率,Ar6是最近半年的欠款率,Ar12是最近一年的欠款率,Arhistory是歷史欠款率。

拖欠頻率Af:拖欠時間與應收賬款時間的比率。

平均付款時間Dp:收到通知和付款之間的平均時間間隔,它衡量客戶的支付計劃。

每月功耗Pc:客戶每月的平均電力消耗。

每月電費Ec:客戶每月的平均電費。額定功率Ac:客戶申請安裝時的額定功率。功率年增長率Gr:措施增加了消費者的消費??蛻舯4嫫谙轉c:自客戶開設賬戶至今的月數。

3 基于H-LSTM的電力客戶細分模型

3.1 RNN神經網絡

RNN具有循環的網絡結構,具備保持信息的能力。RNN中的循環網絡模塊將信息從網絡的上一層傳輸到下一層,網絡模塊的隱含層每個時刻的輸出都依賴于以往時刻的信息。RNN的鏈式屬性表明其與序列標注問題存在著緊密的聯系,目前已被應用到文本分類和機器翻譯等NLP任務中。在RNN的訓練中,存在梯度爆炸和消失的問題,且RNN難以保持較長時間的記憶。

3.2 模型構建

LSTM網絡是RNN的擴展,專門設計用來避免長期依賴問題。LSTM的重復神經網絡模塊具有不同的結構,這與樸素RNN不同,存在四個以特殊方式相互影響的神經網絡層,網絡模塊示意圖如圖1所示。LSTM網絡的關鍵在于細胞狀態,有點類似于傳送帶。在LSTM中,通過門結構來對細胞狀態增加或刪除信息,而門結構是選擇性地讓信息通過的方式,通常由一個Sigmoid神經網絡層和逐點乘積操作組成(Sigmoid層的輸出在0~1,定義了信息通過的程度,0表示什么都不讓過,1表示所有都讓過)。

如圖1所示,H-LSTM網絡具有輸入門(input gates)、忘記門(forget gates)和輸出門(output gates)等三種門結構,用以保持和更新細胞狀態,以下公式中 it、ft、ot和 Ct分別表示 t時刻對應的三種門結構和細胞狀態。

圖1 H-LSTM神經網絡單元

1)從細胞狀態中忘記信息,由忘記門的Sigmoid層決定,以當前層的輸入Xt和上一層的輸出ht-1作為輸入,在t-1時刻的細胞狀態輸出為

2)在細胞狀態中存儲信息,主要由兩部分組成:(1)輸入門的Sigmoid層的結果it作為將更新的信息;(2)由tanh層新創建的向量ct,將添加在細胞狀態中。將舊的細胞狀態ct-1乘以 ft,用以遺忘信息,與新的候選信息 it·c?t的和,生成細胞狀態的更新。

3)輸出信息,由輸出門決定。先使用Sigmoid層來決定要輸出細胞狀態的部分信息,接著用tanh處理細胞狀態,兩部分信息的乘積得到輸出的值。

基于電力用戶評價指標的改進的H-LSTM模型構建如下:

1)根據電力用電數據重構出8個評價指標的子序列數據集;

2)計算每年12個月的功耗和電費的均值和方差;

3)將重構出的子序列數據集和功耗、電費的均值和方差作為lstm神經網絡的輸入,即輸入維數為12維;

4)輸出層維數為1,損失函數為L2誤差函數;

5)激活函數為ReLU,采用批量梯度下降法學習,ReLU(x)=max(0,x)。

H-LSTM神經網絡的輸入輸出如圖2所示。

圖2 H-LSTM神經網絡的輸入輸出

圖3 基于H-LSTM神經網絡電力細分框架

圖3是H-LSTM的電力客戶細分網絡的框架,基于屬性的分類方法是基于一個局部滑動窗口,假設一個屬性的標簽極大地依賴于其相鄰位置的屬

性。給定長度為n的屬性序列 c(1:n),大小為 k的窗口從屬性序列的第一個屬性c(1)滑動至最后一個屬性 c(n)。如圖 3 所示,對于序列中每個字 c(t),當窗口大小為 5 時,屬性 c(t-2),c(t-1),c(t),c(t+1),c(t+2)將被送入查詢表中,當屬性的范圍超過了序列邊界時,將以諸如“start”和“end”等特殊標記來補充;然后,將查詢表中提取的屬性向量連接成一個向量X(t)。在神經網絡下一層中,X(t)經過線性變換后經由Sigmoid函數σ(x)=(1+E-x)-1或tanh函數激活。

根據給定的標注集,將經過一個相似的線性變換,不同之處在于沒有非線性函數,得到的y(t)是每個可能標簽的得分向量。

H-LSTM神經網絡將信息存放在循環網絡正常信息流之外的門控單元中。這些單元可以存儲、寫入或讀取信息,如圖4所示。單元通過門的開關判定存儲哪些信息,以及何時允許讀取、寫入或清除信息。但與計算機中的數字式存儲器不同的是,這些門是模擬的,包含輸出范圍全部在0~1之間的Sigmoid函數的逐元素相乘操作。相比數字式存儲,模擬值的優點是可微分,因此適合反向傳播。因此,可以決定哪些電力用戶屬性的值可以記住,哪些電力用戶屬性的值去忘記,這些門依據接收到的信號而開關,而且與神經網絡的節點類似,它們會用自有的權重集對信息進行篩選,根據其強度和導入內容決定是否允許信息通過。這些權重就像調制輸入和隱藏狀態的權重一樣,會通過循環網絡的學習過程進行調整。也就是說,記憶單元會通過猜測、誤差反向傳播、用梯度下降調整權重的迭代過程學習何時允許數據進入、離開或被刪除。

圖4 改進的H-LSTM神經網絡結構圖

通過改進的H-LSTM神經網絡的記憶門和忘記門來實現屬性之間的前后關聯,本實驗采用的數據來源于北方某省市的供電營銷數據,通過對原始的數據做預處理,處理后的數據格式如表1所示。

表1 訓練數據樣例

圖4就是本次實驗的改進的H-LSTM神經網結構圖。

太少不能達到精細化管理的目標,而太多的分類導致管理困難。我們在這個實驗中將顧客細分數限制在3~9個分類,而根據模型的輸出,我們將模型的結果分為了五類客戶,如圖5所示。

在電力用戶分類任務中,H-LSTM記憶單元的輸入來自上下屬性窗口的屬性值。對每個屬性值c(t),H-LSTM 記憶單元的輸入為 X(t),由上下屬性值嵌入(c(t-k),…,c(t),…,c(t+k))連接而成,其中 k代表與當前屬性的距離。H-LSTM單元的輸出在經過線性變換后用于標簽推理函數,推理出屬性對應的標簽,最后將混合的H-LSTM神經網絡的輸出進行異或輸出。

圖5 各客戶類型占比

4 實驗結果

4.1 電力用戶類別分析

本文實驗的環境是ThinkServer TD350服務器,主要參數 CPU:E5-2603v3 1.6GHz,內存為 16G,GPU卡:Nvidia GTX1080。操作系統為ubuntu 16.04 64bit,使用tensorflow中的LSTM等神經網絡模型。

本文實驗的數據來源于北方某省市的電網真實數據,通過數據預處理這一塊,把數據處理成我們想要的格式,轉換成用電客戶的屬性指標。

根據電網公司的實際性,關于客戶細分,分類如下。

1)鉆石客戶。一些客戶,其耗電量巨大,雖然支付不活躍,但拖欠率較低。他們的管理目標是保持客戶的忠誠度。

2)白金客戶。這種類型的股息最高,接近50%。雖然他們的耗電量遠遠低于鉆石客戶,但他們是其中最大的比例最有影響力的類型。但考慮到拖欠率較高,管理目標是減少拖欠率。

3)優質的潛在客戶。電力消費量大,拖欠率低,消費增長率高,意味著其強勁的發展勢頭。管理目標是提高客戶滿意度。

4)年輕潛在客戶。一些新客戶消費迅速增長,給電力負荷帶來壓力。他們主要是新成立的大企業,其管理目標是使他們長期穩定的客戶。

5)小型企業。小功耗消耗增長率低,企業應該降低維護成本。

4.2 結果比較

在電力客戶細分研究性能評估中,采用了分類評測常用的R(召回率)、P(準確率)和F(綜合指標F值)等評測指標,以F值為主要評測指標。測試集選用了每個電力用戶種類1000個客戶做測試,共5000條數據。

表2 模型評價指標比較

圖6是改進的H-LSTM神經網絡的分類混淆矩陣,圖7是原始LSTM神經網絡做出的分類混淆矩陣,圖8是利用決策樹做出的分類混淆矩陣,從表2可以看出改進的H-LSTM神經網絡的精確度和召回率都比決策樹和原始的LSTM方法要好,最后F值H-LSTM神經網絡0.890也優于決策樹方法的0.774,所以該H-LSTM神經網絡在電力用戶細分中,是有效的且準確的。

圖6 改進的H-LSTM的分類混淆矩陣

圖7 lstm的分類混淆矩陣

圖8 決策樹的分類混淆矩陣

圖9 模型隨訓練集大小的變化

如圖9所示,三種方法前期都隨著訓練集的增大,準確率也增大。在300MB處決策樹和改進的H-LSTM模型準確率幾乎相等,但是在600MB之后決策樹方法趨于平緩,但是改進的H-LSTM神經網絡開始穩步上升,隨著訓練集增大,改進的H-LSTM神經網絡的優勢擴大,準確度比決策樹方法高,從而得出了改進的H-LSTM神經網絡確實比原始LSTM和決策樹方法有應用價值。

5 結語

本文通過對電力用戶用電數據分析,從客戶價值出發,從四個方面來衡量客戶價值,采用改進的H-LSTM神經網絡模型對電力企業進行客戶細分,取得了較好的效果。論文提出的基于H-LSTM神經網絡的電力用戶細分方法加入了屬性之間前后關聯,使得分類精度提高,通過與決策樹、LSTM方法做對比,證明了本文提出的方法精度高并且是有實際應用意義的。對于之后的工作,我們計劃把該分類方法應用到其他場景,基于場景改進此類方法。

猜你喜歡
決策樹細分神經網絡
六大趨勢引領掃地機器人細分市場蓬勃發展
基于神經網絡的船舶電力系統故障診斷方法
MIV-PSO-BP神經網絡用戶熱負荷預測
基于改進Hopfield神經網絡的對地攻擊型無人機自主能力評價
趙波濤:發揮工匠精神 做細分領域的“小巨人”
深耕環保細分領域,維爾利為環保注入新動力
簡述一種基于C4.5的隨機決策樹集成分類算法設計
基于神經網絡的中小學生情感分析
購買一個度假產品
決策樹學習的剪枝方法
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合