?

基于海量用電數據的農業灌溉用戶識別方法

2024-01-10 02:13康之增李夢宇安亞剛
河北電力技術 2023年5期
關鍵詞:用電灌溉聚類

張 晶,馮 波,康之增,李夢宇,安亞剛

(1.國網河北省電力有限公司,河北 石家莊 050022;2.國網河北省電力有限公司營銷服務中心,河北 石家莊 050035)

0 引言

我國作為農業大國,農業是基礎產業,也是第一產業[1]。農業的發展對我國經濟水平的提升有較大的影響,農業灌溉作為農業產業發展中的關鍵部分在保障糧食安全和農業可持續發展方面有著非常重要的作用,面對水資源短缺問題,提高水資源利用率成為節約用水的必由之路[2]。然而,不同農業灌溉用戶之間存在著巨大的差異,包括其需求、水資源利用情況和灌溉方式等。因此,準確識別農業灌溉用戶成為了優化農業灌溉系統、提高水資源利用效率的關鍵一步。

傳統上,農業灌溉用戶識別主要依賴于人工調查和統計數據分析[3]。然而,這種方法存在著數據收集困難、成本高昂以及主觀性強等問題。近年來,隨著機器學習技術的快速發展,基于機器學習的農業灌溉用戶識別方法[4]逐漸受到研究者們的關注?;跈C器學習的農業灌溉用戶識別方法可以分析農業大數據樣本,自動識別不同類型的農業灌溉用戶。本文首先針對種植不同作物的用戶樣本進行統計分析,建立了基于特征分析的農業灌溉用戶識別規則模型,在此基礎上構建了基于隨機森林的農業灌溉用戶識別多分類模型。

在農業灌溉中,用戶識別與用電量有著密切的關聯。本文可以為農業灌溉系統提供一個智能化的解決方案,電力大數據的應用可以幫助我們更好地了解用戶用電情況,通過模型可以有效甄別農業灌溉、非農業灌溉用戶,輔助提升“以電折水”精度,同時發現水電檔案匹配錯誤、灌溉用電與其他用電混合計量以及一表多井等問題,可以優化水資源利用效率,并最大程度地減少資源浪費,減少人力成本,提高農業生產效率,促進農業可持續發展。

1 算法概述

1.1 密度聚類算法

密度聚類算法是一種基于密度的聚類方法,其主要思想是通過計算樣本點周圍的密度來判斷樣本點的聚類歸屬。密度聚類算法相較傳統的基于距離的聚類方法,具有對噪聲數據的魯棒性以及能夠發現任意形狀的聚類簇的優勢。

密度聚類算法最著名的也是最具代表性的是DBSCAN(Density-Based Spatial Clustering of Applications with Noise)算法,其通過兩個全局參數半徑ε與最小鄰居數目MinPts將具有足夠高密度的區域劃分為簇,可在帶噪聲的空間數據集中發現任意形狀的類簇[5]。算法的核心思想是通過計算每個樣本點的ε領域內的樣本數目來判斷其是否為核心點、邊界點還是噪聲點,如圖1所示。

圖1 DBSCAN算法圖解

總的來說,密度聚類算法通過計算樣本點的密度來判斷其聚類歸屬,具有對噪聲數據的魯棒性以及能夠發現任意形狀的聚類簇的優勢。他在許多實際應用中都表現出良好的聚類效果,并且在處理大規模數據集時也具有較好的可擴展性。

1.2 隨機森林算法

機器學習是一種使計算機可以自主做出決策的科學[6]。不同學者對機器學習的定義往往不同,但最終都有一個目標,讓計算機像人類一樣做出決策。隨機森林[7]是機器學習中的一種常見的算法。他是由Leo Breiman 和Adele Cutler 于2001年提出的,被廣泛應用于機器學習和數據挖掘領域。該算法主要是通過將變量與數據進行隨機化處理,生成大量的決策樹,每個決策樹又由各個節點對應的特定屬性進行隨機選擇來構造,最后通過投票或平均的方式來整合結果,進行最終的決策,如圖2所示。

圖2 隨機森林算法示意

圖3 農業灌溉用戶用電特征

圖4 混合灌溉用戶用電特征

圖5 非灌溉用戶用電特征

圖6 概率大于0.8的用戶用電習慣

隨機森林是集成思想的一個體現,由多棵決策樹整合而成[8],比單一決策樹具有更好的抗噪性[9],適用于分類、回歸問題的研究,能夠在不改變計算成本的情況下能獲得良好的計算預測精度[10]。

隨機森林在處理高維數據和大規模數據時具有較好的效果,能夠處理具有復雜特征和非線性關系的數據,是一種強大的集成學習方法。

2 農業灌溉用戶識別方法構建

2.1 農業灌溉用戶分類

深化農業灌溉用戶識別分析需要對不同農業灌溉用戶的特征進行清楚的了解和分析[11]。本文將農業灌溉用戶分為3種不同的類型,農業灌溉用戶,混合灌溉用戶和非灌溉用戶。對于每種類型的用戶,其特征和需求都會有所不同。以下是對不同農業灌溉用戶特征的一些分析。

1)農業灌溉用戶:農業灌溉用戶在3-7月和11月集中用電,其余月份用電量相對較少。

2)混合灌溉用戶:混合灌溉用戶月均用電1 000 k Wh以上,3-6月用電相對較多,2月用電頻次減少。

3)非灌溉用戶:非灌溉用戶月均用電2 000 k Wh以上,每月用電頻次相對穩定,夏季電量略高于其余月份。

此外,還需要考慮其他因素對農業灌溉用戶的影響,如地理位置、氣候條件、農作物種類等。不同地區的農業灌溉用戶在水資源需求、灌溉方式和技術要求等方面可能存在差異。

在深化農業灌溉用戶識別分析中,可以采用數據分析和統計方法,對農業灌溉用戶的特征進行量化和分析。通過對這些數據分析,可以獲得不同農業灌溉用戶的特征和需求的更清晰認識。

2.2 基于降雨特征的農灌用戶識別模型

針對已知種植作物的用戶,根據種植作物的不同進行分類研究,分別統計各類農戶的歷史用電量、用電頻次、種植面積等指標特征,在所有特征參數中,通過基尼系數指標來衡量特征重要性,選擇對農業灌溉用戶和非農業灌溉用戶的分類具有顯著影響的特征。

基尼系數是一種常用的特征選擇方法,可以從大量的特征中篩選出最具有代表性的特征,從而提高模型的準確性和泛化能力?;嵯禂狄彩呛饬繑祿兌鹊囊环N指標,取值范圍在0~1,值越大表示數據集的純度越高。

在特征選擇中,首先計算每個特征的基尼系數評估其重要性,對于多分類問題基尼系數的計算公式為

式中:p i表示第i類樣本的比例。

然后按照基尼系數從大到小的順序對特征進行排序,選擇基尼系數比較高的特征。

采用Max Min數據標準化方法,用戶日用電量進行處理,并劃分等級。將日用電量在[0,0.25]劃分為正常,(0.25,0.5]為一般,(0.5,0.75]為較大,(0.75,1]為很大。

結合降雨量等氣象數據,總結農業灌溉的通用行為規律,例如農業灌溉電量與降雨量整體相關性強,一般下雨后2~3天不需要再次灌溉,將降雨后出現用電的情況判定為非灌溉用電。具體來說,降雨等級為中雨時,將用電等級為較大和很大的劃分為非灌溉用電,降雨等級為大雨時,將用電等級為一般、較大和很大的劃分為非灌溉用電。此時灌溉農業用戶概率公式為

根據具有降雨特征的農業用戶識別模型結果,農業用戶概率越高,表明該機井用戶與農業灌溉用戶用電行為越相似。結合用戶日用電量曲線,選取0.80作為分類成功的閾值,將農業用戶概率高于0.80及以上的用戶分為農業灌溉用戶。

通過過去一年用電量、用電頻次趨勢折線圖的繪制等方式,結合各類作物的實際生長周期和需水量,整合提取若干類作物的典型農業灌溉特征,根據提取的典型作物灌溉特征和農業灌溉的通用行為規律編寫規則,建立基于降雨特征的農灌用戶識別規則模型,識別非農灌用戶、農灌用戶。

2.3 具有用電特性的農灌用戶模型

首先,依托數據中臺中用電信息采集系統數據、天氣系統數據,結合水利廳提供的灌溉機井用戶檔案數據,通過挖掘農業灌溉用戶日用電趨勢,在原AFM 特征:月均/次均電量、月灌溉次數、月總電量的基礎上,新增周電量、季度電量、方差等有效表征用戶用電趨勢的特征指標,并利用DBSCAN 密度聚類算法構建用戶聚類分析模型,對用戶進行自學習分類,分析聚出的簇群特點,計算用戶類別標簽,識別農業灌溉用戶、非農業灌溉用戶。

然后根據聚類結果構建隨機森林分類模型,使用指標特征與標簽數據訓練隨機森林模型,根據訓練集的表現進行調優,通過調整決策樹數量、特征子集大小等參數以提高模型的準確性和泛化能力。

不育系柱頭外露情況是影響不育系異交結實的關鍵因子[4]。2017年8月中旬對EK2S和廣占63S的開花情況進行調查,結果顯示EK2S柱頭外露率為 74.6%, 而廣占 63S僅為 50.4%,EK2S要明顯高于廣占63S,且持續張穎時間EK2S也明顯長于廣占63S。本研究中廣占63S的柱頭外露率數據顯著低于楊振玉等[5]1999年在合肥調查的數據,這可能是不育系的柱頭外露率除品種之間存在差異外,還受其他因素的影響,尤其是抽穗揚花期的溫度和濕度影響較大,這也說明雜交水稻制種選擇最適宜的地方和最佳花期可以獲得更高的制種產量[6]。

2.4 混合農業灌溉用戶分類模型構建

最后,將具有降雨特性的農業用戶識別與具有用電特性的農業灌溉用戶模型結果融合,構建混合農業灌溉用戶分類模型,如圖7所示,2個模型中均被判別為農業灌溉用戶的用戶最終類別為農業灌溉用戶;僅具有降雨特性或僅具有農業灌溉用電特征的用戶最終類別為混合農業灌溉用戶;降雨特性和農業灌溉用電特征兩者均不具備的用戶最終類別為非農業灌溉用戶。

圖7 混合農業灌溉用戶分類模型

3 算例分析

為進一步提升農業灌溉用戶分類模型準確率,深化農業灌溉用戶識別模型,增加節氣、峰度、波動率等特征參數,將基于降雨特征和農業灌溉用電特征的用戶識別模型進行融合,實現純農業灌溉、混合農業灌溉和非農業灌溉三類用戶識別。

3.1 數據準備及預處理

選取某試點試驗用戶在2022年通過用電總采集系統得到的40萬數據為樣本,以及試點已有種植作物標簽的用戶檔案數據、用電量數據、種植面積,匹配關聯用電量數據、氣象等數據;對數據進行去重、異常值剔除、缺失值填充等數據處理操作。

機井編號 深淺層 灌溉面積/畝____種植作物日期用電量/k Wh____降雨量/mm__001淺25小麥 08-23 60.00 0 001淺25小麥 08-24 40.00 1.80 001淺25小麥 08-25 0 0 002淺40果樹 08-23 0 0 003淺13大棚蔬菜 10-03 4.55 1.10 063深66藥材 05-28 84.82 0…………………158淺65玉米 03-28 230.50 0 158___淺_________________________65玉米_10-01_____0_____________47.80

3.2 試驗設置

將完成特征選擇的數據按8∶2劃分為訓練集和測試集。一般地,將大部分數據用于訓練模型,保留一小部分用于評估模型的性能。

選取某個區域的用戶數據作為試驗用戶,建立基于降雨特征的農業灌溉用戶識別模型;然后使用訓練集數據訓練隨機森林模型,并根據訓練集的表現進行調優,模型的性能達標后,輸出規則分類標簽;最后進行模型融合,構建混合農業灌溉用戶分類模型,進行農業灌溉用戶、混合農業灌溉用戶、非農業灌溉用戶的判別。

根據輸出的用戶分類結果整理成清單,將清單推送至水利部門進行下一步核查摸排。

3.4 試驗結果分析

2023年6月,建立灌溉用電與其他用電混合計量用戶識別模型,依據模型計算結果在現場核實,準確率達90%,相比常見基于用電數據的kmeans聚類用戶類別模型,精度顯著提升,具體見表2。

___算法模型 農業灌溉用戶 混合用戶 非農用戶 綜合精度本文模型精度95 84 26 90常用算法精度______82______________________________________76 53 80

將基于降雨特征和農業灌溉用電特征的用戶識別模型進行融合,實現純農業灌溉、混合農業灌溉和非農業灌溉三類用戶識別。通過對已關聯匹配的30萬用戶進行分析,結果如圖8所示,識別農業灌溉用戶27.3萬,占91.00%,混合農業灌溉用戶2.24萬,占7.47%,非農業灌溉用戶0.46萬,占1.53%。

2022年,獲取試點機井用戶灌溉取水量,通過用戶識別模型后剔除非農業灌溉用戶水量,經混合用電模型優化后剔除混合灌溉用戶非灌溉用電,共計減少約18億m3,得到了最終測算水量。

4 結論

針對農業灌溉用戶用電識別設計了基于機器學習的算法,通過應用電力大數據,從數據特征進行用戶類別識別,構建農灌用戶識別多分類模型,進行相互驗證,規范化機井檔案,可以更好地了解和分析這種關聯,進而提升取用水量測算精度,提高農業灌溉的效率和節約用電成本。并且相較于單一的農業灌溉用戶用電識別算法,此模型效果更佳??傊?基于海量用電數據的農業灌溉用戶識別方法具有巨大潛力,能夠輔助發現水電檔案匹配以及一表多井等問題,并且在優化農業灌溉系統和提高水資源利用效率方面發揮重要作用。本研究將為電力大數據在農業灌溉用戶識別領域的進一步研究和應用提供有價值的參考和指導。

猜你喜歡
用電灌溉聚類
用電安全
蒼松溫室 蒼松灌溉
蒼松溫室 蒼松灌溉
蒼松溫室 蒼松灌溉
蒼松溫室 蒼松灌溉
用煤用電用氣保障工作的通知
安全用電知識多
用電安全要注意
基于DBSACN聚類算法的XML文檔聚類
基于高斯混合聚類的陣列干涉SAR三維成像
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合