?

基于機器學習的生物質熱解三態產物產率提升研究

2024-01-03 06:07李明月陳虎生肖運昌
林產化學與工業 2023年6期
關鍵詞:三態生物質產率

易 植, 季 玲, 李明月, 陳虎生, 肖運昌

(1.湖北孝感美珈職業學院 智能制造學院,湖北 孝感 432000; 2.湖南文理學院 計算機與電氣工程學院,湖南 常德 415000; 3.新疆第二醫學院 生物醫學工程學院,新疆 克拉瑪依 834000)

為了應對能源供應緊張和化石燃料引起的環境問題的雙重壓力,生物質作為最豐富和最有前途的可再生原料之一,已引起廣泛關注,現有生物質資源總量相當于5.4億t標準煤,其中2.8億t可用作能源[1]。生物化學轉化和熱化學轉化是生物質轉化為能源、燃料和化學品的2種主要途徑。熱解是熱化學轉化技術的一種重要形式,也是各種熱化學轉化技術的起始階段,可以在無氧或缺氧的環境下將固體生物質轉化為生物炭、生物油和生物質熱解氣。生物油通過提質可以生產液態燃料和高附加值的化學品,熱解氣和生物炭可用于燃燒供熱發電,其中生物炭也可以作為催化劑、吸附劑、有機肥料等用于化工、環境、農業等領域,以促進熱解的經濟性[2]。不同的生物質原料熱解三態產物的產率有著較大差別,例如相同的熱解條件下橡樹的熱解生物油產率為41%,而棕櫚葉的生物油產率僅16.58%[3]。此外同種類型的生物質原料由于粒徑不同熱解產物的產率也會不同,例如相同條件下粒徑為0.5和2.3 mm的茶葉廢棄物生物炭的產率分別為13%和24%[4]。熱解條件如熱解溫度、氣體流量、進料速度等都會影響熱解產物的分布。熱解溫度為影響熱解產物分布的關鍵因素之一,例如保持其他熱解條件不變,當熱解溫度由300 ℃上升到500 ℃時生物油產率由26.5%增加到36.6%[5]。除了實驗手段外,有眾多研究采用動力學模型對生物質原料特性和熱解條件的影響進行描述[6],由于原料特性和熱解條件的影響機制尚不清楚,建立生物質快速熱解全反應輸運模型困難且計算耗時長,通過有限數據擬合的全局或半全局動力學模型無法準確描述復雜的原料特性和熱解條件影響。機器學習為應對這種復雜性提供了選擇方案,可以在有限的認知下構建預測模型,并挖掘數據內在關聯信息。Zhu等[7]通過機器學習構建模型預測了慢速熱解生物炭的產量以及生物炭的碳含量。Chen等[8]構建了基于支持向量機(SVM)與人工神經網絡(ANN)的三態產物分布和生物油熱值預測模型,研究結果表明:SVM預測準確率高于ANN。Pathy等[9]以原料特性和熱解條件作為輸入構建了極端梯度提升算法(XGBoost)回歸模型,成功地預測了藻類生物質熱解生物炭的產量。劉立等[10]通過研究生物質特點及生物質轉化工藝對產品中碳含量的影響,證明了隨機森林算法(RF)模型的準確預測;通過預測不同生物質適用的轉化類型及產生高附加值產品的產能以及品質,從而實現對生物質高效利用的合理預測。RF是基于決策樹的機器學習算法,與其它機器學習算法相比,RF能夠處理具有較高維度特征的輸入樣本、對數據量的要求較低,且有著極高的準確率[11]。本研究基于文獻中生物質鼓泡流化床快速熱解實驗數據,采用RF對生物質快速熱解三態產物產率進行了預測,驗證了RF用于預測生物質流化床快速熱解的生物炭、生物油、氣體產率的可行性,并分析了原料特性和熱解條件在生物質熱解過程中的相對重要性。

1 材料與方法

1.1 樣本數據收集

收集、采用了453條數據來構建模型,所有數據均來自于文獻報道的鼓泡流化床生物質快速熱解實驗[12-57]。熱解原料均為木質纖維素類生物質,包括小麥秸稈、松木等。數據直接從表格中獲取,或使用Plot Digitizer 2.6.8從圖片中提取。由于原料來源的廣泛性、實驗條件的差異性和重復性,305條數據存在相應的問題,故篩選出148條數據來構建與檢驗模型。篩選后每條數據的熱解原料和熱解條件均存在差異,且每條數據均包含所有變量的有效值。選取148條數據中的122條用于訓練和測試模型,26條用于檢驗模型的泛化能力??焖贌峤鈱嶒灤蠖嗖捎妙A熱到達預設熱解溫度,因此該環境下熱解條件不包括加熱速率。

影響生物質熱解產物分布的關鍵因素可以分為5類:生物質的結構成分、生物質的三大主要化學組分、元素組成、原料外觀和熱解條件,具體見表1。將隨機森林模型的輸入變量Ash-V-FC-M記為輸入Ⅰ,將變量Cel-Hem-Lig記為輸入Ⅱ,變量C-H-O-N記為輸入Ⅲ,變量PS記為輸入Ⅳ,變量PT-GFR-FR記為輸入Ⅴ。輸入Ⅰ、Ⅱ、Ⅲ、Ⅳ、Ⅴ共包含15個輸入變量。輸出變量為生物炭產率、生物油產率、生物質熱解氣產率,共計3個。

表1 輸入生物質組成變量及熱解產物產率的范圍Table 1 Input biomass variables and range of pyrolysis products yield

1.2 隨機森林算法

隨機森林算法(RF)是一種基于決策樹的數據分析方法。算法中將決策樹作為弱分類器,用于處理變量之間的非線性關系。決策樹由于具有成熟、可靠、能夠對多類數據進行分類的特點,故能用來做分類也可以用于回歸預測,為新興的機器學習算法。RF通過Python機器學習庫來訓練樣本和優化預測結果,其對生物炭、生物油、生物質熱解氣產率預測模型的算法原理如圖1 所示。

圖1 隨機森林模型對生物炭、生物油、生物質熱解氣產率預測模型的流程示意Fig.1 Process diagram of the RF model to generate the yield prediction model of bio-oil, bio-char and biomass pyrolysis gas

RF的實施分為5個步驟:1) 從原始訓練集中使用袋裝法隨機采樣選出m個樣本,共進行n次采樣,生成n個訓練集;2) 利用生成的n個訓練集,分別訓練n棵決策樹模型;3) 對于單個決策樹模型,假設訓練樣本特征的個數為n,那么每次分裂時根據基尼系數選擇最好的特征進行分裂;4) 每棵決策樹都這樣分裂下去,直到該節點的所有訓練樣本都屬于同一類;5) 將生成的多棵決策樹組成隨機森林,多棵樹預測值的均值決定最終預測結果[13]。RF模型的關鍵參數為決策樹棵數(n_estimators)、最大選擇的特征數(max_features)、樹的最大深度(max_depth)、分支節點的最少樣本數(min_samples_split)、葉子的最少樣本數(min_samples_leaf)。使用網格搜索與4折(4-fold)交叉驗證的方法得到各個參數的最優值即最佳參數,然后使用最佳參數對模型進行重新訓練與測試。將122條數據分為訓練集和測試集,二者比例為4∶1。

隨機森林回歸公式為式(1),通過袋外數據(OOB)計算決策樹的預測誤差,每個決策樹的平均泛化誤差(EG)的標準化式子為式(2):

Y=Eθh(X,θ)

(1)

EG=EθEX,Y[Y-h(X,θ)]2

(2)

式中:θ—隨機變量;Eθ—期望函數;X、Y—訓練集進行隨機抽取所取得的自變量、因變量;h—決策樹預測函數;EX,Y—X、Y的聯合期望函數。

所有用于構建模型的數據在進行訓練測試前,都將使用Z-score進行標準化,見式(3):

(3)

根據測試數據的回歸系數(R2)和均方根誤差(RMSE)來評估模型的準確性,R2越大,表示模型擬合效果越好;R2越小,表示模型擬合效果越差。RMSE 越小,表示模擬值越接近觀測值,誤差越小;RMSE 越大,誤差越大。

主要探究生物質原料特性輸入(模型輸入變量Ⅰ、Ⅱ、Ⅲ)對三態產物(生物炭、生物油和生物質熱解氣)產率的預測以及RF模型準確度。為防止模型出現過擬合現象、降低模型復雜度、尋找熱解三態產物最優預測模型,對原料特性輸入進行了7種組合。模型輸入變量IV、V存在于全部7種組合中。

2 結果與討論

2.1 RF產率預測性能評估

使用4-fold交叉驗證與網格搜索結合的方法,以R2作為評價指標,得到不同輸入所構建模型的最佳超參數,從而構建該輸入條件下的最優模型,不同輸入所構建模型在測試集上的準確度結果見表2。

表2 模型準確度信息Table 2 Model accuracy information

總體來說7個不同輸入所構建的模型的準確度都比較高,都能很好地預測生物質熱解三態產物的產率,生物質快速熱解過程需盡可能提高生物油產率,模型6在生物油產率預測上表現突出,R2與RMSE分別為0.956 1、 2.939 5。

由于在所有模型中,模型6的輸入變量最少,且準確度最高,因此選擇該模型進行下一步討論,其部分超參數見表3。

表3 模型6部分超參數Table 3 Part hyper-parameters of the model 6

模型6對于生物質熱解三態產物產率預測在測試集上的表現,結果見圖2。圖中圓點表示測試樣本,細線表示預測值與實驗值相等(y=x),粗線表示用最小二乘法擬合的預測樣本回歸線。圖2中部分測試樣本點落在細線上,剩下樣本點貼近細線且均勻分布在粗線兩側,且粗線與細線夾角較小,說明模型能很好地預測三態產物產率。圖2(b)的粗線與細線夾角在圖2(a)~(c)中最小,說明模型6對生物油產率的預測較生物炭、生物質熱解氣的更好。

a.生物炭bio-char; b.生物油bio-oil; c.生物質熱解氣biomass pyrolysis gas圖2 RF模型6預測值與實驗值對比Fig.2 Comparison of the predicted value of the RF model 6 with experimental values

2.2 模型可視化分析

2.2.1貢獻度分析 基于模型6探討了在預測生物質熱解三態產物產率的過程中,原料特性與熱解條件的相對重要性,總結如表4所示。由表可知,熱解溫度(PT)為影響熱解產物產率的最重要因素,其對生物炭、生物油和氣體產率預測的貢獻度分別為0.332 7、 0.220 4和0.214 7??焖贌峤膺^程中生物炭產率主要由PT、Lig和PS決定,三者貢獻總占比0.864 1。生物油產率由熱解條件和原料特性共同決定,二者占比分別為0.474 4和0.525 6;各個輸入變量對產率的貢獻度分布比較均勻。熱解條件對生物質熱解氣產率的貢獻度占比0.519 7,略大于原料特性,PS和Lig對氣體產率貢獻較小。PT、FR、GFR、Cel和Hem為影響氣體產率的關鍵因素。

表4 不同特征對三態產物產率預測的貢獻度Table 4 Contribution degree of different characteristics for the prediction of three-state product yield

2.2.2部分依賴圖分析 通過部分依賴圖(PDP)可將輸入變量對模型預測結果的影響可視化,即通過PDP分析輸入原料特性與熱解條件中的某一特征是如何影響三態產物產率預測的,排除了其它特征,顯示了三態產物產率與某一輸入特征之間的獨立性。

可視化結果如圖3~圖5所示。圖中x軸刻度線表示目標特征值,刻度線的疏密程度反映了數據的密度,當數據點過于稀疏時,趨勢線可能不夠準確,因此要結合各個特征的分布箱線圖(圖6)來分析,生物質熱解三態產物產率的上下限也通過箱線圖進行展示。

a.熱解溫度pyrolysis temperature; b.木質素質量分數lignin mass fraction; c.生物質粒徑biomass particle size圖3 生物炭產率部分依賴圖Fig.3 Partial dependence diagram of yield of biochar

a.熱解溫度pyrolysis temperature; b.纖維素質量分數cellulose mass fraction; c.半纖維素質量分數hemicellulose mass fraction圖4 生物油產率部分依賴圖Fig.4 Partial dependency graph of yield of bio-oil

a.熱解溫度pyrolysis temperature; b.纖維素質量分數cellulose mass fraction; c.氣體流量gas flow rate圖5 生物質熱解氣體產率部分依賴圖Fig.5 Partial dependence graph of yield of biomass pyrolysis gas

圖6 各個特征箱線圖Fig.6 Box plot of each feature

通過生物炭文獻數據集的統計分析結果發現:熱解溫度與生物炭產率有顯著的負相關性(p<0.05)。熱解溫度對生物炭產率的影響如圖3(a)所示,當溫度低于450 ℃時生物炭產量隨著溫度的升高大致呈線性下降且斜率較大,當溫度超過450 ℃時,隨著溫度的繼續升高產率變化較小。模型預測的生物質三組分的熱解在450 ℃均趨于完成,同文獻結論一致[51]。木質素質量分數對生物炭產率的影響如圖3(b)所示。木質素質量分數的集中分布區間為25%~35%(圖6(b)),此區間內生物炭產率隨著木質素質量分數的增加先緩慢降低,超過30%之后再緩慢增加。通過木質素熱解實驗發現其固體產物含量較高,而液體和氣體產物含量較低[55]。采用不同木質素質量分數的生物質原料進行熱解實驗,同樣條件下木質素質量分數高的原料熱解生物炭產率也高[56]。生物質粒徑對生物炭產率的影響如圖3(c)所示。生物質粒徑的分布范圍大致為200~4 000 μm(圖6(c)),在200~1 000 μm范圍內隨著粒徑的增加產率整體呈下降趨勢且中間存在一小段下降后上升趨勢(V形折線部分),粒徑大于1 000 μm時隨著粒徑增大產率小幅度增加。通過農業殘留物熱解實驗發現生物質粒徑為500~2 300 μm時,粒徑增大生物炭產率呈增加趨勢。

圖4(a)為生物油產率隨熱解溫度的變化趨勢。熱解溫度小于480 ℃時隨著溫度的升高生物油產率大致呈線性增加,而后隨溫度繼續升高呈線性下降趨勢,在450~500 ℃范圍內生物油的產率較高。在制取生物油為主要目的的快速熱解過程中,不同的生物質原料有著不同的最佳熱解溫度,例如松木屑在熱解溫度為462 ℃時生物油產率最大(68.4.%)[14],禿柏最佳熱解溫度為500 ℃(57.%)[44],棉稈的最佳熱解溫度為490 ℃(36%)[33]。纖維素質量分數對生物油產率的影響如圖4(b)所示。纖維素質量分數分布區間為32%~48%(圖6(b)),在此區間當纖維素質量分數低于37%時,隨著其含量增加生物油產率變化較小,而后隨著纖維素質量分數的增加,生物油產率呈線性增加且斜率較大,纖維素質量分數為40%~48%時,生物油產率較大。半纖維素質量分數對生物油產率的影響如圖4(c)所示。半纖維素質量分數分布范圍為16%~30%(圖6(b)),在此范圍內生物油產率隨著其含量增加呈先不變后增加趨勢。纖維素和半纖維素給熱解多聯產產物提供了較多的氣體和液體產物,其中纖維素對氣、液產物的貢獻比半纖維素大,生物質三組分熱解實驗中影響生物油產率由高到低順序依次是纖維素、半纖維素、木質素[57]。

圖5(a)為生物質熱解氣產率隨熱解溫度變化的變化規律。隨著溫度的升高,氣體產量大致呈線性增加,420~540 ℃區間內氣體產率隨著溫度的升高有較大幅度的增加,這與生物油和生物炭產率的規律不同,是因為熱解揮發分和焦炭在反應溫度升高時通過二次裂解轉化為氣體[16]。圖5(b)表明當纖維素質量分數大于38%時隨著纖維素含量增加氣體產率基本維持不變。圖5(c)為氣體流量對氣體產率的影響,隨氣體流量增加,氣體產率呈較大幅度下降,而后大致保持不變。通過調節氣體流量可控制熱解氣的停留時間,增大氣體流量可縮短焦油在反應器中的停留時間,防止焦油進一步反應轉化為氣體,從而降低氣體產率,提高生物油產率[29]。

分析PDP可知,熱解溫度是影響三態產物產率的關鍵因素,熱解溫度為450~500 ℃時木質素類生物質生物油產率最大。

2.3 模型泛化能力分析

2.3.1算法比較 在眾多經典機器學習算法中,可用于多元非線性回歸問題分析的有RF算法、極端梯度提升算法(XGBoost)、支持向量機(SVR)、神經網絡(ANN),與模型6輸入同樣變量分別構建基于XGBoost、SVR、ANN的熱解三態產物產率預測回歸模型,并與模型6進行比較,結果表明:RF算法具有準確率高(R2大)、RMSE小的優點,在生物油產率的回歸預測上較其他算法優勢較大,4種算法所構建的模型在測試集上的分析結果如表5所示。

表5 不同算法預測準確度Table 5 Prediction accuracy of different algorithms

2.3.2模型泛化能力檢驗 為了檢驗模型的泛化能力和外延性,將所篩選的148條代表研究數據中未被用于模型訓練與測試的26條數據用于檢驗模型的泛化能力。將全部26條數據輸入已構建好的模型(模型6),模型對生物質熱解三態產物固、液、氣預測的R2分別為0.912 7、 0.921 8、 0.897 2,在應對未知數據集時模型的準確度有小幅度下降,但模型的準確度依舊保持較高水平,可見所構建的快速熱解三態產物產率回歸預測模型具有良好的內插和外延能力。

3 結 論

3.1以原料特性和熱解條件為隨機(RF)森林回歸預測模型的輸入變量,三態產物產率為模型輸出,成功地預測了鼓泡流化床木質纖維素類生物質快速熱解產生物炭、生物油、生物質熱解氣三態產物產率。通過對本文模型內部信息的研究,發現生物炭產率主要由熱解溫度、木質素含量、原料粒徑決定,而木質素含量和原料粒徑大小對生物油、氣體產率的影響較小;生物油和氣體產率由熱解溫度、進料速度、氣體流量、纖維素和半纖維含量共同決定。

3.2通過部分依賴圖(PDP)分析各個輸入特征是如何影響產物產率的,模型結果顯示熱解溫度450~500 ℃時生物油產率最大,選擇纖維素和半纖維素含量較高的生物質原料以及適當增大氣體流量都能夠增加生物油產率。PDP分析有助于進一步了解快速熱解反應機理,促進了對生物質熱解過程的全面了解,并為快速熱解三態產物產率調控提供了一定的理論指導。

3.3通過模型預測結果對比及模型泛化能力分析發現,隨機森林算法較其它算法在快速熱解產物產率預測上具有準確度高、泛化能力好的優勢。研究結果促進了對生物質熱解過程的全面了解,且為快速熱解三態產物產率調控提供了理論指導。

猜你喜歡
三態生物質產率
生物質揮發分燃燒NO生成規律研究
《生物質化學工程》第九屆編委會名單
原料粒度對飼料級磷酸三鈣性能及產率的影響
《造紙與生物質材料》(英文)2020年第3期摘要
超聲輔助水滑石/ZnCl2高效催化Knoevenagel縮合反應
直線上空間非齊次三態量子游蕩的平穩測度
群文閱讀理念支撐下的課堂形態
心律失常有“三態” 自我監測要“三看”
生物質碳基固體酸的制備及其催化性能研究
基于FPGA的三態總線設計
91香蕉高清国产线观看免费-97夜夜澡人人爽人人喊a-99久久久无码国产精品9-国产亚洲日韩欧美综合