基于XGBoost算法對茶葉揉捻工藝參數(shù)的研究
茶友網(wǎng)首頁 個人中心
下載APP 下載APP
手機訪問 手機端二維碼

基于XGBoost算法對茶葉揉捻工藝參數(shù)的研究

茶產(chǎn)業(yè)作為我國特色優(yōu)勢產(chǎn)業(yè),承擔著支撐茶區(qū)經(jīng)濟、滿足健康消費、穩(wěn)定擴大就業(yè)、服務鄉(xiāng)村振興的重要任務。揉捻是茶葉加工的一道關鍵工序,主要有三個目的:一是揉捻茶葉成形,為成品茶外形打基礎,二是使茶葉細胞破損、茶汁溢出,三是為后續(xù)茶葉加工做準備。揉捻機是目前能夠完成茶葉揉捻工藝的主要設備,主要由揉捻盤、揉捻桶與加壓裝置、傳動機構等結構組成,揉桶在曲柄等機構的帶動和控制下,在揉捻盤上做相對偏揉捻軸中心的橫向旋轉。茶葉在揉桶中隨著揉桶的運動不斷往復翻轉,并在揉盤上進行來回揉搓,逐步卷縮成條。

目前,我國茶葉花色繁多,揉捻工藝要求各有不同,揉捻速度、揉捻壓力、揉捻時間設置不能一概而論,難以給出揉捻參數(shù)具體確定值。揉捻茶葉時,制茶者需要有一定的制茶經(jīng)驗,根據(jù)實際的鮮葉狀況和環(huán)境條件對工藝進行選擇,揉捻工藝受人主觀能動性影響,易造成揉捻品質不一。張問采等提出利用大數(shù)據(jù)技術,對茶葉原產(chǎn)地的溫度、氣候、海拔等地理信息進行系統(tǒng)收集,建立茶葉加工工藝參數(shù)庫,以確保茶葉揉捻加工工藝的統(tǒng)一性和標準性。新技術與揉捻工藝的結合能夠智能選擇揉捻工藝參數(shù),對當前茶葉揉捻設備發(fā)展具有一定現(xiàn)實意義。

文章基于XGBoost算法設計茶葉揉捻推薦系統(tǒng),通過對鮮葉等級、茶葉種類、茶葉產(chǎn)地以及揉捻機型號作為系統(tǒng)輸入,能夠對揉捻相關參數(shù)進行推薦。

▲ 浙江春江茶葉機械揉捻機組

01

方法原理

1、隨機森林算法

隨機森林算法(Random Forest)是一種集成學習方法,通過構建多個決策樹來進行分類或回歸。隨機森林是從原始訓練樣本集N中重復抽取k個樣本生成新的訓練樣本集合,然后根據(jù)自助樣本集生成k個分類樹組成隨機森林,新數(shù)據(jù)的分類結果按分類樹投票多少形成的分數(shù)而定。其實質就是將多個決策樹合并在一起,大大提高決策樹的運算效率,每棵樹都是從一個獨立樣本中抽取出來的,并且其分布也是一致的,所以分類誤差取決于每棵樹的分類能力以及樹之間的相關性。CART決策樹是隨機森林算法弱分類器的核心部分,優(yōu)點在于:當數(shù)據(jù)集的因變量是離散型數(shù)值時,此樹就是分類樹;當數(shù)據(jù)集的因變量是連續(xù)性數(shù)值時,此樹就是回歸樹,預測值可以用葉節(jié)點觀察的均值來表示。

隨機森林算法容易實現(xiàn),在訓練速度方面和訓練高度并行化方面也具有明顯優(yōu)勢,還能進行模型融合,提高模型的準確性和穩(wěn)定性。并且由于采用了隨機采樣,可以訓練出方差小、泛化能力強的模型。

2、XGBoost算法

XGBoost算法(eXtreme Gradient Boosting)是一種強大集成學習方法,同時支持CART樹和線性分類器為基分類器,基于前向分布算法實現(xiàn)加法模型的集成學習方法。集成模型的基本理念是通過構建一系列弱基礎模型來構建一個強大的模型。XGBoost算法核心思想是通過持續(xù)的增加樹,不停地進行特征分裂來生長一棵樹、添加一個樹的過程,實際上就是學習一個新函數(shù)的過程,擬合上次預測的殘差。構建出k棵樹,并且每棵樹都能夠模型化,從而模型化出每個樣本的分值,從而達到對未知值的準確估計。通過觀察這個樣本的特征,會發(fā)現(xiàn)它會落在每棵樹的一個對應的葉節(jié)點上,每個葉節(jié)點對應一個分數(shù)。最后,只需要將每棵樹的相應分數(shù)相加,就可以得到樣本的預測值。

XGBoost算法具有以下優(yōu)點:

(1)簡單易用,提供API方便用戶使用。

(2)靈活性高,可應用于多種類型數(shù)據(jù)集和任務,包括分類、回歸、排名和推薦等。

(3)準確率高,在分類和回歸問題上可以達到其它算法難以匹敵的準確率。

(4)可解釋強,提供豐富的特征重要性評估方法,可幫助用戶理解模型預測過程。

3、支持向量機

支持向量機(Support Vector Machine,SVM)是一種常用的機器學習算法,主要用于分類和回歸問題。它的基本原理是通過找到一個最優(yōu)的超平面,將數(shù)據(jù)分為不同的類別。最優(yōu)超平面是n-1維的線性子空間,其中n是數(shù)據(jù)的特征維數(shù)。例如,如果數(shù)據(jù)有兩個特征,那么超平面是一維的線性子空間,也就是一個直線;如果數(shù)據(jù)有三個特征,那么超平面是個二維的線性子空間,也就是一個平面。在二維空間中,超平面就是一個直線,它將數(shù)據(jù)分為兩個類別。通過SVM,可以利用一些數(shù)學技術,將復雜的高維數(shù)據(jù)轉換為簡單的低維數(shù)據(jù),從而有效地解決高維數(shù)據(jù)分析的問題。

支持向量機算法具有適應性廣泛、可解釋性強、計算復雜度低的優(yōu)點。支持向量機算法可用于線性和非線性問題,在分類和回歸任務中表現(xiàn)出色,預測精度高,還能夠清晰表示分類和回歸的決策邊界和數(shù)據(jù)分布情況。

02

模型搭建

1、模型搭建及訓練測試

根據(jù)XGBoost的算法原理并使用Python語言,構建出XGBoost算法測試模型框架,如圖1所示。一共分為四個部分,一是樣本數(shù)據(jù)預處理,二是參數(shù)調優(yōu),三是模型訓練,四是模型預測。

(1)數(shù)據(jù)預處理

文章數(shù)據(jù)是由廣西昭平仙峰茶廠提供,獲取時間為2023年3~4月。在當?shù)?位制茶師傅的指導下,采用6CR-35型茶葉揉捻機進行數(shù)據(jù)獲取。獲取相關數(shù)據(jù)信息如表1所示。試驗獲取的數(shù)據(jù)還不能直接使用,因為初始數(shù)據(jù)中包含揉捻品質指標不符合揉捻機性能指標的揉捻參數(shù)數(shù)據(jù),會降低模型學習效率和預測精度。在數(shù)據(jù)使用前需要對數(shù)據(jù)進行預處理,此次試驗預處理主要為數(shù)據(jù)清理和數(shù)據(jù)劃分。

· 數(shù)據(jù)清理

在當?shù)刂撇鑾煾抵笇虏捎?CR-35型茶葉揉捻機對三級鮮葉制成紅茶春茶來進行揉捻,揉捻過程中受人主觀能動性影響。試驗獲取的100組數(shù)據(jù)中,有8組數(shù)據(jù)的破茶率、成條率、細胞破碎率不符合35型茶葉揉捻機標準,這些數(shù)據(jù)對后續(xù)揉捻參數(shù)預測沒有相關性,模型分析預測數(shù)據(jù)時需要去除這些數(shù)據(jù)。

· 數(shù)據(jù)劃分

將剩余92組數(shù)據(jù)按照9∶1的比例分為訓練樣本和測試樣本。訓練樣本用于算法迭代學習,測試樣本用于檢測算法預測效果。

(2)參數(shù)調優(yōu)

XGBoost算法參數(shù)包括通用參數(shù)、Booster參數(shù)和學習目標參數(shù)。通用參數(shù)能夠進行宏觀函數(shù)控制,Booster參數(shù)控制決策樹生成和組合過程,學習目標參數(shù)能夠控制訓練目標。

· 通用參數(shù):

①booster:用于選擇每次迭代模型的類別。booster參數(shù)有gbtree和gblinear兩種選擇,gbtree是基于樹結構來構建模型,而gblinear是基于線性分類器來構建模型。②silent:用于決定運行過程中是否產(chǎn)生輸出。

· Booster參數(shù)

①n_estimators:樹的數(shù)量,用于控制模型的復雜度和訓練時間。②learning_rate:學習率,用于控制模型參數(shù)的更新速度,并且通過不斷降低學習率來提升模型的準確性。③gamma:控制節(jié)點分裂需要的最小目標函數(shù)下降量,用于控制樹的生長和防止過擬合。④subsample:樣本采樣比例,用于控制每個樹節(jié)點上的樣本數(shù)量。⑤colsample_bytree:控制每棵樹中列的子采樣比例。⑥colsample_bylevel:控制每一層中列的子采樣比例。⑦max_depth:樹的最大深度,用于控制樹的復雜度,并避免過擬合。⑧max_delta_step:樹模型權重改變的最大步長,控制每個樹模型權重改變的最大步長,防止過擬合。⑨lambda和alpha:正則項中λ和γ的權重,減少模型過擬合。⑩scale_pos_weight:調整正樣本的權重,提高模型的分類準確率。

· 學習目標參數(shù)

①objective:指訓練模型時所采用的損失函數(shù),常見的有reg:linear、reg:logistic、binary:logistic等。②eval_metric:評估模型性能指標,常見的有rmse、mae、errors等。

· GridSearch是一種參數(shù)調優(yōu)方法,通過在指定的參數(shù)范圍內搜索最優(yōu)參數(shù)組合來優(yōu)化模型性能。其步驟如下:

①確定需要調優(yōu)的參數(shù)和參數(shù)取值范圍。②將參數(shù)和參數(shù)取值范圍組合成一個參數(shù)網(wǎng)格。③通過采用交叉驗證的方式,對各種參數(shù)組合進行全面的性能評估。④選擇最優(yōu)的參數(shù)組合,并使用所有訓練數(shù)據(jù)重新訓練模型。⑤對數(shù)據(jù)進行測試,評估模型性能。

在實際應用中,由于參數(shù)組合數(shù)量可能很大,所以使用GridSearch時需要注意以下幾點:①盡量限制參數(shù)取值范圍,避免搜索空間過大。②優(yōu)先選擇影響模型性能最大的參數(shù)進行調優(yōu)。③結合模型的特性和實際需求,選擇合適的交叉驗證方式。④可以使用并行計算加速參數(shù)搜索。

利用網(wǎng)格尋優(yōu)調優(yōu)方法分別對茶葉揉捻工藝中揉捻轉速(A)、空揉時間(B)、一次輕壓(C)、一次輕壓時間(D)、重壓(E)、重壓時間(F)、二次輕壓(G)、二次輕壓時間(H)的參數(shù)進行網(wǎng)格尋優(yōu),其最優(yōu)參數(shù)組合如表2所示。

(3)模型評價指標

在評價模型的預測能力時,通常采用平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為模型評價指標。平均絕對誤差是預測值與真實值之間誤差絕對值的平均值,反映了預測誤差的實際情況;均方根誤差是預測值與真實值之間誤差平方和與樣本數(shù)量比值的平方根,反映了誤差分布的離散程度;平均絕對百分比誤差是比較預測值與真實值之間相對誤差絕對值的平均值的大小,反映了預測誤差與真實值的相對大小。其表達式如式1、2、3所示,RMSE指標、MAE指標、MAPE指標得分越小,預測效果越好。

2、預測結果分析

三種算法模型對揉桶轉速、空揉時間、一次輕壓、一次輕壓時間、重壓、重壓時間、二次輕壓、二次輕壓時間預測評價結果分別如表3所示。從RMSE、MAE、MAPE三項評價指標結果來看,XGBoost模型評價指標數(shù)值最小、算法優(yōu)勢顯著,這表明在最優(yōu)參數(shù)組合的選擇下,XGBoost算法模型的預測能力較好,因此系統(tǒng)將XGBoost算法作為茶葉揉捻推薦系統(tǒng)的核心,僅使用XGBoost算法模型進行下一步分析預測。

03

推薦系統(tǒng)軟件設計

1、系統(tǒng)環(huán)境

系統(tǒng)硬件環(huán)境和軟件環(huán)境具體介紹如表4和表5所示。

2、系統(tǒng)主要功能實現(xiàn)及展示

(1)信息獲取模塊

茶葉推薦系統(tǒng)的信息獲取界面可讀取用戶選擇或輸入的相關參數(shù),完成相關數(shù)據(jù)輸入功能。用戶在該界面上選擇茶葉種類、茶葉類型等信息,并將上述參數(shù)以文本讀取方式發(fā)送至數(shù)據(jù)處理層,進行相關揉捻參數(shù)預測。

在信息獲取界面中需要對茶葉等級、茶葉種類、揉捻機型號、茶葉產(chǎn)地信息進行輸入。2016年,中國工業(yè)和信息化部頒布了JB/T 12835—2016行業(yè)標準確定茶葉等級,并以其特定的長度和比例,對茶葉級別進行了精確的劃分。鮮葉長度不大于30 mm的占60%以上的為一級鮮葉、鮮葉長度不大于40 mm的占70%以上的為二級鮮葉、鮮葉長度不大于50 mm的占70%以上的為三級鮮葉、其它鮮葉為四級鮮葉。茶葉種類根據(jù)茶葉品種和制茶季節(jié)進行劃分,主要劃分為紅茶春茶、紅茶秋茶、綠茶春茶、綠茶秋茶四個類別。茶葉揉捻機型號按照揉捻桶直徑大小可分為25型、35型、45型、55型等。

(2)揉捻參數(shù)推薦模塊

信息獲取層模塊將獲得的茶葉相關信息按照其所屬的茶葉等級、茶葉種類、揉捻機型號以及茶葉產(chǎn)地信息進行分類,找到對應數(shù)據(jù)庫。根據(jù)歷史制茶經(jīng)驗數(shù)據(jù)中揉捻品質數(shù)據(jù)和揉捻工藝數(shù)據(jù)對XGBoost模型訓練,此系統(tǒng)內將最優(yōu)揉捻品質參數(shù)作為模型輸入來預測茶葉揉捻工藝參數(shù)。

此揉捻參數(shù)推薦系統(tǒng)還具有數(shù)據(jù)保存、用戶管理、操作日志、幫助文檔功能,數(shù)據(jù)保存指的是可對當前獲取信息以及推薦信息按照當前鮮葉等級、茶葉種類、揉捻機型號、茶葉產(chǎn)地的不同進行分類保存。用戶管理模塊僅涉及個人信息管理,用戶可通過設定好的賬號密碼進行登錄。操作日志管理記錄系統(tǒng)運行情況,主要是系統(tǒng)運行過程中所產(chǎn)生的信息日志。幫助文檔主要闡述了此推薦系統(tǒng)設計目的以及其使用場景。

04

推薦系統(tǒng)測試

1、試驗目的與試驗指標

揉捻推薦系統(tǒng)主要功能是根據(jù)不同類型鮮葉狀態(tài)來推薦其揉捻參數(shù),為了驗證推薦揉捻參數(shù)的實用性,主要選取了茶葉揉捻后的碎茶率、成條率、細胞破壞率進行測定。

(1)碎茶率測定

試驗碎茶率測定是通過稱重完成的。在揉捻試驗完后,取出茶葉進行稱重,稱重后通過網(wǎng)篩進行篩選,再將篩除的碎末碎葉進行稱重。碎茶重量再除以茶葉總重得到破碎率,具體公式如式4所示。

式中:S為碎茶率;mS為碎茶重量;m為茶葉總重量。

(2)成條率測定

試驗成條率測定也是通過稱重完成的。在揉捻試驗結束后,取出茶葉進行稱重,挑出成條進行稱重。成條率可通過成條葉重量除以茶葉總重,具體公式如式5所示。

式中:C為成條率;mC為成條茶葉重量;m 為茶葉總重。

(3)細胞破壞率測定

采用計算機圖像處理技術來進行茶葉細胞破壞率測定。取揉捻好的茶葉若干,放入100 ℃水浴處理15 min;在當前溫度和處理時間下,破碎細胞外溢,茶多酚氧化形成茶色素并對受損細胞進行染色。將處理過的茶葉展開在白紙上進行拍照;將圖片導入電腦、采用Grabcut算法刪除背景;根據(jù)顏色特征計算染色面積與葉片面積比值,得到細胞破壞率。

2、推薦系統(tǒng)參數(shù)試驗

現(xiàn)對一批鮮葉進行揉捻參數(shù)推薦,鮮茶產(chǎn)地來源于廣西昭平,鮮葉等級為三級,采用35型茶葉揉捻機進行揉捻,所要制成茶葉種類為紅茶春茶。揉捻參數(shù)推薦系統(tǒng)接收到信息獲取層所傳送的相關信息,找到鮮葉等級為三級鮮葉、茶葉種類為紅茶春茶、揉捻機型號為35型、茶葉產(chǎn)地為廣西昭平的數(shù)據(jù)庫。由于當前茶葉揉捻機采用的是固定位置揉捻,所以試驗中以下降距離為控制參數(shù)。對數(shù)據(jù)庫里歷史揉捻參數(shù)數(shù)據(jù)進行訓練,并推薦出茶葉揉捻工藝參數(shù),揉捻轉速35 r/min、空壓揉捻時間為15 min、一次輕壓位置為8 cm處、揉捻時間為11 min、重壓壓力位置為13 cm處、重壓時間10 min、第二次輕壓壓力大小為7 cm處、揉捻時間為13 min。將揉捻工藝參數(shù)應用到35型茶葉揉捻機進行揉捻,揉捻結束后取出部分茶葉,進行篩選、稱重,計算破茶率和成條率,并用計算機圖像處理技術檢測茶葉揉捻后細胞破碎率。

查找茶葉揉捻機作業(yè)性能指標表,可以得出6CR-35型揉捻機揉捻紅茶,揉捻加工后的作業(yè)性能指標應滿足成條率≥85%、碎茶率≤4.2%、茶葉細胞破壞率≥83%。茶葉揉捻機揉捻結果如表6所示,試驗1是根據(jù)20次揉捻數(shù)據(jù)進行推薦,試驗2是根據(jù)40次揉捻數(shù)據(jù)進行推薦,試驗3是根據(jù)60次揉捻數(shù)據(jù)進行推薦。從表中試驗1、試驗2、試驗3可以看出隨著試驗次數(shù)增加,揉捻葉的成條率逐漸增加、碎茶率逐漸降低、茶葉細胞破碎率逐漸增加。由于現(xiàn)有歷史揉捻數(shù)據(jù)量較少,揉捻參數(shù)推薦系統(tǒng)推薦數(shù)據(jù)還不完善。試驗4是根據(jù)80次揉捻數(shù)據(jù)進行推薦,可以看出揉捻后的碎茶率、成條率以及細胞破壞率已達到揉捻機作業(yè)性能指標。因此,隨著后續(xù)試驗數(shù)據(jù)增加,推薦系統(tǒng)不斷進行學習優(yōu)化,按照此系統(tǒng)推薦參數(shù)進行揉捻,茶葉揉捻品質將越來越好。

05

討論

茶葉揉捻品質易受制茶師傅主觀因素影響,通過對鮮葉等級、茶葉種類、茶葉產(chǎn)地以及揉捻機型號來確定揉捻工藝參數(shù),能夠保證茶葉揉捻品質穩(wěn)定。文章將XGBoost算法用于茶葉揉捻參數(shù)推薦,利用真實揉捻工藝相關參數(shù)對預測模型進行驗證,在參數(shù)推薦過程中展現(xiàn)了較強性能。根據(jù)此算法設計出茶葉揉捻參數(shù)推薦系統(tǒng),并對推薦系統(tǒng)推薦參數(shù)進行試驗。從推薦系統(tǒng)參數(shù)試驗可以看出揉捻后的碎茶率、成條率以及細胞破壞率已達到揉捻機作業(yè)性能指標,并且隨著試驗數(shù)據(jù)增加,推薦系統(tǒng)不斷學習優(yōu)化,按照推薦參數(shù)進行茶葉揉捻,揉捻品質將越來越好。此揉捻推薦系統(tǒng)對當前茶葉揉捻設備發(fā)展具有一定現(xiàn)實意義。

作者簡介:

陳俠

安徽宿州人,南京農(nóng)業(yè)大學人工智能學院碩士研究生,研究方向為智能農(nóng)業(yè)裝備。

通訊作者:

柳軍

副研究員,南京農(nóng)業(yè)大學人工智能學院碩士生導師,研究方向為智能農(nóng)機裝備。

來源:中國茶葉加工

如有侵權請聯(lián)系刪除