時(shí)間:2021年05月13日 分類:農(nóng)業(yè)論文 次數(shù):
摘要:為提高農(nóng)業(yè)物聯(lián)網(wǎng)的數(shù)據(jù)感知質(zhì)量,提出了基于向量升維的異常農(nóng)情數(shù)據(jù)實(shí)時(shí)檢測(cè)方法。首先采用滑動(dòng)窗口機(jī)制將標(biāo)準(zhǔn)化后的時(shí)序農(nóng)情數(shù)據(jù)轉(zhuǎn)換為觀測(cè)向量,接著將相鄰向量元素差值之和作為新向量元素對(duì)觀測(cè)向量進(jìn)行升維,最后構(gòu)建了異常數(shù)據(jù)實(shí)時(shí)檢測(cè)框架。采用畜禽養(yǎng)殖物聯(lián)網(wǎng)環(huán)境數(shù)據(jù)進(jìn)行實(shí)驗(yàn),開展滑動(dòng)窗口大小取值、分類模型的異常數(shù)據(jù)檢測(cè)性能與敏感性分析。結(jié)果表明,滑動(dòng)窗口大小取2為宜,提出的向量升維方法能夠有效提升分類模型的異常數(shù)據(jù)檢測(cè)能力,且線性核支持向量機(jī)具有較優(yōu)的異常數(shù)據(jù)檢測(cè)性能和計(jì)算耗時(shí),其檢測(cè)效果與數(shù)據(jù)波動(dòng)性和采樣間隔負(fù)相關(guān)、與異常值偏離幅度正相關(guān)。
關(guān)鍵詞:向量;升維;農(nóng)情數(shù)據(jù);異常檢測(cè);物聯(lián)網(wǎng)
農(nóng)業(yè)物聯(lián)網(wǎng)系統(tǒng)已成為農(nóng)業(yè)大數(shù)據(jù)最重要的數(shù)據(jù)源之一[1]。通過將具有感知、通信和計(jì)算能力的微型傳感器部署應(yīng)用于農(nóng)業(yè)生產(chǎn)管理中,全面、準(zhǔn)確、高效地監(jiān)測(cè)土壤-植物-大氣連續(xù)體,能夠有效推進(jìn)“互聯(lián)網(wǎng)+”現(xiàn)代農(nóng)業(yè)行動(dòng),為精準(zhǔn)農(nóng)業(yè)的實(shí)現(xiàn)提供重要支撐[2-3]。農(nóng)業(yè)物聯(lián)網(wǎng)設(shè)備往往長(zhǎng)期工作在復(fù)雜的生產(chǎn)環(huán)境中,受設(shè)備制造技術(shù)、工藝與成本以及網(wǎng)絡(luò)傳輸?shù)挠绊懀瑪?shù)據(jù)收集過程中不可避免地產(chǎn)生遠(yuǎn)離序列一般水平的極大值或極小值,即異常數(shù)據(jù)[4-5]。
農(nóng)藝師評(píng)職知識(shí):農(nóng)業(yè)化學(xué)專業(yè)論文投哪些sci期刊
如何實(shí)時(shí)有效地檢測(cè)異常數(shù)據(jù),保證采集的原始數(shù)據(jù)質(zhì)量是開展高價(jià)值農(nóng)業(yè)生產(chǎn)分析和實(shí)現(xiàn)物聯(lián)網(wǎng)設(shè)備智能調(diào)控的根本前提。Lo等[6]提出一種基于分布式模型的非線性傳感器異常診斷算法,具有較高的檢測(cè)率,且開銷低于集中式算法。Ludeña-Choez等[7]提出基于非負(fù)矩陣分解的機(jī)器學(xué)習(xí)方法提取農(nóng)業(yè)土壤墑情數(shù)據(jù)特征,再使用邏輯回歸和支持向量機(jī)進(jìn)行訓(xùn)練和檢測(cè),性能優(yōu)于基于主成分分析和多尺度主成分分析的檢測(cè)模型。通過建立回歸模型來檢測(cè)異常數(shù)據(jù)得到了研究者們的廣泛關(guān)注。
段青玲等[8]采用滑動(dòng)窗口機(jī)制動(dòng)態(tài)更新訓(xùn)練數(shù)據(jù)集構(gòu)建基于支持向量回歸的畜禽養(yǎng)殖物聯(lián)網(wǎng)數(shù)據(jù)預(yù)測(cè)模型,通過比較預(yù)測(cè)數(shù)據(jù)和實(shí)際數(shù)據(jù)的差異判斷是否出現(xiàn)異常。但該方法中預(yù)測(cè)模型與異常值判斷區(qū)間的頻繁更新造成計(jì)算開銷較大,且異常數(shù)據(jù)的判斷條件較為復(fù)雜。新興的長(zhǎng)短期記憶模型能夠很好地捕獲到數(shù)據(jù)在時(shí)間維度上的關(guān)聯(lián)[9],但模型需要大量的訓(xùn)練數(shù)據(jù)集,實(shí)用性較差。
Zidi等[10]將4個(gè)傳感器節(jié)點(diǎn)的短時(shí)段歷史數(shù)據(jù)聚合成新觀測(cè)向量,通過訓(xùn)練高斯核支持向量機(jī)SVM(supportvectormachine)進(jìn)行異常數(shù)據(jù)檢測(cè),取得了較好的效果。Noshad等[11]將2個(gè)空氣溫度和2個(gè)空氣濕度傳感器的3次連續(xù)采樣數(shù)據(jù)聚合成新觀測(cè)向量,結(jié)果表明隨機(jī)森林RF(randomforest)模型的異常檢測(cè)能力優(yōu)于高斯核SVM。然而,以上方法尚存在不足:未對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,模型的異常數(shù)據(jù)檢測(cè)效果對(duì)數(shù)據(jù)取值范圍較為敏感;將多項(xiàng)數(shù)據(jù)聚合為新觀測(cè)向量后,異常數(shù)據(jù)的準(zhǔn)確定位存在困難;數(shù)據(jù)集發(fā)生變化時(shí),隨機(jī)森林RF和高斯核SVM均需重新調(diào)參、工作量較大。
受到成本、電源供給等因素制約,農(nóng)情傳感器大規(guī)模應(yīng)用部署較為困難。實(shí)際農(nóng)業(yè)生產(chǎn)中存在稀疏采樣的需求,即選取少量代表性站點(diǎn)、較大采樣間隔進(jìn)行數(shù)據(jù)采集[12]。本研究以單傳感器數(shù)據(jù)異常檢測(cè)研究為切入點(diǎn),提出基于數(shù)據(jù)向量升維的農(nóng)情異常數(shù)據(jù)檢測(cè)方法,探索數(shù)據(jù)預(yù)處理與升維方法、采樣間隔對(duì)異常檢測(cè)效果的影響,比較分析不同分類模型之間檢測(cè)性能的差異,為實(shí)現(xiàn)農(nóng)情數(shù)據(jù)的高質(zhì)量感知提供參考。
1材料與方法
1.1數(shù)據(jù)來源
實(shí)驗(yàn)數(shù)據(jù)來自安徽省合肥市長(zhǎng)豐縣生態(tài)農(nóng)場(chǎng),自2018年10月起部署傳感器節(jié)點(diǎn)不間斷監(jiān)測(cè)農(nóng)場(chǎng)羊圈內(nèi)環(huán)境信息,采樣間隔為5min。取2019年6月10日至30日共21d(504h,6048數(shù)據(jù)點(diǎn))時(shí)間段內(nèi)空氣相對(duì)濕度AirRH(airrelativehumidity)、CO2濃度、NH3濃度和H2S濃度觀測(cè)數(shù)據(jù)。受農(nóng)場(chǎng)的生產(chǎn)習(xí)性與天氣影響,農(nóng)場(chǎng)養(yǎng)殖大棚內(nèi)夜間的空氣濕度、CO2濃度、NH3濃度以及H2S濃度較高,而午間監(jiān)測(cè)數(shù)據(jù)均會(huì)有不同程度的降低。為系統(tǒng)地評(píng)估提出方法的性能,以7d數(shù)據(jù)為步長(zhǎng),采用2組連續(xù)14d數(shù)據(jù)進(jìn)行實(shí)驗(yàn),每組數(shù)據(jù)中前7d數(shù)據(jù)作為訓(xùn)練集,后7d數(shù)據(jù)作為測(cè)試集進(jìn)行異常數(shù)據(jù)檢測(cè)模型的訓(xùn)練和性能驗(yàn)證。
1.2基于向量升維的異常數(shù)據(jù)檢測(cè)框架
基于向量升維的異常數(shù)據(jù)實(shí)時(shí)檢測(cè)框架。傳感器節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)采樣并發(fā)往服務(wù)器。服務(wù)器端負(fù)責(zé)數(shù)據(jù)接收、執(zhí)行模型訓(xùn)練與異常檢測(cè)。模型訓(xùn)練流程如下:取前一周采集數(shù)據(jù),按設(shè)定比例和偏離幅度向數(shù)據(jù)集中隨機(jī)插入異常數(shù)據(jù),構(gòu)建訓(xùn)練向量集并升維,最后訓(xùn)練分類模型以得到異常數(shù)據(jù)檢測(cè)模型。下一周數(shù)據(jù)采集時(shí),應(yīng)用該模型進(jìn)行異常數(shù)據(jù)實(shí)時(shí)檢測(cè)。本研究采用的分類模型有線性核、高斯核支持向量機(jī)SVM以及隨機(jī)森林RF[13-15]。
下文若未特別說明,默認(rèn)采用線性核SVM。在異常數(shù)據(jù)實(shí)時(shí)檢測(cè)過程中,服務(wù)器端對(duì)來自傳感器節(jié)點(diǎn)的最新數(shù)據(jù)與歷史最近N-1個(gè)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,構(gòu)建實(shí)時(shí)檢測(cè)向量并進(jìn)行升維,最后傳入模型中檢測(cè)異常。如果被判斷為正常數(shù)據(jù)則保存該最新數(shù)據(jù),否則進(jìn)行異常值校正后再保存。當(dāng)數(shù)據(jù)采集時(shí)長(zhǎng)滿一周后重新訓(xùn)練模型。異常值校正方法可采用回歸模型預(yù)測(cè)、均值替換法等方法[16]。
2結(jié)果與分析
實(shí)驗(yàn)采用Python語(yǔ)言編程,系統(tǒng)配置為IntelCorei5、8GBRAM和Windows10操作系統(tǒng)。主要研究不同窗口大小、常規(guī)和稀疏采樣場(chǎng)景下不同異常值比例和偏離幅度對(duì)模型檢測(cè)效果的影響,以甄選出最佳窗口大小、分析模型對(duì)不同數(shù)據(jù)集的異常檢測(cè)敏感度。
3討論與結(jié)論
異常數(shù)據(jù)處理是提高農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)感知質(zhì)量的重要手段。本研究提出了基于向量升維的農(nóng)情異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法,采用畜禽養(yǎng)殖物聯(lián)網(wǎng)環(huán)境數(shù)據(jù),綜合評(píng)估了其異常數(shù)據(jù)檢測(cè)性能與特征。實(shí)驗(yàn)結(jié)果表明,通過將時(shí)序農(nóng)情數(shù)據(jù)標(biāo)準(zhǔn)化、向量轉(zhuǎn)換與升維操作后,支持向量機(jī)、隨機(jī)森林等分類模型的異常數(shù)據(jù)檢測(cè)能力均得到明顯提升。由于向量升維處理后的數(shù)據(jù)線性可分,采用線性核支持向量機(jī)能夠以低計(jì)算耗時(shí)獲得較優(yōu)的異常數(shù)據(jù)檢測(cè)效果,且避免了高斯核支持向量機(jī)等模型訓(xùn)練時(shí)需要多次確定超參數(shù)、泛化能力的不足的問題。
實(shí)驗(yàn)發(fā)現(xiàn),異常檢測(cè)效果與異常值出現(xiàn)頻度基本無(wú)關(guān),但與數(shù)據(jù)波動(dòng)性和采樣間隔負(fù)相關(guān)、與異常值偏離幅度正相關(guān)。相同的目標(biāo)數(shù)據(jù)集,對(duì)于震蕩幅度較為平緩的數(shù)據(jù),采樣間隔為5min時(shí),模型對(duì)偏離幅度大于10%的異常數(shù)據(jù)檢測(cè)精確度和召回率分別可達(dá)100%和98.8%;采樣間隔增加到50min的稀疏采樣時(shí),模型對(duì)偏離幅度大于30%的異常數(shù)據(jù)檢測(cè)精確度和召回率達(dá)83.2%和90.1%以上。
而對(duì)于波動(dòng)性較強(qiáng)的數(shù)據(jù),兩種采樣間隔下,模型對(duì)偏離幅度大于30%、60%的異常數(shù)據(jù)檢測(cè)精確度和召回率分別為100%和97.8%、98.3%和87.5%。本研究的實(shí)驗(yàn)數(shù)據(jù)與大田、溫室大棚等農(nóng)業(yè)生產(chǎn)環(huán)境和作物生長(zhǎng)數(shù)據(jù)具有相似的變化特征,故所提出的農(nóng)情異常數(shù)據(jù)實(shí)時(shí)檢測(cè)方法與結(jié)論可直接應(yīng)用于大田、溫室大棚等其他農(nóng)業(yè)生產(chǎn)場(chǎng)景下相關(guān)數(shù)據(jù)的異常值檢測(cè)以提高數(shù)據(jù)感知質(zhì)量,具有較好的實(shí)際應(yīng)用價(jià)值。后續(xù)將開展異常值校正方法的研究,為進(jìn)一步提升農(nóng)情數(shù)據(jù)的感知質(zhì)量提供支撐。
參考文獻(xiàn):
[1]吳華瑞,李慶學(xué),繆祎晟,等.基于正則化與時(shí)空約束改進(jìn)K最近鄰算法的農(nóng)業(yè)物聯(lián)網(wǎng)數(shù)據(jù)重構(gòu)[J].農(nóng)業(yè)工程學(xué)報(bào),2019,35(14):183-189.
[2]李道亮,楊昊.農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)研究進(jìn)展與發(fā)展趨勢(shì)分析[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2018,49(1):1-20.
[3]張芳,王佩欣,何勇,等.基于物聯(lián)網(wǎng)的陽(yáng)臺(tái)微型溫室作物生長(zhǎng)環(huán)境因子探究[J].浙江農(nóng)業(yè)學(xué)報(bào),2020,32(2):234-242.
[4]YUTQ,WANGXB,SHAMIA.Recursiveprincipalcomponentanalysis-baseddataoutlierdetectionandsensordataaggregationinIoTsystems[J].IEEEInternet ThingsJ,2017,4(6):2207-2216.
[5]GAOYB,XIAOF,LIUJX,etal.Distributedsoftfaultdetectionforintervaltype-2fuzzy-model-basedstochasticsystemswithwirelesssensornetworks[J].IEEETransIndInformatics,2019,15(1):334-347.
[6]LOC,LYNCHJP,LIUMY.Distributedmodel-basednonlinearsensorfaultdiagnosisinwirelesssensornetworks[J].MechSystSignalProcess,2016,66/67:470-484.
作者:趙剛,饒?jiān)?,王文,姜敏,江朝暉