時間:2020年07月03日 分類:電子論文 次數(shù):
摘要:服務(wù)器設(shè)備的異常高溫在機房內(nèi)部會形成熱點,不僅會影響服務(wù)器的穩(wěn)定和壽命,還會導(dǎo)致機房制冷效率的降低,從而增加機房的制冷能耗,增加運營費用;導(dǎo)致產(chǎn)生熱點的原因有很多,例如空氣流通不暢、風(fēng)扇失靈、長時間滿負荷運行等等;通過自動診斷熱點的成因,可以有針對性的消除熱點,為機房環(huán)境控制提供數(shù)據(jù)支持,有助于降低機房制冷能耗;根據(jù)熱像儀拍攝的服務(wù)器出風(fēng)口一側(cè)的紅外圖像,利用人工智能技術(shù),提出了自動診斷熱點成因的方法;針對實際工程應(yīng)用中熱點樣本數(shù)量不足的問題,提出了基于深度卷積對抗生成網(wǎng)絡(luò)(DCGAN)合成熱點樣本的解決方案;通過多組實驗驗證了方法的有效性,熱點成因的診斷準(zhǔn)確率約為95%。
關(guān)鍵詞:信息處理技術(shù);自動診斷;熱成像;對抗生成網(wǎng)絡(luò);卷積神經(jīng)網(wǎng)絡(luò)
0引言
隨著云計算,大數(shù)據(jù)及其應(yīng)用的興起,計算機機房乃至大型數(shù)據(jù)中心得到了迅速發(fā)展,不僅規(guī)模不斷增加,內(nèi)部服務(wù)器的密度和集成化也不斷提高。目前,服務(wù)器內(nèi)部高度集成的單顆芯片可以產(chǎn)生大約200W/cm2的熱流密度,并且會隨著技術(shù)發(fā)展繼續(xù)增加[1]。在這種情況下,如果出現(xiàn)風(fēng)扇失靈、通風(fēng)不暢、長時間滿負荷運行等情況,服務(wù)器內(nèi)部以及周圍會產(chǎn)生較高溫度,導(dǎo)致機房內(nèi)部溫度分布不均衡,形成局部熱點區(qū)域。
計算機論文投稿刊物:計算機學(xué)報(月刊)創(chuàng)刊于1978年,由中國計算機學(xué)會與中國科學(xué)院計算技術(shù)研究所主辦、科學(xué)出版社出版,以中文編輯形式與讀者見面,同時以英文摘要形式向國際各大檢索系統(tǒng)提供基本內(nèi)容介紹。
機房空調(diào)為了維持服務(wù)器設(shè)備正常運行的溫度,必然要增加制冷功率,這會消耗更多能耗用于制冷。若熱點不能及時被消除,高溫還會引起服務(wù)器宕機,甚至造成芯片的物理損壞。因此獲取機房內(nèi)部溫度分布,監(jiān)測、識別熱點區(qū)域有助于降低機房的能耗。紅外熱像儀可獲取物體表面二維溫度分布,能夠間接反映服務(wù)器的運行狀態(tài),具備直觀、快速、非接觸、精度高等優(yōu)點。Mohd等人列舉了熱成像技術(shù)在診斷電氣設(shè)備上的各種應(yīng)用[2],其中包括了各類熱異常及相應(yīng)的測量方案。Amin等人將機器學(xué)習(xí)技術(shù)應(yīng)用在引擎散熱器的紅外診斷上[3]。
本文提出的基于熱成像的熱點成因診斷方法通過采集服務(wù)器出風(fēng)口的紅外圖像,從中發(fā)現(xiàn)熱點后,提取熱點溫度分布特征,最后利用機器學(xué)習(xí)識別熱點的成因。所用的機器學(xué)習(xí)方法主要包括支持向量機(SVM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[4]。SVM是一種有監(jiān)督機器學(xué)習(xí)算法,在小樣本、非線性分類問題上極具優(yōu)勢[5],但是需要人工提取數(shù)據(jù)特征向量。特征向量的選取將直接影響分類的準(zhǔn)確率,因此需要尋找并篩選出對服務(wù)器運行狀態(tài)敏感的溫度分布特征。CNN是一類由卷積運算代替?zhèn)鹘y(tǒng)矩陣乘法運算的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的代表算法之一[6]。
在層數(shù)足夠多后,可以獲取足夠豐富的特征。CNN常用于圖像的數(shù)據(jù)處理,并衍生出多種模型。例如,2012年Hiton等人提出的AlexNet[7],2013年由Girshick等人提出的RegionCNN[8]和2015年He等人提出的ResNet[9],在目標(biāo)檢測領(lǐng)域取得了顯著進步。一般情況下,如果有足夠多的訓(xùn)練樣本,隨著CNN模型層數(shù)的增加,模型的學(xué)習(xí)能力會得到提升。
然而,在機房的實際運行中,被監(jiān)測熱點主要由偶發(fā)事件產(chǎn)生,在有限時間內(nèi)很難收集足夠多的熱點圖像。因此,訓(xùn)練集的各類別樣本數(shù)量較少,且不均衡。然而,分類器在面對不同類別訓(xùn)練樣本數(shù)不均衡的情況下,分類性能會顯著下降[10]。雖然數(shù)據(jù)增強技術(shù)(例如平移、剪切、旋轉(zhuǎn)等)能夠在一定程度上提升這種情況下的準(zhǔn)確率,但是這些數(shù)據(jù)增強方法產(chǎn)生的數(shù)據(jù)相關(guān)性較大,不能從根本上解決問題[11]。
對抗生成網(wǎng)絡(luò)(GAN)是一種無監(jiān)督類型的生成模型,在2014年由Goodfellow提出[12]。GAN模型由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)盡可能合成趨近真實樣本數(shù)據(jù)分布的偽樣本,判別網(wǎng)絡(luò)盡力去分辨真實樣本和偽樣本,通過零和博弈(Zero-sumGame)的對抗過程,最終達到納什均衡(NashEquilibrium),在對抗過程中使得生成網(wǎng)絡(luò)獲得趨近真實數(shù)據(jù)分布的能力。零和博弈的公式如下:minGmaxDV(D,G)=Ex~Pdata[logD(x)]+Ez~pz(z)[log(1-D(G(z)))]
其中:D代表判別映射函數(shù),G代表生成映射函數(shù),Pdata代表真實樣本數(shù)據(jù)的分布,Z代表噪聲(即輸入數(shù)據(jù)),PZ代表噪聲分布。通過不斷迭代學(xué)習(xí),生成網(wǎng)絡(luò)可根據(jù)真實數(shù)據(jù)樣本分布特征合成與其相近的偽樣本。因此,GAN模型可以生成非相關(guān)的樣本數(shù)據(jù),且具有更強的解釋性。原始的GAN存在著訓(xùn)練困難、生成器和判別器的loss無法指示訓(xùn)練進程、生成樣本缺乏多樣性等問題。很多學(xué)者都在嘗試解決這些問題。
其中,WassersteinGAN(WGAN)的結(jié)果較為理想[13]。WGAN修改了原始GAN的實現(xiàn)流程,如在判別器最后一層去掉了sigmoid,生成器和判別器的loss不取log,每次更新判別器的參數(shù)之后把它們的絕對值截斷到不超過一個固定常數(shù)c等。WGAN徹底解決GAN訓(xùn)練不穩(wěn)定的問題,基本解決了模型崩潰問題,確保了生成樣本的多樣性。Chen等人提出的InfoGAN模型,不僅能夠很好地學(xué)習(xí)數(shù)據(jù)之間的類型差別,也能夠很好地學(xué)習(xí)到數(shù)據(jù)本身的一些易于區(qū)分的特點,而且生成模型對這些特點具有很好的泛化能力[14]。
Alec等人提出的DCGAN也是對GAN較成功的改進,其改進主要是在網(wǎng)絡(luò)結(jié)構(gòu)上。DC-GAN極大的提升了GAN訓(xùn)練的穩(wěn)定性以及生成樣本質(zhì)量[15]。本文給出了與熱點成因相關(guān)的特征向量,介紹了利用SVM或AlexNet識別熱點成因的方法,并通過實驗對比分析了有無DCGAN增強訓(xùn)練樣本集的診斷性能。
1熱點成因診斷方法
熱點成因診斷的基本流程,是通過熱像儀采集服務(wù)器出風(fēng)口一側(cè)的紅外圖像,經(jīng)過圖像標(biāo)準(zhǔn)化、熱點提取[16]、特征提取及機器學(xué)習(xí)等步驟,識別服務(wù)器所處工作狀態(tài),如CPU負荷、各處風(fēng)扇狀態(tài)、空氣流通情況等。為后續(xù)消除熱點操作提供決策支持。針對特征提取及機器學(xué)習(xí)過程,本文使用了兩種方法,并通過實驗對比了各自的性能。
1.1基于SVM的診斷方法
采用SVM作為分類器模型時,需要首先對紅外圖像中的熱點區(qū)域的數(shù)據(jù)進行特征提取。根據(jù)每種特征對熱點成因診斷準(zhǔn)確率的貢獻,利用特征選擇算法,從數(shù)據(jù)統(tǒng)計、圖像紋理、形態(tài)學(xué)三方面,篩選出了紅外圖像中熱點區(qū)域的有效特征,可用于熱點成因診斷。包括灰度概率密度、灰度均值、灰度方差、統(tǒng)計直方圖概率均值、熵、峰態(tài)、歪斜度等特征。其中,h和w分別表示圖像的長和寬,N表示像素數(shù)量,ni表示灰度值為i的像素個數(shù),I為紅外灰度圖像。紋理特征包括Tamura特征和LBP_GLCM特征[16]。其中,粗糙度中Sbest(i,j)表示圖像(i,j)位置的像素的能得到最大領(lǐng)域均值差值的窗大小;對比度中μ4為圖像灰度的四階矩;方向度中HD表示方向梯度直方圖,k為直方圖峰值,np為直方圖所有峰值,Wk表示該峰值所包含的區(qū)間,Φk表示波峰的中心位置;線性度中PDd是方向共生矩陣,n為PDd的大小;規(guī)則度中r表示規(guī)范化因子,Scrs、Scon、Sdir、Slin分別表示粗糙度、對比度、方向度和線性度的標(biāo)準(zhǔn)差。
LBP_GLCM紋理特征提取是通過使用局部二值化(LBP,LocalBinaryPatterns)特征描述算子計算得到LBP模式下的灰度子圖,然后基于LBP子圖計算灰度共生矩陣(GLCM,Gray-LevelCo-OccurrenceMatrix)特征。其中Hl(i,j)表示坐標(biāo)(i,j)處的灰度概率密度,(μx,μy)和(σx,σy)分別表示水平方向和豎直方向的像素均值和標(biāo)準(zhǔn)差。形態(tài)學(xué)的有效特征包括:熱點區(qū)域占服務(wù)器的面積比、服務(wù)器溫度重心位置、溫度最大值區(qū)域的重心的橫坐標(biāo),溫度最大值的面積比例、熱點區(qū)域的周長、歐拉數(shù)。
2實驗結(jié)果與分析
2.1紅外圖像獲取及預(yù)處理
實驗在大連理工大學(xué)的網(wǎng)絡(luò)與信息化中心的機房進行。通過控制DELL720服務(wù)器的軟硬件工作狀態(tài),以及對周圍環(huán)境的設(shè)置,模擬了5種可產(chǎn)生熱點的場景,分別是CPU長時間60%負荷、CPU長時間100%負荷、主風(fēng)扇損壞、CPU風(fēng)扇損壞、服務(wù)器進氣口處空氣流通不暢。出現(xiàn)熱點后,利用FLIRE8手持熱像儀采集服務(wù)器出風(fēng)口一側(cè)的紅外圖像。實驗共采集5類1350張紅外圖像。考慮到拍攝角度會引起溫度分布發(fā)生形變,首先提取服務(wù)器在圖像的區(qū)域,然后利用透視變換得到具有標(biāo)準(zhǔn)長寬比的服務(wù)器溫度分布。利用同態(tài)濾波增強算法和一維最大熵分割算法得到服務(wù)器熱點區(qū)域的溫度分布。
2.2基于DCGAN的數(shù)據(jù)集增強對比實驗
診斷過程分別使用了SVM和AlexNet分類器。SVM使用統(tǒng)計特征、紋理特征、形態(tài)學(xué)特征作為分類器的輸入特征集;AlexNet采用卷積核自動提取圖像特征。采用DCGAN作為生成器合成樣本時,模型采用Py-torch按照圖2、3的結(jié)構(gòu)進行搭建。模型的輸入為1×100的高斯噪聲向量,設(shè)置模型的epoch為200,batchsize為12。將1350張真實熱點圖像隨機劃分為訓(xùn)練集(900張)和測試集(450張),分別記為集合SR0和SR1。將SR0輸入至DCGAN進行圖像生成訓(xùn)練,每種類別下生成496張圖像,總計生成2480張合成熱點圖像,記為集合SD。
通過對比實驗一和實驗三的結(jié)果可以發(fā)現(xiàn),SVM和AlexNet使用真實數(shù)據(jù)集,即在小樣本數(shù)據(jù)集,訓(xùn)練得到的模型,在診斷準(zhǔn)確率方面沒有顯著的差異,均能達到90%左右。SVM能夠達到這一效果的前提是繁雜的特征選擇工作;AlexNet能夠自動地提取樣本有效特征。
通過對比實驗二與實驗三的結(jié)果可以發(fā)現(xiàn),利用DCGAN增強訓(xùn)練數(shù)據(jù)集后再訓(xùn)練這兩種模型,SVM的訓(xùn)練集準(zhǔn)確率提升到95.01%,但是測試集準(zhǔn)確率相較之前下降了2.22%;而AlexNet的訓(xùn)練集和測試診斷集準(zhǔn)確率均有所提升,其中測試集準(zhǔn)確率比實驗三提升了5.11%。通過實驗結(jié)果可以看出,使用DCGAN增強訓(xùn)練數(shù)據(jù)集的策略不是對任何分類器模型都有效。DCGAN會使SVM出現(xiàn)過擬合的問題,致使診斷性能下降;使AlexNet顯著提升診斷性能。因此,針對本文提出的基于熱成像的熱點成因診斷問題,利用DCGAN增強訓(xùn)練集合,并選擇AlexNet作為分類器模型,可以得到更優(yōu)的診斷性能。
3結(jié)論
本文研究了基于熱成像的機房熱點的成因診斷方法。針對服務(wù)器上熱點的溫度分布,在計算出特征集合后,利用SVM可以對熱點成因進行識別。本文給出了經(jīng)篩選的與熱點成因關(guān)聯(lián)的特征集合。利用卷積神經(jīng)網(wǎng)絡(luò),如Alex-Net,自動提取分布特征并識別也可以實現(xiàn)熱點成因的診斷。針對機房中無法在短時間內(nèi)收集足夠多的熱點圖像用于訓(xùn)練,本文提出利用對抗神經(jīng)網(wǎng)絡(luò),如DCGAN,合成出更多的熱點溫度分布圖,用于增強訓(xùn)練樣本集。
通過4組實驗對比了SVM和AlexNet在有或無DC-GAN增強訓(xùn)練樣本的情況下對熱點成因診斷的準(zhǔn)確率。從實驗結(jié)果發(fā)現(xiàn),DCGAN可以提升AlexNet的診斷性能,而對SVM無效。由此,本文選擇AlexNet+DCGAN組合作為熱點成因的診斷方法。該組合構(gòu)建的模型優(yōu)勢主要有兩點:一是由于服務(wù)器紅外圖像信噪比低,圖像有效特征較難準(zhǔn)確提取,而通過卷積核自動提取特征能夠有效簡化特征選擇的難度;二是借助DCGAN擴展原始數(shù)據(jù)集,能夠?qū)lexNet分類模型的性能進一步提升,能夠很好地應(yīng)對工程實踐中樣本數(shù)量較少的情況。
參考文獻:
[1]ZhuK,ZhengM,WangB,etal.Experimentalstudyofenergysavingperformancesinchipcoolingbyusingheatsinkwithem-beddedheatpipe[J].EnergyProcedia,2017,105(5):5160-5165.
[2]JadinMS,TaibS.Recentprogressindiagnosingthereliabilityofelectricalequipmentbyusinginfraredthermography[J].In-fraredPhysics&Technology,2012,55(4):236-245.
[3]Taheri-GaravandA,AhmadiH,OmidM,etal.Anintelligentapproachforcoolingradiatorfaultdiagnosisbasedoninfraredthermalimageprocessingtechnique[J].AppliedThermalEngi-neering.2015,87(8):434-443.
[4]LeC,BengioYY,HintonG.Deeplearning[J].Nature,2015,521(7553):436-444.
[5]CortesC,VapnikV.Support-vectornetworks[J].MachineLearning,1995,20(3):273-297.
[6]LeCunY,BengioY.Convolutionalnetworksforimages,speech,andtime-series[M].ThehandbookofbrainTheoryandNeuralNetworks,MITPress,1995.
作者:劉航1,2,鮑晨晨1,2,謝婷1,2,高山3