基于雙層強化學習方法的多能園區實時經濟調度

時間：分類：電子論文次數：

摘要：綜合能源系統(IES)中復雜的能量耦合關系，可再生能源出力和負荷等因素的不確定性，給IES的實時調度帶來了諸多挑戰。針對此，本文提出了一種雙層強化學習(RL)模型以實現IES的實時經濟調度。該模型上層是一個RL智能體，下層為優化求解器。本文將RL和傳統

　　摘要：綜合能源系統(IES)中復雜的能量耦合關系，可再生能源出力和負荷等因素的不確定性，給IES的實時調度帶來了諸多挑戰。針對此，本文提出了一種雙層強化學習(RL)模型以實現IES的實時經濟調度。該模型上層是一個RL智能體，下層為優化求解器。本文將RL和傳統優化方法進行了結合，可簡化RL的動作和獎勵設計，提高其訓練速度和收斂性能，解決動作具有復雜約束的RL問題。本文模型僅根據IES的即時信息進行決策，不依賴于對負荷、可再生能源出力的準確預測。多能園區經濟調度中的成功應用表明雙層模型可以得到接近于擁有完美預測信息的動態規劃的性能，同時求解速度大幅提高，可以實現IES的實時調度。

　　關鍵詞：動態規劃，經濟調度，強化學習，綜合能源系統

電網技術

　　0引言

　　綜合能源系統[1](integratedenergysystem,IES)集成了冷、熱、電、氣等多種能源形式，可以實現多種能源形式的相互轉化與能量耦合互補利用[2]。IES經濟調度面臨兩大挑戰，挑戰之一來自于可再生能源出力和負荷需求的不確定性。由于天氣、人類行為等因素的影響，風能、太陽能等可再生能源的生產和負荷需求具有強烈不確定性，給IES的調度增添了難度。另一個挑戰是IES中緊密復雜的能量耦合關系[3]。能量耦合其一是冷熱氣電等各種能源形式之間的轉換所引起的能源形式耦合;能量耦合其二是儲能系統的存在導致的時間軸上的能量存儲消耗耦合;此兩種能量耦合關系使IES的經濟調度更加復雜。已有研究中，IES經濟調度多為日前調度的離線優化問題[4]-[8]，隨機規劃[9][10]和魯棒優化[11][12]等被用來處理系統中可再生能源、負荷及實時電價波動[13]導致的不確定性。

　　此類傳統的處理不確定的優化方法依賴于對日前可再生能源出力、負荷等數據的預測，通過對不確定性建模將問題轉化為確定性問題求解，可以得到較好的優化調度方案。本文考慮另一類經濟調度的方法：學習驅動的優化方法。強化學習(reinforcementlearning,RL)/深度強化學習(deepRL,DRL)等方法[14]自AlphaGo成功[15]后廣受關注。RL利用交互試錯的方式學習，不依賴于對日前可再生能源出力、負荷等數據的精準預測[16]，可以采用無模型算法處理系統中難以準確建模的因素，實時決策性能較好，可用于IES在線實時調度。

　　已有研究將RL應用于微電網能量管理[17]-[22]。RL被用于微電網內部能量管理[17]-[19]，進行儲能設備的優化調度[21];被用于微電網群的能量管理，以減小調度成本[20]、提高供電和運行可靠性[22]。上述研究展示了基于RL的優化調度的可行性，也顯示了其弱點。首先，復雜的設備運行約束會急劇增加RL的動作空間復雜度，現有研究[17]-[22]將約束建模為獎勵函數中的懲罰，導致其獎勵函數異常復雜;其次，RL的應用易遭受維數災害[23]-[25]，訓練多需要幾十小時[20]甚至更長，策略學習及更新代價較大，難以在以5分鐘為時間尺度的在線調度環境下，完成對實時數據的策略訓練更新。

　　為簡化RL獎勵設計、加速其訓練收斂，滿足IES實時調度的時間尺度要求，本文提出一個雙層RL模型。所提模型實現了RL與傳統優化方法的結合，上層是用于序列決策的RL智能體，負責全局優化;下層是混合整數線性規劃(mixed-integerlinearprogramming,MILP)求解器，用于單次尋優。所提雙層模型用于一個多能園區系統的經濟調度，并與動態規劃(dynamicprogramming,DP)方法進行了比較。結果表明，所提出的雙層模型在只利用有限即時信息的情況下，可以達到接近擁有完美預測信息的DP方法的性能，同時計算時間大大縮短。第二節進行問題建模，第三節介紹了雙層RL模型，第四節為實驗部分，第五節對本文進行總結。

　　1IES經濟調度問題

　　研究一個多能園區系統。在此多能園區系統中，電力和天然氣可以從外部購買;熱、氣、電等能源形式可以利用熱電轉換設備相互轉換以滿足熱、電負荷需求;微型燃氣輪機利用燃氣發電，遵循“以熱定電”的原則;可再生能源和儲能系統用于提高能源利用效率;本系統中的可再生能源為風能，儲能系統為電池。

　　2雙層RL模型

　　強化學習中，智能體通過和環境交互試錯從而選擇動作序列以最大化累計收益。在時刻t，智能體觀察環境狀態ts，執行動作ta作用于環境，并接收到一個獎勵信號tr反應動作好壞，之后環境進入下一狀態t1s,一條經驗1,,,ttttsars被記錄下并放進經驗池中供RL訓練學習使用。IES經濟調度問題是一個具有復雜約束的離散連續混合動作空間問題，針對該問題的特點，本文提出一種雙層RL模型，實現模型高效學習和IES實時調控。

　　2.1雙層RL模型框架

　　IES經濟調度的動作空間包含兩類動作。電池的動作會影響未來的能量狀態，稱此類動作為遠視動作。其他可控裝置的動作不影響系統未來能量狀態，只影響即時系統運行成本，稱此類為短視動作。針對此，上層RL智能體負責學習策略選擇合適遠視動作。下層優化解算器接收上層的遠視動作，使用優化方法求出最佳短視動作返回至上層。每一時刻t，下層實現了對短視動作的最優搜索，避免了短視動作空間的無效探索。

　　3實驗驗證

　　3.1算例配置

　　燃氣價格設為定值3.45gcRMB/m3。一個三層神經網絡被用于近似Q值函數，三個隱藏層的大小分別為400、300、200，激活函數為tanh函數，更詳細的模型結構參數見文[24]。本文經濟調度是一個階段性任務，具有24小時的有限時間范圍，折扣系數設為1，即無折扣，懲罰系數設置為一個很大的數字1000。

　　3.2單場景測試

　　首先，在單個確定性場景下對雙層模型進行測試。確定性場景即假定擁有實時電價、燃氣價格、熱負荷、電負荷和新能源出力的完全準確的預測信息。分別采取以下兩種策略作為對照：(1)設園區中不含電池儲能，僅利用下層MILP求解器進行IES調度求解;(2)利用DP，在預測信息準確已知情況下進行搜索。DP的狀態變量為SOC，離散維數為100，電池動作同DRL的動作變量定義，搜索時間步數為24，整個搜索空間為=100524=12000。理論上的系統運行成本應當滿足DP<雙層DRL模型<無儲能。

　　3.3多場景測試為測試所提模型應對系統不確定性的能力，考慮IES中三種不確定性的來源：電、熱負荷和新能源出力。不確定性的存在導致進行IES調度時會遇到海量不同場景,需要測試雙層RL模型在多個場景下的性能。采用的風電出力基準曲線為單峰型，抽樣概率分布為伽馬分布;電負荷和熱負荷的基準曲線均為雙峰型，抽樣概率分布為正態分布。顯示了風電出力、電、熱負荷在各自的基準曲線上根據其概率分布抽樣得到的100個場景。在此100個場景下進行測試以驗證雙層RL模型應對系統不確定性的能力。

　　電力論文投稿刊物：電力系統自動化(半月刊)是由國網電力科學研究院主辦的全國性專業技術期刊，每月10日、25日出版，國內外公開發行。以“立足行業，鼓勵創新，面向應用，促進電力工業科技進步”為辦刊宗旨，主要面向電力行業從事科研、設計、運行、試驗、制造、管理與營銷的專業技術人員以及相關專業的大專院校師生、電力產品用戶等，既具有學術性和前瞻性，又注重實用性和導向性，同時也重視和鼓勵來自科研、生產第一線的經驗、改進和革新的技術交流。

　　4結論

　　為了應對IES中的不確定性，處理復雜的能量耦合關系，本文介紹了一種用于IES實時經濟調度的雙層RL模型框架。模型上層應用DQN進行電池充放電出力行為學習，其他設備動作由下層的MILP求解器求解結果提供，模型可以簡化RL獎勵函數設計，提升RL訓練速度。算例分析表明，雙層模型的計算結果接近DP給出的近似最優解。此外，模型結合了數據驅動的RL方法和傳統優化算法，具有更高的求解效率，可以實現IES的實時經濟調度，且不依賴于精確的預測及物理模型。

　　參考文獻

　　[1]劉振亞.全球能源互聯網跨國跨洲互聯研究及展望[J].中國電機工程學報，2016，36(19)：5103-5110+5391.LiuZhenya.ResearchofGlobalCleanEnergyResourceandPowerGridInterconnection[J].ProceedingsoftheCSEE，2016，36(19)：5103-5110+5391(inChinese).

　　[2]孫宏斌，郭慶來，潘昭光.能源互聯網:理念、架構與前沿展望[J].電力系統自動化，2015，39(19)：1-8.SunHongbin,GuoQinglai,PanZhaoguang.EnergyInternet:Concept,ArchitectureandFrontierOutlook[J].AutomationofElectricPowerSystems，2015，39(19)：1-8(inChinese).

　　[3]曾鳴,楊雍琦,劉敦楠,曾博,歐陽邵杰,林海英,韓旭.能源互聯網“源–網–荷–儲”協調優化運營模式及關鍵技術[J].電網技術,2016,40(01):114-124.ZengMing,YangYongqi,LiuDunnan,eta1.“Generation-Grid-Load-Storage”CoordinativeOptimalOperationModeofEnergyInternetandKeyTechnologies[J].PowerSystemTechnology，2016，40(01)：114-124(inChinese).

　　[4]白牧可,王越,唐巍,吳聰,張博.基于區間線性規劃的區域綜合能源系統日前優化調度[J].電網技術,2017,41(12):3963-3970.BaiMuke,WangYue,TangWei,etal.Day-AheadOptimalDispatchingofRegionalIntegratedEnergySystemBasedonIntervalLinearProgramming[J].PowerSystemTechnology，2017，41(12)：3963-3970(inChinese).

　　作者：聶歡歡，張家琦，陳穎，肖譚南

上一篇：面向6G的霧無線接入網內生安全數據共享機制研究下一篇：數字技術、員工參與與企業創新績效

相關文章推薦