第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學術咨詢

讓期刊論文更省時、省事、省心

強化學習對在線訂單配送時隙運能分配的影響

時間:2018年01月15日 分類:電子論文 次數:

目前在線訂單存在配送效率低、時空運輸分配不均勻及顧客滿意度不高等不足,為此需要在價格和交付時期對消費者選擇行為影響展開分析。不斷采用強化學習結合運能分配特點對訂單群進行分配。結果顯示采用強化學習可以使每個時隙每輛車的運輸分配均勻,分配方法

  目前在線訂單存在配送效率低、時空運輸分配不均勻及顧客滿意度不高等不足,為此需要在價格和交付時期對消費者選擇行為影響展開分析。不斷采用強化學習結合運能分配特點對訂單群進行分配。結果顯示采用強化學習可以使每個時隙每輛車的運輸分配均勻,分配方法應符合消費者的行為習慣,消費者對時隙價格偏好程度越高商家收益就越低,最后可知采用強化學習解決時隙運能分配問題的必然性和持久性。

  關鍵詞: 時隙, 運能配置, Logit模型,強化學習

  電子商務的興起給傳統零售業帶來了新的發展方向,也給訂單配送提出了更高的要求。除訂單價格影響消費者的選擇行為外,訂單的交付期也成為消費者考慮的重要因素。時隙(time slot)在電子商務中指網絡零售商提供給消費者選擇的訂單送達的交貨時間窗[1],如亞馬遜、京東商城、當當網都向消費者提供了配送時隙選項,其中京東的“極速達”保證在服務時間(3 h)內將貨物送至客戶手上,但收費往往是常規配送的幾倍。通過給消費者提供訂單配送時隙表安排配送作業,一方面有利于消費者根據自身情況安排接收,提高客戶滿意度,另一方面有利于協調物流服務商的作業安排,合理規劃車輛運能和配送時間線路,提升競爭能力。雖然電商的差異化交付期承諾可以滿足消費者需求,但在承諾交付期時需根據自身車輛運能情況進行權衡。

  CAMPBELL等[2]研究發現時隙價格會影響消費者的選擇行為和商家的最終收益,采用價格激勵方法可調控消費者的選擇行為。在現實配送中,存在預先知道配送地點但對配送時間不明的問題,對此SROUR等[3]提出了混合整數規劃模型,與傳統的配送方式對比,該模型很大程度上提高了配送效率。陳淮莉等[4]從消費者選擇模型出發建立了收益模型,通過求解模型得出區域和時隙寬度對消費者時隙選擇行為的影響。李科峰等[5]研究了基于時隙配送的訂單履約方法,并從時隙配送的角度建立了優化模型。元鵬鵬等[6]考慮時隙替代的客戶選擇行為,并結合交付期敏感度和時隙運能等因素建立了規劃模型,對比分析了各種因素對收益的影響。

  在實際的訂單時隙管理中,訂單接收和配送不僅需要考慮時隙定價,還需要結合時隙運能要求進行綜合分析。強化學習(Reinforcement Learning,RL)是基于馬爾科夫過程理論的隨機動態系統的最優決策過程,是解決訂單配置問題的一種較好的求解方法。郝鵑等[7]基于收益管理的思想研究了不確定環境下按訂單生產(Made To Order, MTO)的企業的訂單接收問題,把訂單類型、訂單價格和訂單交付期作為系統狀態劃分標準,提出了解決訂單接收問題的RL算法,并證明了算法的可行性。趙紹航[8]采用RL中的SMART(SemiMarkov Average Reward Technique)確定供應鏈庫存中貨物訂購的必要性及訂購的數量。SMART能夠求解狀態集和動作集都較大的RL問題。

  電商訂單配置具有動態性。劉成麗[9]在進行突發事件的動態管理時,結合博弈論和RL的思想,從突發事件的緊急程度、事件隊列等方面對動態任務分配進行建模,決定處理突發事件的先后順序使平均任務效益最大。王金田[10]提出基于模擬退火的Q學習比普通的Q學習更適合解決電商的動態定價問題,從單銷售商定價到雙銷售商定價進行訂單動態管理。黃云霞[11]在解決信號接入問題時,運用改進的Q學習分析了用戶接入共享空閑信道和獨占空閑信道的方式,研究了雙信道內無線網絡動態頻譜分配,提出了兩種接入方式下的協作ε貪心算法,顯著提高了信號接入效率。MICHAEL[12]運用RL的方法解決網絡信息配置過程中的定價和能力配置問題,并與遺傳算法進行對比。

  綜上,已有的訂單時隙研究主要集中在時隙定價上,是通過靜態定價模型引導消費者的時隙選擇行為,忽略了時隙的運能限制和訂單處理過程的動態性。RL的求解方式能夠較好地體現訂單動態性的特征,因此本文基于電商訂單時隙配送的特點,并考慮消費者選擇時隙的行為和時隙運能的限制,通過RL解決時隙運能的動態分配問題,期望得到最佳的分配策略,為電商運能分配決策提供參考。

  1 基于RL的訂單處理過程

  在線訂單處理流程主要分為訂單提交、訂單分配和訂單配送等3個過程。以京東商城為例:消費者挑選完商品后填寫配送地址,選擇配送時隙,提交訂單并付款;京東配送中心根據配送地址和時隙將訂單分配給特定的運輸車輛,然后進行商品分揀、出庫,并裝入特定車輛進行配送。在線訂單處理流程是一個動態決策過程,當時隙運能固定時,當前訂單分配結果直接影響到下一訂單的分配,符合Markov決策過程。RL作為Markov決策過程的解決方案,能夠與外界環境發生互動,并能根據訂單特性不斷選擇較好的策略,強化此策略的動作選擇。

  1.1 參數定義

  消費者選擇概率是電商預測消費者行為的方法,通過下單時間和客戶對價格、交付期的偏好,預測消費者選擇特定時隙的概率。本文把消費者選擇概率默認為系統預測消費者選擇訂單配送時隙的概率。

  1.3 RL

  從RL算法的角度看,每個隨機到達的訂單都使系統進入一個新狀態。在每個狀態下,系統對當前訂單有兩種動作選擇,即接收訂單或放棄訂單。然而,由于時隙的特殊性,系統還需要分配訂單配送時隙和配送車輛,然后進入下一狀態,對下一訂單再選擇動作,即分配時隙和車輛。由此,定義RL中的狀態集、動作集、即時收益函數和值函數的更新規則。

  當前訂單的狀態值Q(sq,atm)=訂單配送計劃表×收益,狀態集系統根據當前訂單的動作選擇再次更新配送計劃表和已經獲得的收益。

  1.4 訂單處理過程

  綜上,基于RL的訂單時隙運能配置算法主要過程如下:輸入運能限制表和即時收益矩陣;初始化動作值函數和計劃表;以RL訓練次數的設定值為循環迭代數處理訂單。每個訂單的處理過程(即動作選擇過程)分為3步:第1步,根據交付期和訂單價格,基于Logit模型在動作集中選擇動作,得到收益rqt。如果該訂單被配置時隙t和車輛m后未超過車輛m運能配置的最大值,則選擇動作atm;否則,系統自動選擇同時隙的其他車輛作為該訂單的配置車輛;若選擇此動作后,超過時隙運能最大限制,則系統放棄訂單。第2步,由于訂單配置過程中的狀態轉移概率為1,所以下一狀態即為訂單列表的下一訂單,根據式(1)計算Q(sq,atm)。第3步,令sq←sq+1,計算下一訂單。直到所有訂單處理完畢。

  按照上述算法流程,系統根據訂單q的價格、配送時隙、已有計劃表、運能限制等選擇訂單q的動作。動作結束后,系統更新計劃表。計劃表更新后處理下一訂單,根據訂單q+1的價格、配送時隙、更新后的計劃表、運能限制等選擇訂單q+1的動作,再次更新計劃表。以此循環不斷更新計劃表,直到處理完所有訂單得到最終計劃表。

  1.5 探索空間

  在RL中,通常用ε貪心策略解決探索未知空間和現有知識利用問題,即以概率ε隨機選擇行動,以概率1-ε選擇最優的行動。一方面鑒于電商消費者選擇的特性,選擇Logit模型作為選擇最優動作的方法,這是因為與貪心策略相比,Logit模型能更好地描述消費者的時隙選擇行為,不以回報值最大作為探索未知空間和利用現有知識的依據,同時,既考慮選擇概率大的配送時隙也考慮選擇概率小的配送時隙,甚至考慮放棄時隙選擇的可能性;另一方面結合Logit模型,設置探索空間閾值,在數據量大時能夠更快地得出結果,保證結果收斂且收益值較高。

  2 算 例

  假設配送時間為8:00—20:00,時隙長度為2 h,共有4輛配送車輛。車輛和時隙的初始運能分配見表1。每輛車每個時隙的運能限制都為50個單位,如初始運能分配計劃中車輛1在8:00—10:00內需要完成40個訂單的配送,且車輛1在此時隙最多能承擔50個單位貨物的配送。假設在4:00—8:00內按照泊松分布到達300個訂單,對這部分訂單進行運能配置。采用MATLAB 2013a進行算例模擬。設置RL訓練次數為500,α=0。99,γ=0。98,Uq0=10,β1=0。1,β2=0。1,服從泊松分布的λ=3。

  2.1 運能分配分析

  在訂單分配過程中,電商需要權衡利潤與成本的關系。對臨時到達的訂單商家會選擇把該訂單加入已有的配送任務計劃中,或當訂單規模達到一定程度后,考慮增加新的配送任務,充分利用已有的計劃運能或增加新的運能,使配送成本不至于過高,也使每輛車每時隙的任務分配均衡。經過模擬運行,得到各時隙的訂單接收情況,表2是運行結果,300個訂單中放棄24個訂單,剩余的276個訂單得到運能分配。

  每時隙每輛車并不都是有初始任務分配的,如對于時隙14:00—16:00,車輛1是沒有配送任務的,車輛運能浪費。通過RL,對臨時到達的訂單進行分配后車輛和時隙的運能達到了均衡,說明RL用于解決運能分配問題具有可行性。從結果可知,大多數訂單選擇時隙8:00—10:00,此時隙的運能到達限制,得到了充分利用,時隙10:00—12:00的訂單量次于時隙8:00—10:00的訂單量,這符合消費者的實際需求。

  2.2 價格偏好對總收益的影響

  客戶對價格的偏好程度會影響商家的總收益。圖1是基于RL進行運能分配時β2對訂單總收益的影響。從圖1可明顯看出,β2值越大,總收益越小。這說明,β2值越大消費者對價格的偏好程度越高。此類消費者為價格敏感型消費者,表現為某時隙價格越高,消費者對此時隙的選擇可能性就越小。

  高價格訂單的消費者對交付期敏感,對時隙價格不敏感,而低價格訂單的消費者則相反。對此,考察訂單等級與消費者放棄訂單次數的關系。按照訂單價格細分訂單等級:A等級訂單的價格服從均勻分布[50,150],B等級訂單的價格服從均勻分布(150,250],C等級訂單的價格服從均勻分布(250,350]。對消費者放棄訂單次數進行模擬,訂單等級越高β2值越小。圖2是消費者放棄訂單次數頻數直方圖,放棄訂單次數在20到100之間,對頻數不超過10的數據未在圖中標示。

  從圖2的結果可知,受運能的限制,消費者放棄這3個等級訂單的次數較為穩定,大部分在[50,80)中。A等級訂單屬于低價格等級訂單,消費者放棄該類訂單的次數比其余兩類訂單的少;C等級訂單價格較高,消費者放棄該類訂單的次數較多。C等級訂單的消費者對時隙價格不敏感,其選擇行為主要是由時隙的交付期和運能決定的,A等級訂單消費者則相反。

  綜上,提出如下建議:對網絡零售商配送運能不足的問題,通過預測訂單量和時隙選擇行為進行運能規劃,提前租賃車輛填補運能,做到及時發貨、準時配送;通過時隙定價均衡時隙運能分配,降低物流人員的工作壓力;采用低價促銷、組合促銷等吸引消費者購物,增加邊際效益;提高信息技術水平,建設智能化倉庫,加快訂單處理速度。

  3 結束語

  根據消費者對網絡零售配送時隙的偏好,分析影響偏好的因素,建立Logit模型并作為強化學習(RL)動作挑選的策略,同時設置運能配置規則。通過算例分析發現:在B2C環境的訂單運能分配中采用RL方法能夠使每輛車每時隙的運能分配得到均衡,并且符合消費者對交付期的偏好;消費者對商品價格和時隙價格的偏好程度越高商家收益就越低,對整體價格偏低的訂單,建議商家通過接收更多此類訂單來增加邊際效益。算例分析得出的結果與市場經濟現象相符合,說明基于RL解決在線訂單配送時隙運能配置問題是科學和有效的。

  在今后的研究中,希望加入運輸成本因素,考慮運能外包或租用運輸車輛的情況;同時可根據消費者的訂單配送需求的緊急情況,對訂單進行分類處理,把運能優先分配給愿意額外多支付配送費用的加急訂單。

  參考文獻:

  [1]AGATZ N, CAMPBELL A, FLEISCHMANN M, et al。 Time slot management in attended home delivery[J]。 Transportation Science, 2011, 45(3): 435449。 DOI: 10。1287/trsc。1100。0346。

  [2]CAMPBELL A M, SAVELSBERGH M W P。 Decision support for consumer direct grocery initiatives[J]。 Transportation Science, 2005, 39(3): 313327。 DOI: 10。1287/trsc。1040。0105。

  [3]SROUR F J, AGATZ N, OPPEN J。 Strategies for handling temporal uncertainty in pickup and delivery problems with time windows[J/OL]。 Transportation Sciences, Articles in Advance: 117[20160514]。 http://dx。doi。org/10。1287/trsc。2015。0658。

  [4]陳淮莉, 馬娟娟。 區域和時隙寬度影響下網絡零售商配送時隙激勵定價[J]。 上海海事大學學報, 2015, 36(1): 3337。 DOI: 10。13340 /j。jsmu。2015。01。006。

  [5]李科峰, 陳淮莉, 孔德寬, 等。 網購環境下基于時隙配送的時效產品訂單履約方法[J]。 華中師范大學學報(自然科學版), 2015, 49(4): 557561。

  [6]元鵬鵬, 郝楊楊, 李恒。 客戶選擇網絡零售配送時隙動態規劃模型[J]。 遼寧工程技術大學學報(自然科學版), 2015, 34(11): 13161323。 DOI: 10。11956/j。issn。10080562。2015。11。020。

  [7]郝鵑, 余建軍, 周文慧。 基于平均強化學習的訂單生產方式企業訂單接受策略[J]。 計算機應用, 2013, 33(4): 976979。 DOI: 10。3724 /SP。J。1087。2013。00976。

  [8]趙紹航。 供應鏈聯合補充問題的強化學習算法[D]。 哈爾濱: 哈爾濱理工大學, 2015。

  推薦閱讀:試論中小企業電子商務的運營模式與路徑

  互聯網與信息技術的發展使社會生產和生活發生了根本性的變化,電子商務也逐漸流行起來,在這種形勢下,中小企業的發展也面臨著一定的限制。要想在激烈的市場競爭中穩定的發展,必須根據自身的發展情況選擇適當的運營模式和路徑。本文將探究中小企業電子商務的運營模式與路徑選擇。

  

相關文章推薦
主站蜘蛛池模板: 91精品免费观看 | 另类日韩 | 欧美αv日韩αv亚洲αv在线观看 | xxxxxx国产精品视频 | 国产乱码精品一区二区三区中 | 欧美日韩成人高清在线播放 | 日韩欧美一二三区 | 视频在线观看一区 | 成人合成mv福利视频网站 | 久久黄色网址 | 在线免费污视频 | 性欧美视频a毛片在线播放 性欧美视频在线观看 | 亚洲国产精品毛片∧v卡在线 | 99国产精品九九视频免费看 | 国产精品视频免费的 | 国产色综合一区二区三区 | 色综合天天综合中文网 | 在线欧美v日韩v国产精品v | 国产乱辈通伦影片在线播放亚洲 | 一区二区三区日韩精品 | 黄a毛片| 免费大片在线观看 | 精品成人免费自拍视频 | 久久精品国产丝袜 | www夜色 | 免费一级视频在线播放 | 日韩在线二区全免费 | 久久精品免视着国产成人 | 日韩精品亚洲专区在线影视 | 在线播放黄色网址 | 久久亚洲国产成人影院 | 久久91精品久久91综合 | 亚洲国产天堂久久综合226 | 一级片在线 | 在线播放亚洲美女视频网站 | 国产一在线精品一区在线观看 | 国产亚洲区 | 欧美日韩亚洲国内综合网香蕉 | 国产精品任我爽爆在线播放66 | 日韩一区二区三区四区区区 | 国产日本韩国不卡在线视频 |