時間:2021年09月27日 分類:科學技術論文 次數:
摘要:普通攝像設備拍攝的視頻幀速率有限,從而影響觀眾的特殊觀感體驗,提高視頻幀速率的后處理過程是必不可少的,視頻插幀就是其中關鍵技術之一。視頻插幀是指根據兩個連續視頻幀合成中間幀數據,在影視作品、體育比賽精彩視頻片段慢動作回放等方面有廣泛的應用;诠饬鞯囊曨l插幀方法能有效解決視頻中場景、目標的移動估計問題,但是其受制于光流估計的速度,無法很好地應用于實時視頻任務。本文提出一種新的光流預測模型,并將其用于視頻插幀任務中。首先對于輸入的兩張連續視頻幀數據進行多次信息無損的下采樣,獲得不同尺度的輸入數據;之后通過卷積神經網絡進行特征提取,并對提取的特征建立注意力掩碼,增強特征表達能力,根據該特征生成對應尺度的光流;最后使用融合網絡,將多尺度的光流信息聚合為統一的尺度作為最終輸出。本文方法能夠被端到端的優化訓練,并在大規模視頻插幀基準數據集上進行了訓練和驗證測試。結果表明該方法能夠獲得高質量的插幀效果并能夠達到實時的插幀速率,而且比其它先進方法更具優越性。
關鍵詞:視頻插幀;光流估計;端到端訓練;特征融合;注意力機制
1引言
隨著生活水平的提升,人們對于視頻的觀看質量要求越來越高。普通攝像設備拍攝的視頻幀速率有限,從而影響觀眾的特殊觀感體驗。因此,在視頻拍攝后對其進行適當的后處理,也成了視頻制作中十分重要的一環,視頻插幀就是其中關鍵技術。
短視頻論文范例: 我國政務短視頻的特征、功能及發展研究綜述
視頻插幀[1-9]目標是通過兩個連續的輸入視頻幀數據,用以合成其中間幀的數據。視頻插幀能夠有效地提高視頻播放的幀率,保證視頻中目標運動的連續性,減少用戶觀看時的卡頓感,提升用戶的觀看體驗,因此被廣泛應用于影視作品、體育比賽視頻精彩片段的慢動作回放[1]等方面。視頻插幀對幀率的改變也使得其能夠被用于視頻壓縮傳輸等任務中。此外,具有產生新圖像的特性也使得它能夠在視頻內容編輯、多視角視頻合成等方面發揮作用。
其中,光流估計的效果對插幀結果有著關鍵的影響。但是,視頻插幀任務中光流估計十分具有挑戰性,與一般的光流估計任務存在本質上的不同。一般的光流估計方法能夠獲得需要估計光流的兩張圖像,但是在視頻插幀任務中,需要被估計光流的圖像數據是不完整的,即其中一張圖像是要生成的目標圖像,因此只能利用可獲得的連續兩幅視頻幀圖像。
為解決視頻插幀任務中光流估計難的問題,人們提出了一系列方法。這些方法圍繞著如何更準確地預測光流信息和如何更充分利用光流信息兩方面進行研究,但是它們往往需要兩次光流估計,嚴重降低了深度神經網絡模型的運行效率,使得這些插幀方法很難應用于實時視頻分析任務中。針對如何利用光流信息進行實時視頻插幀的難點問題,本文遵循當前的視頻插幀框架,提出一種基于多尺度光流預測與融合的實時視頻插幀方法。
本文的方法由光流預測和中間幀合成兩部分組成,首先采用不損失信息的下采樣方法對圖像進行多規模的下采樣,獲得不同尺度的圖像數據;之后通過帶有注意力機制的特征提取網絡來提取視頻幀對的特征,并根據該特征得到預測光流信息。因為輸入圖像是多尺度的,所以獲得的光流信息也具有不同的尺度信息,本文采用了一個光流融合網絡將這些多尺度的光流信息進行融合得到最后的結果用于圖像合成。在大規模視頻插幀基準數據集上,對所提方法進行了訓練和測試,實驗結果表明本文的方法能夠實時地生成高質量的視頻插幀效果。同時將所提方法與當前的經典方法進行了實驗對比,比較結果展示本文方法的優越性。
2相關工作
視頻插幀任務,由于其廣泛的應用性,一直是計算機視覺與多媒體技術領域研究的熱點問題。傳統的視頻插幀方法往往都伴隨著視頻編碼策略的設計,目的也是為了優化傳輸的效率。而近年來,隨著深度學習的日益發展,深度神經網絡因其強大的特征提取能力,在諸多視覺任務上取得了很大突破。因此,現階段有一系列的方法期望通過深度學習技術來完成視頻插幀任務。
Liu等[1]受到自編碼器的啟發,設計了一種基于神經網絡編碼器解碼器的模型去學習體素流,從而合成插幀圖像。但是對不同尺度的體素間關系的忽略導致了其不能較好處理不同體素移動速度不一致的問題。Jian等提出了一種雙向光流估計方法,通過神經網絡梯度輸入圖像對之間的光流,再結合這種雙向光流,得到輸入圖像與待合成圖像的光流信息。但是,這種迭代估計的方法導致了光流估計的速度較慢,使得無法應用于實時視頻任務中。Bao等除了光流信息,還設計了一個深度估計網絡來促進光流估計的結果。這種多信息融合的特性使得其估計得到的光流結果更加精確,從而合成更加高質量的中間幀。
但是,引入了深度估計模型同樣導致了該方法計算量的增加,從而降低了方法的運行速度。除了深度信息,Bao等還提出了一個利用運動估計信息的視頻插幀方法,通過設計的運動估計和運動補償神經網絡,生成更具有魯棒性的視頻插幀結果,但是同樣降低了方法的運行速度。 還有一部分方法探究如何更好地進行圖像合成操作。
Niklaus等通過預訓練后的光流估計模型得到光流估計,并將光流信息與圖像的深度特征進行結合,一同送入到一個合成網絡中,得到最后的結果。除了基于光流的方法,還有一些方法使用深度神經網絡直接生成中間幀的結果。SepConv和dapConv是屬于此類的兩個典型方法,它們通過使用自適應卷積學習圖像對之間的移動變換和融合策略。但是沒有準確的移動指導信息,生成的結果缺乏了魯棒性。CAIN利用通道注意力來增強網絡學習能力,實現端到端的視頻插幀。
3多尺度光流預測與融合方法光流估計的效果對于視頻插幀的質量有著重大的影響,為了提升視頻插幀的性能,本文提出了一種多尺度光流預測與融合方法。整體框架如圖2所示,對于輸入的一對連續視頻幀,首先進行下采樣。不同階段的下采樣的尺度是不同的,圖像中使用來進行表示。在下采樣之后,通過一個簡單的卷積模塊獨立地提取兩張圖像特征,再將兩組特征沿通道維度進行拼接。拼接得到的結果送入光流預測網絡中,得到當前尺度圖像的光流估計結果。對于該結果,一方面被用于將圖像進行映射變換,從而送入下一階段的模型,另一方面,與下一階段預測的光流進行融合,得到更細化的光流結果。本節詳細介紹下采樣方法、提取與光流預測方法和多尺度光流融合。
3.1信息無損的下采樣方法
運動距離小的像素在小尺度的圖像中更易被忽略,而運動距離大的像素在小尺度的圖像中仍能被觀察到;谶@樣一種觀察,多尺度學習常被應用于視頻插幀任務中。圖像常被下采樣為不同的尺度,從而學習不同尺度下的光流信息。但是現階段方法,對于圖像的多尺度變化,通常采用的是圖像插值,導致了信息上的丟失。因此本文設計一種信息無損的多尺度下采樣方法。 基于插值的下采樣方法勢必會導致部分信息的丟失。而本文采用的下采樣方法是將空間信息壓縮到通道維度上,因此沒有信息的損失,同時,這些子圖在細節上的不同也使得網絡能夠學習更加魯棒的光流信息。
3.2基于注意力的特征提取與光流預測
對于3.2節中得到的輸入數據,本文先通過一個簡單的卷積神經網絡,對兩張圖像分別提取特征。該卷積神經網絡由兩層組成,每層都包含一個卷積層和PReLU[1層。之后將兩個圖像對應的特征沿通道維度進行拼接,得到光流預測模塊的輸入。
4實驗
4.1實驗環境設置
4.1.1訓練數據本文在Vimeo90KTriplet14數據集上進行模型的訓練和測試。Vimeo90KTriplet是專為視頻插幀任務構建的數據集,包含73,171個幀連續序列的數據集,所有圖像分辨率都是448×256。本文采用三幀中的第和第幀作為模型的輸入,而第幀作為模型的真值。在訓練階段,隨機從原圖中裁剪224×224大小的圖像作為輸入,同時帶用了隨機水平翻轉、隨機垂直翻轉、隨機通道打亂、隨機時序翻轉等數據增強方法。而在測試階段,保持圖像的原始大小,不做數據增強。此外,為了訓練模型對光流信息的預測的準確性,本文采用ListFlowNet[1預先在數據集上生成所有的光流信息,作為模型訓練時的監督信息。
4.1.2模型參數
對于光流估計模型,本文將階段數目設置為,每個階段的光流預測網絡中殘差模塊數目為,通道數分別是240,128和96。對于注意力模塊,本文統一將下采樣系數設置為16。本文主要是提出了一種光流預測模型,因此,直接采用RIFE方法中提出的上下文內容提取與融合網絡作為圖像合成模型。此外,圖中的映射變換,本文采用了在視頻插幀領域廣泛采用的“后向映射”方法,該方法具體細節可以參考RIFE。
4.2方法比較本文與當前視頻插幀方法進行了比較,比較的方法有:DVF[1]、Slomo[2]、DAIN、MEMC、SepConv[6]、CAIN、RIFE。其中,重新實現了RIFE,以達到公平比較的目的。表展示了比較的結果,可以看出,本文的方法在PSNR和SSIM兩個方面都能取得很好的效果。
4.3消融實驗為了證明方法中不同模塊的有效性,本文對其進行了消融實驗。實驗數據是基于640p的視頻幀計算得到的。本文將一個帶有層卷積模塊的殘差網絡作為BaseNet,然后依次添加下采樣模塊(DS,DownSampling),注意力模塊(AM,AttentionModule)和光流融合模塊(FM,FusionModule)。實驗結果如表所示,可以看出,所提模塊能夠有效地提升模型插幀結果的性能,同時在時間開銷上的增加較少,能夠良好地滿足算法實時性的要求。
5.結束語
視頻插幀因其廣泛應用性,很多學者進行了研究。但是現階段的方法運行效率較低,實時性難以保證。本文提出了一個多尺度光流預測和融合模型,利用輕量級神經網絡,充分學習視頻中光流的變化,得到了較好的視頻插針效果。具體地,本文采用了信息無損的下采樣策略,基于注意力的特征提取和多尺度光流融合方法,達到了較好實時性和可靠性的平衡。在大規模視頻插幀基準數據集上的實驗也表明了方法的有效性。通過本文提出方法,視頻后處理可以更好地解決視頻慢動作回放問題,人們可以更清晰、生動地觀看到影視作品、體育比賽精彩視頻片段慢動作回放,并對其中細節進行分析利用。
References:
[1]Liuwei,Yehaymond,Tangiaoou,etal.Videoframesynthesisusingdeepvoxelflow[C]//IEEEInternationalConferenceonComputerVision(ICCV)Venice,Italy201744441.
[2]JiangHuaizu,SunDeqing,JampaniVaran,etalSuperSloMo:highqualityestimationofmultipleintermediateframesforvideointerpolation[C]//IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR),SaltCity,USA,2018:9000–9008.
[3]BaoWenbo,LaiWeisheng,MaChao,etalDepthawarevideoframeinterpolation[C]//IEEE/CVFConferenceonComputerVisionandPatternRecognition(CVPR),LongBeach,CA,USA,2019:37033712.
作者:馬境遠1,王川銘