基于事件的端到端視覺位置識別弱監督網絡架構

時間：分類：電子論文次數：

摘要：傳統的視覺位置識別(VPR)方法通常使用基于圖像幀的相機，存在劇烈光照變化、快速運動等易導致 VPR 失敗的問題。針對上述問題，本文提出了一種使用事件相機的端到端 VPR 網絡，可以在具有挑戰性的環境中實現良好的 VPR 性能。所提出算法的核心思想是，首先采用事

　　摘要：傳統的視覺位置識別(VPR)方法通常使用基于圖像幀的相機，存在劇烈光照變化、快速運動等易導致 VPR 失敗的問題。針對上述問題，本文提出了一種使用事件相機的端到端 VPR 網絡，可以在具有挑戰性的環境中實現良好的 VPR 性能。所提出算法的核心思想是，首先采用事件脈沖張量(EST)體素網格對事件流進行表征，然后利用深度殘差網絡進行特征提取，最后采用改進的局部聚合描述子向量(VLAD)網絡進行特征聚合，最終實現基于事件流的端到端 VPR。將該方法在基于事件的駕駛數據集(MVSEC、DDD17)和人工合成的事件流數據集(Oxford RobotCar)上與典型的基于圖像幀的視覺位置識別方法進行了比較實驗。結果表明，在具有挑戰性的場景(例如夜晚場景)中，本文方法的性能優于基于圖像幀的視覺位置識別方法，其 Recall@1 指標提升約6.61%。據我們所知，針對視覺位置識別任務，這是首個直接處理事件流數據的端到端弱監督深度網絡架構。

　　關鍵詞：視覺位置識別(VPR);事件相機;事件脈沖張量(EST);深度殘差網絡;三元組排序損失

視覺位置識別

　　1 引言(Introduction)

　　視覺位置識別(VPR) [1-2] 是計算機視覺和移動機器人領域中一個非常具有挑戰性的問題。在計算機視覺領域，視覺位置識別技術可以在構建好的帶有地理信息標注的大規模圖像數據庫中進行視覺信息檢索和跨時間的位置信息檢索，或者服務于增強現實(AR)等交互式 3D 視覺應用場景。在移動機器人領域，機器人在無 GPS 環境中進行視覺位置識別的能力是自主定位和導航的核心能力之一。

　　在同時定位與建圖(SLAM)技術中，視覺位置識別是回環檢測(loop closure) [3-4] 的重要組成部分，可用于檢測候選閉環并通過全局優化來消除累積誤差，從而實現全局一致的位姿估計和建圖。此外，視覺位置識別還可以在構建好的環境地圖中進行精確視覺定位，可廣泛應用于自動駕駛汽車、服務機器人等應用。

　　目前已經有許多方案來解決移動機器人的大規模視覺位置識別問題。在傳感器方面，這些方案普遍使用單目、雙目、全景相機等基于圖像幀的視覺傳感器，具有對光照變化敏感、易產生運動模糊和冗余信息較多等缺點，使得傳統視覺位置識別方法難以處理一些挑戰性環境中的識別任務。在算法原理方面，這些方案大多數是基于場景外觀的(appearance-based)方法[5]，但在晝夜、天氣和季節變化等的影響下，同一個位置的外觀在不同時間會發生巨大變化，加上一些位置遙遠的場景外觀可能十分相似，這些情況對現有的基于圖像幀的大規模位置識別方法提出了挑戰。

　　不同于傳統的基于圖像幀的視覺位置識別方法，本文提出了一種基于事件相機的視覺位置識別方法。事件相機(event camera)是一種新穎的受生物視網膜啟發的神經形態視覺傳感器，并以完全不同于幀相機的方式工作：它采用地址事件表示(address-event representation，AER)方法，并以微秒級分辨率觸發像素級亮度變化(稱為“事件”)，輸出不同于圖像幀的稀疏異步事件流[6-7]。

　　事件相機具有低延遲、高時間分辨率、低帶寬、低功耗、高動態范圍等優勢，可以有效地克服傳統基于圖像幀的視覺位置識別方法存在的問題。為了利用事件相機實現魯棒的視覺位置識別，本文首次提出了一種基于事件相機的端到端視覺位置識別弱監督網絡架構。其關鍵思想是將 VLAD 應用于由事件流生成的 EST 體素網格表征。據我們所知，這是第一個使用事件相機的端到端視覺位置識別方法。在不同天氣、不同場景的多個數據集上的實驗結果表明，所提出的方法優于基于圖像幀的視覺位置識別方法，能夠在一定程度上克服視覺位置識別中存在的大尺度場景、高動態范圍和長期適應性等挑戰性問題。本文的主要創新點和貢獻如下：

　　(1) 提出了一種基于事件相機的端到端視覺位置識別弱監督網絡算法流程，該算法流程直接使用事件流作為輸入，能夠有效地進行視覺位置識別;(2) 在多個基于事件的駕駛數據集上，針對該方法和典型的基于圖像幀的方法在不同天氣、季節和環境等大規模場景序列中進行了全面、直觀的比較，來評估視覺位置識別方法的性能;(3) 對比了多種不同事件表征、不同網絡結構和不同弱監督損失函數對網絡整體性能的影響，以說明該方法各個部分的作用和優勢;(4) 在增加的擴展實驗中，使用自動駕駛仿真器錄制了幾組事件流序列，探究了載體的行駛速度變化對視覺位置識別準確率的影響。

　　2 相關工作(Related work)

　　視覺傳感器的成本低、功耗低，并且能提供豐富的場景信息，正日益成為位置識別的主要傳感器類型。目前流行的大規模視覺位置識別方案普遍采用基于圖像幀的(frame-based)視覺傳感器 [1-2] 和基于場景外觀的方法 [5]，來實現大規模的位置識別。在這種情況下，一般可以將視覺位置識別問題轉化為帶有地理信息標注的(geo-tagged)大規模圖像檢索問題，并通過匹配相同位置的圖像來解決位置識別任務。

　　關于如何更好地表征和匹配相同位置的圖像，已經進行了廣泛的研究[1-2]。這些方法通常采用傳統的稀疏特征提取技術(例如 SIFT(尺度不變特征變換)[8]、ORB (oriented FAST androtated BRIEF) [9] 等)，以及典型的局部聚合描述子技術(例如詞袋模型 BoW [3-4]、VLAD [10-11] 等)，來建立圖像特征的高階統計模型。一個典型的工作是 DenseVLAD [12]，它使用 SIFT 從圖像中提取密集的特征描述，并使用 VLAD 進行特征聚合。

　　隨著深度學習的興起，一些工作開始使用現成的(offthe-shelf)卷積神經網絡(例如OverFeat、VGGNet和 AlexNet [13-14] 等)作為可訓練的特征提取器，還有一些工作將 VLAD 改進為一種可訓練的池化層(例如 NetVLAD [15] 等)，用來得到圖像的描述子向量作為緊湊的圖像表征。在檢索和匹配環節中，基于序列的(sequence-based)匹配技術是一種受到廣泛認可的匹配方法，典型的工作是 SeqSLAM 方法[16]，它通過搜索高度相似的序列片段進行視覺位置識別。近年來，研究者們開始試圖從不同方面進一步改進識別性能。

　　例如，一些基于場景結構的(structure-based)方法，主要利用場景的重復邊緣、半稠密地圖等結構信息進行位置識別[5,17-18]。也有一些工作采用基于場景語義的(semantic-based)方法進行視覺位置識別，主要利用場景中的路標、文本、物體等語義信息 [19-21]。雖然傳統的基于圖像幀的視覺位置識別技術在過去十幾年中得到了快速發展，但由于幀相機的固有缺陷，目前這些方法仍然難以解決一些挑戰性環境中存在的問題(例如光照變化、運動模糊等)。與基于圖像幀的標準相機相比，事件相機具有高動態范圍、高時間分辨率和低延遲等優點[6-7]。由于這些優勢，事件相機最近受到了越來越多的關注。

　　然而，據我們所知，基于事件(eventbased)的視覺位置識別的相關研究工作仍然很少。Milford 等 [22] 首先嘗試將 SeqSLAM 法遷移到事件相機上，完成了一個比較粗糙的基于事件幀的位置識別實驗。在此之后，他們提出了一種基于事件的視覺位置識別時空窗口集成方案(ensemble-eventVPR)[23]。該方法使用不同事件個數和不同時間窗口尺寸的事件流片段，通過 E2Vid 方法 [24] 將事件流片段重建為一組強度幀序列，分別使用NetVLAD [15] 預訓練模型得到對應的視覺描述子，然后通過對描述子的距離矩陣求平均值進行集成，從而進行視覺位置識別。

　　然而，該方法并不是直接基于事件流的方法，而是需要將事件流轉換成強度幀，實質上依然是一種基于圖像幀的視覺位置識別方法。另外，由于用到了不同長度的事件流片段進行強度重建并集成，該算法計算量大且十分耗時，因此難以執行大規模場景中的位置識別，且難以部署到真實的機器人上實時運行。而本文首次提出了一種新穎的端到端的基于事件的視覺位置識別網絡，并取得了優異的位置識別效果。

　　3 方法(Methodology)

　　本節詳細描述所提出的基于事件的視覺位置識別方法的網絡架構和設計方案，包括算法的各個模塊組件以及網絡訓練的主要步驟和注意事項。

　　為了使用流行的基于深度學習的特征提取技術，需要將稀疏異步事件流數據轉換為一種卷積網絡可處理的表征形式。目前比較典型的事件流數據表征方法大致有運動補償事件幀(motion-compensated event frame，MCEF)[25]、4 通道圖像(4-channel image，4CH) [26] 和事件體素網格(event voxel grid，EVG) [27] 等。

　　此外，也可以將事件流轉換為傳統的基于圖像幀的視頻(例如E2Vid) [24]。這里使用事件脈沖張量的體素網格表征方法。在將事件流轉換為 EST 體素網格表征之后，需要對其進行特征提取。本文使用了在基于事件的手寫數字識別任務中預訓練的深度殘差網絡(deep residual network，DRN)ResNet34 [28]作為特征提取網絡。為了將其遷移到本文的視覺位置識別任務中，需要對原始網絡進行裁剪。

　　4 實驗(Experiments)

　　在 MVSEC [33]、 DDD17 [34] 和 Oxford RobotCar[35] 等多個數據集上進行了實驗，通過定量的實驗結果來驗證本文所提出方法的有效性。進行了 3 個實驗來評估所提出的基于事件的視覺位置識別方法。首先，評估了所提出的基于事件的視覺位置識別方法在不同駕駛場景下的性能，并驗證了其長期魯棒性。然后，在同一數據集上對基于事件的本文算法和基于圖像幀的視覺位置識別算法進行了比較，并對所提出算法的性能進行了定量分析。最后，從事件表征、特征提取網絡和損失函數 3 個方面對所提出的基于事件的網絡架構進行了消融(ablation)研究，實驗結果證明了該方法各個模塊的優勢。

　　4.1 數據集配置

　　由于現階段還沒有基于事件相機的位置識別數據集，因此在本文的實驗中，選取并改造了目前公開的幾個駕駛場景的數據集進行實驗。其中 MVSEC 數據集和 DDD17 數據集是現有的在真實環境中記錄的事件相機數據集 [33-34]。本文選取了 MVSEC 數據集的5 個室外駕駛場景序列(包括白天和夜晚場景，由左目 DAVIS 相機獲得)和 DDD17 數據集的 12 個室外駕駛場景序列(包括市區、城鎮和高速公路場景)的強度圖像和事件流片段，其中包含了多種光照變化和場景結構變化。

　　此外 Oxford RobotCar 數據集是視覺位置識別領域常用的標準數據集[35]。仿真事件流合成器使用的是 V2E [36]，合成序列選擇的是 Oxford RobotCar 數據集中由三目立體相機(Bumblebee XB3)采集的中間圖像序列。盡可能地選取了不同天氣條件下相同軌跡的序列，覆蓋了晴天、陰天、雨天、雪天、黃昏和夜晚等場景。上述場景的光照、外觀差異較大，能夠較好地驗證所提出算法的魯棒性。隨機地將相同路線的序列劃分為地理上不重疊的訓練集和測試集。

　　在 MVSEC 數據集中，從 5 個序列中選取了大約40 000 個訓練樣本和 10 000 個測試樣本。在 DDD17數據集中，從 12 個序列中選擇了大約 240 000 個測試樣本。在 Oxford RobotCar 數據集的 11 個序列中選擇了大約 50 000 個訓練樣本和 12 000 個測試樣本。對于參數，在 MVSEC 和 Oxford RobotCar 數據集中，選擇潛在陽性距離閾值為 λ = 10 m，潛在陰性距離閾值為 δ = 25 m，且真陽性地理距離閾值為φ = 20 m。此外在 DDD17 數據集中，除了真陽性地理距離閾值為 φ = 50 m，其他的參數都相同。

　　在這個實驗中，比較了不同的弱監督損失函數對本文方法性能的影響，包括三元組損失(triplet loss，TL)、四元組損失(quadruplet loss，QL)、簡化三元組損失(lazy tripletloss，LTL)和簡化四元組損失(lazy quadrupletloss，LQL)。在進行這些實驗時，均使用 EST 體素網格作為事件表征，ResNet34 作為特征提取網絡。實驗結果顯示不同的弱監督損失函數對模型性能有輕微影響。

　　原始的三元組和四元組損失函數使用 sum 算子而不是簡化損失函數中的 max 算子，因此原始的三元組和四元組損失往往需要更長的訓練時間。而簡化的三元組和四元組損失可以在保證性能的同時提高網絡訓練效率。其中四元組損失的訓練結果均略優于對應的三元組損失，訓練的模型能獲得相對更好的可區分性，從而得到更準確的檢索結果。因此，以上這些弱監督損失函數可以在訓練的過程中交替使用，從而以較短的訓練時間來獲得高準確率的模型。

　　5 結論(Conclusion)

　　提出了一種利用事件相機來解決大規模視覺位置識別問題的弱監督網絡架構和算法流程。它的核心思想是將基于 VLAD 的特征聚合描述層應用于由事件流生成的 EST 體素網格表征。本文的實驗結果表明，基于事件的視覺位置識別方法比基于圖像幀的傳統視覺位置識別方法對天氣、季節和光照變化引起的周圍環境變化具有更強的魯棒性和適應性。

　　仍然需要注意的是，與傳統的基于圖像幀的相機相比，事件相機具有許多優點(例如低延遲、低功耗、高速和高動態范圍等)，但是由于目前事件相機的空間分辨率還較低，因此與基于圖像幀的視覺位置識別方法相比仍然存在一些不足，這是由于傳感器處于不同的發展階段導致的。在后續的工作中，將嘗試結合標準相機和事件相機，實現一種基于幀和事件的視覺位置識別混合網絡架構，并將其部署在自主駕駛車輛或微小型無人機上，以進一步釋放事件相機的潛力，來解決實際移動機器人的視覺位置識別和視覺回環檢測問題。

　　參考文獻(References)：

　　[1] Lowry S, Sunderhauf N, Newman P, et al. Visual place recognition:A survey[J]. IEEE Transactions on Robotics, 2016, 32(1):1-19.

　　[2] Zeng Z Q, Zhang J, Wang X D, et al. Place recognition:An overview of vision perspective[J]. Applied Sciences, 2018,8(11). DOI: 10.3390/app8112257.

　　[3] Angeli A, Filliat D, Doncieux S, et al. Fast and incrementalmethod for loop-closure detection using bags of visual words[J]. IEEE Transactions on Robotics, 2008, 24(5): 1027-1037.

　　[4] Galvez-Lopez D, Tardos J D. Bags of binary words for fastplace recognition in image sequences[J]. IEEE Transactions onRobotics, 2012, 28(5): 1188-1197.

　　[5] Oertel A, Cieslewski T, Scaramuzza D. Augmenting visualplace recognition with structural cues[J]. IEEE Robotics andAutomation Letters, 2020, 5(4): 5534-5541.

　　[6] Gallego G, Delbruck T, Orchard G, et al. Event-based vision: Asurvey[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2022, 44(1): 154-180.

　　作者：孔德磊1,2，方正1，李昊佳1，侯寬旭1，姜俊杰1

上一篇：基于開源技術建設業務綜合監控平臺的探索與實踐下一篇：基于云計算的電力設備智能監測系統

相關文章推薦