第一页欧美-第一页综合-丁香花成人另类小说-丁香久久-顶级欧美色妇xxxxbbbb

學術咨詢

讓期刊論文更省時、省事、省心

基于深度學習的實例分割研究綜述

時間:2021年12月23日 分類:教育論文 次數:

摘要:深度學習在計算機視覺領域已經取得很大發展,雖然基于深度學習的實例分割研究近年來才成為研究熱點,但其技術可廣泛應用在自動駕駛,輔助醫療和遙感影像等領域。實例分割作為計算機視覺的基礎問題之一,不僅需要對不同類別目標進行像素級別分割,還要對不同目標

  摘要:深度學習在計算機視覺領域已經取得很大發展,雖然基于深度學習的實例分割研究近年來才成為研究熱點,但其技術可廣泛應用在自動駕駛,輔助醫療和遙感影像等領域。實例分割作為計算機視覺的基礎問題之一,不僅需要對不同類別目標進行像素級別分割,還要對不同目標進行區分。此外,目標形狀的靈活性,不同目標間的遮擋和繁瑣的數據標注問題都使實例分割任務面臨極大的挑戰。本文首先對實例分割中一些具有價值的研究成果按照兩階段和單階段兩部分進行了系統性的總結。其次,分析了不同算法的優缺點并對比了模型在COCO數據集上的測試性能。此外,還歸納了實例分割在特殊條件下的應用,簡要介紹了常用數據集和評價指標。最后,對實例分割未來可能的發展方向及其面臨的挑戰進行了展望。

  關鍵詞:計算機視覺;實例分割;圖像分割;卷積神經網絡;深度學習;目標檢測;兩階段實例分割;單階段實例分割

深度學習

  近年來,深度學習和CUDA等并行計算技術迅速發展直接推動了計算機視覺和圖像處理領域進入了新的技術時代,實例分割作為計算機視覺基礎研究問題之一,其技術可廣泛應用于汽車自動駕駛,機器人控制,輔助醫療和遙感影像等領域。在計算機視覺的基本任務中目標檢測是預測圖像中目標位置和類別。語義分割則是在像素級別上對目標分類。而實例分割可看作是目標檢測和語義分割的結合體,旨在檢測圖像中所有目標實例,并針對每個實例標記屬于該類別的像素。即不僅需要對不同類別目標進行像素級別分割,還要對不同目標進行區分。與其他計算機視覺研究問題相比,實例分割的挑戰性在于:

  (1)它需要預測并區分圖像中每個目標的位置和語義掩碼,并且由于實例的不可知形狀使得預測實例分割的掩碼比目標檢測任務預測矩形邊界框更靈活。(2)密集目標的相互遮擋與重疊使網絡很難有效區分不同實例,并且小目標的實例分割由于普遍缺少細節導致分割精度仍然很低。(3)繁瑣精細的數據標注耗費大量人力與時間,如何減少成本,有效利用現有未標注或粗糙標注的數據提升實例分割精度仍是一個亟待解決的問題。

  1980年日本學者福島邦彥[1]提出的神經認知機模型可以稱為卷積神經網絡的前身,YannLeCun[2]提出反向傳播算法使網絡訓練成為可能,之后2012年AlexNet[3]在ImageNet圖像識別大賽上獲得冠軍。從此深度卷積神經網絡引起人們關注,研究者用它解決計算機視覺任務。近年來,實例分割的研究基本是建立在基于卷積神經網絡的目標檢測和語義分割基礎之上。

  因此,從研究發展來看實例分割任務是卷積神經網絡成功運用在計算機視覺領域的產物[4]。所示實例分割方法主要歸納為兩階段與單階段兩類,其中兩階段實例分割有兩種解決思路分別是自上而下基于檢測的方法和自下而上基于分割的方法。而單階段實例分割可細化為感知實例分割,建模掩碼,Transformer嵌入及一些其他方法。本文從實例分割的研究現狀,算法優缺點和主流方法性能對比,特殊條件下的應用,常用數據集與權威評價指標等角度出發對一些具有啟發性的研究成果進行整理,歸納和分析,為相關研究提供有價值的參考。

  1實例分割研究現狀

  從研究時間線來看,實例分割技術根據處理過程目前主要歸納為兩類:兩階段和單階段,本文將分別進行介紹。

  1.1兩階段的實例分割兩階段實例分割是以處理階段劃分,其中自上而下的基于檢測方法是先檢測出圖像中實例所在區域,再對候選區域進行像素級別分割。而自下而上的基于分割思想則將實例分割看作是一個聚類任務,通過將像素分組為圖像中呈現的任意數量的目標實例,最后判斷每組的類別來生成實例掩碼,這種不需要束縛于目標框的影響。

  1.1.1自上而下的實例分割自上而下的實例分割研究受益于目標檢測的豐碩成果。下面介紹一下代表性的方法。2014年BharathHariharan在SDS[5]中首次實現檢測和分割同時進行,也是最早的實例分割算法,奠定了后續研究基礎[6]。具體分為四步。

  (1)建議框生成,使用MCG[7]為每張圖片產生2000個候選區域。(2)特征提取,聯合訓練兩個不同的CNN網絡同時提取候選區域和區域前景特征。(3)區域分類,利用CNN中提取到的特征訓練SVM分類器對上述區域進行分類。(4)區域細化,采用NMS來剔除多余區域,最后使用CNN中的特征來生成特定類別的粗略掩碼預測,以細化候選區域將該掩碼與原始候選區域結合起來可以進一步高分割效果。

  雖然SDS效果遜色后續方法,但SDS先用檢測生成候選區域再對其語義分割的思想為后續實例分割提供了重要的研究啟發。2015年該團隊又對SDS重新分析認為,只使用CNN最高層的特征來解決實例分割問題存在著掩碼細節粗糙的缺陷。即高層特征的語義信息豐富有利于目標分類,但缺少精確的位置信息。

  例如在底層特征圖中可以定位目標部件,但是沒有豐富語義信息判別區分這個目標部件具體屬于哪個物體。所以,引入Hypercolumns[8](所有CNN層對應該像素位置的激活輸出值所組成的向量)作為特征描述符,將底層特征與高層特征融合從而提升分類的精確性并改善目標分割細節。之后,CFM[9]算法首次將掩碼(Mask)這一概念引入到實例分割中。CFM通過矩形框生成特征圖的掩碼,并將任意區域生成固定大小的特征以方便處理。

  這里是從卷積特征中提取掩碼而非原始圖像中提取。 DeepMask[10]是首個直接從原始圖像數據學習產生分割候選的工作。簡單講,給定一個圖片塊作為輸入,輸出一個與類別無關的mask和相應的分數。它最大的特點是不依賴于邊緣、超像素或者其他任何輔助形式的分割,是用分割的方法來生成高召回率的候選區域。但缺點是只能捕捉目標大致外形,不能準確描繪目標邊界。為了優化DeepMask的掩碼,SharpMask[11]先在前向反饋通道中生成粗略的掩碼,并在自上而下的通道中引入較低層次富有位置的特征逐步加以細化,最后產生具有更高保真度的能精確框定物體邊界的掩碼。

  但是上面提到的方法都需要先在原圖生成掩膜候選區域,沒有充分利用深度學習特征及大規模訓練數據的優勢并且推斷時間緩慢,這些都是影響實例分割準確性的瓶頸。2016年,何凱明團隊在多任務網絡級聯(MNC)[12]中提出了一種級聯結構,將實例分割任務分解為目標定位,掩碼生成以及目標分類三個子任務,共用一 個主干網絡,將三個不同功能的網絡分支級聯起來。每個階段都以前一階段的結果作為輸入。

  整個網絡是端到端的。這樣主干網絡的訓練可以共享三個子任務的監督,有利于訓練出更好的特征。這種設計另一個優點是可以快速地進行推斷。隨著計算機并行處理數據能力的提升和目標檢測網絡性能的快速更新,實例分割研究趨勢打開了一個新的局面。前沿的設計思想和領域的認識革新碰撞出新的學術火花。2017年何凱明團隊提出簡單通用且性能強大的兩階段MaskR-CNN[13],是FasterR-CNN[14]思想應用在實例分割的經典之作,用于許多衍生應用的基線算法,也是現今使用最多,效率最高的實例分割算法。它的成功又激起實例分割領域新的技術浪潮。MaskR-CNN[13]在目標分類和回歸分支上增加了用于預測每個ROI的語義分割分支。

  基礎網絡中采用了當時較為優秀的ResNet-FPN[15,16]結構,多層特征圖有利于多尺度物體及小物體的檢測。首先,將輸入圖片送入到特征提取網絡得到特征圖,然后對特征圖的每一個像素位置設定固定個數的ROI(也可以叫Anchor),然后將ROI區域送入RPN推薦網絡進行二分類(前景和背景)以及坐標回歸,以獲得修正后的ROI區域。為了保證特征分辨率,對ROI執行提出的ROIAlign[13]操作替換原始的ROIPooling[14],取消了取整操作,而是通過雙線性插值的方法保留所有的浮點數。最后增加了一個Mask(掩碼)分支來預測每一個像素的類別。采用了FCN(FullyConvolutionalNetwork)[17]的網絡結構,利用卷積與反卷積構建端到端的網絡,對每一個像素分類,實現了較好的分割效果。

  同時,2018年Masklab[18]也改進了FasterR-CNN[14],并產生兩個額外的輸出,即語義分割和實例中心方向。由于MaskR-CNN對實例分割研究具有重要的啟發意義,后續涌現了一系列相關的工作,具體方法如下。2018年PANet[19]在MaskR-CNN基礎上引入自下而上的路徑改進并擴展了金字塔特征提取網絡,使用自適應融合的ROI區域特征池化,很好地融合了不同層次的特征信息。DetNet[20]將空洞卷積加到骨干結構中即保證了特征分辨率同時又增大感受野,并提出重新對檢測、分割任務訓練骨干網絡以提高特征表達能力。

  2019年MSR-CNN[21]提出現有的mask打分策略是使用分類的指標,缺乏針對性的評價機制。故在MaskR-CNN基礎上修改了mask評價標準,通過添加MaskIOU分支來預測mask并且給其打分來提升模型實例分割性能。同年,何凱明團隊提出PointRend[22]將實例分割看作圖像處理中渲染問題,細化MaskR-CNN產生的粗糙掩碼邊緣,先在邊緣上選幾個點再提取點的特征進行迭代計分計算達到細化掩碼的目的。2020年BMaskR-CNN[23]則將目標邊緣信息加入MaskR-CNN中用于監督網絡以增強掩碼預測。

  2021年BPR[24]提出一個后處理細化模塊以提高MaskR-CNN的邊界質量。RefineMask[25]利用邊緣信息和語義分割信息細化MaskR-CNN生成的粗糙掩碼邊緣。姜世浩等[26]在MaskR-CNN基礎上引入兩條分支,基于整體嵌套邊緣檢測(HED)模型生成邊緣特征圖,一條基于FCN生成偏重于空間位置信息的語義特征圖。最后融合以上得到的多個特征圖,生成信息更加豐富的新特征。

  1.3算法優缺點對比和實驗結果比較

  本小節對文中涉及到的部分實例分割算法進行優缺點比較和性能分析。不同實例分割算法在COCO數據集上的性能對比。本文在最大程度上選擇相同的基礎網絡且沒有引入任何訓練技巧,以保證算法性能比較的公平性。

  比較的結果均在COCO公開測試數據集上測試,因為COCO數據集是實例分割最常用的數據集,圖片背景復雜,目標種類和數量多,目標尺寸相對較小,有很大難度。算法性能主要比較的參數是精度(COCO評價標準,詳細介紹見3.4節)及模型參數(#Params)和推斷速度(fps)。其中,fps指每秒幀數,值越大算法速度越快,“−”表示未知,學習率規則“1×”表示模型訓練12個epoch(180Kiterations),“3×”為36個epoch,以此類推。

  主要從兩階段和單階段這兩類對通用場景下的實例分割算法進行分類總結。從精度上看,相同基礎網絡時兩階段普遍優于單階段,且模型所需訓練迭代次數少。從速度上看,單階段則快于兩階段,且精度也是處于平均水平,但以大量訓練迭代次數為代價。因此,應用時需要根據具體需求選擇合適的算法。綜上分析,沒有一種算法可以兼顧精度高和速度快,未來還可以從同時提升實例分割的速度與精度入手。

  2實例分割的特殊應用

  實例分割作為像素級別的目標識別任務,目前已廣泛應用在遙感影像[62-67],文字檢測[68-70],人臉檢測[71,72],輔助駕駛系統[73-76],醫療圖像處理[77,78]等各個場景下。遙感圖像中需要對標的物體進行識別,進而分析與測繪[79]。李瀾等人[80]將MaskR-CNN應用于高分辨率光學遙感影像的目標檢測和實例分割任務中,目的是在地圖上找到遺漏的地理實體并提高矢量地圖的質量。瑚敏君等人[65]在MaskRCNN原有的特征提取中每個層級的特征圖后再增加一層卷積操作。

  然后,在原有掩碼預測結構的基礎上增加一個分支實現了高效、準確的高分辨率遙感影像建筑物提取算法。王昌安等人[79]則用于光遙感影像中近岸艦船的檢測任務。輔助駕駛系統不僅需要在行駛過程中識別不同的車道線,進行駕駛模式的決策,而且也需要對周圍的車輛、行人等進行分析,判斷周圍的駕駛環境等這些都用到了實例分割[81,82]。鄧琉元等人[83]針對無人駕駛中用到的環視相機所呈環形圖像中存在目標幾何畸變難以建模問題,在MaskR-CNN中引入可變形卷積和可變形ROIPooling來提升網絡對幾何形變的建模能力以實現環視魚眼圖像中準確的交通目標實例分割。

  田錦等人[74]和蔡英鳳等人[73]將實例分割模型用于車道線檢測解決了傳統的車道線檢測算法易受光照變化、陰影遮擋等環境干擾的缺陷。最后,所提算法可以完成復雜交通場景下的多車道線實時檢測。除此之外,陳健雄等人[84]提出實例分割模型也可以有效識別中低速磁浮列車上接觸軌固件的松動狀態,保證了城市軌道交通的安全運行。醫療圖像處理需要對血管、骨骼、細胞等區域進行分割與檢測,幫助醫生進行診斷和研究[81]。同時降低誤診率和漏診率,所以實例分割也是重要的關鍵技術之一。

  趙旭等人[77]研究基于實例分割的乳腺超聲腫瘤識別,分割出乳腺超聲圖像的腫瘤區。鄭楊等人[78]在MaskR-CNN中加入空洞卷積完成宮頸細胞圖像分割。吳宇[85]則提出一個級聯的3D椎骨分割網絡。可見,實例分割應用已經非常廣泛,都是建立在兩階段MaskR-CNN[13]基礎之上并有很好的算法效果。未來,實例分割技術一定會有更大的發展應用前景。

  3數據集與評價指標

  深度學習領域關注的是通過使用計算機算法自動發現數據中的規律性,并通過使用這些規律性來采取一些行動。可見,數據規模驅動深度學習領域的發展,收集一個大規模的數據集也是實例分割研究中重要的工作。目前,公開的大型數據集大多是由公司、科研團隊或特別舉辦的專業比賽等收集創建的,需要大量人工進行手動標注,時間成本高[86]。

  4未來展望

  綜合來看,實例分割技術正趨向兼并算法實時性和性能高精度的方向發展。單階段的實例分割在性能上不弱于兩階段的實例分割,但相較于兩階段法的網絡架構更為簡潔,高效且易于訓練。由現存算法的性能比較來看還有提升空間。所以,總體期望發展的方向應該是在追求精度提升的基礎上實現快速實時實例分割,更好的適用于實際應用。此外,(1)筆者認為實例分割與目標檢測,語義分割等其他高級計算機視覺任務可以互惠互利,可重點研究在不同圖像感知任務之間的相互關系。此外,自然語言處理和計算機視覺兩大任務可以彼此互鑒。最近,自然語言處理中常用的Trans- former[91,92]在計算機視覺(CV)領域已經做了一些初步探索,未來針對CV的特點設計更適配視覺特性的Transformer將會帶來更好的性能提升[93]。

  (2)目標間遮擋和交疊情況仍然是實例分割最具挑戰性的問題,可借鑒圖卷積神經網絡,膠囊網絡和目標檢測中的推理關系網絡來有效解決遮擋情況下的實例分割問題。(3)目前實例分割只針對單獨的目標,沒有考慮目標間的關系。從目標檢測的經驗來看,圖像中不同目標是具有空間和語義的上下文聯系,這種信息的流動和融合有助于目標檢測精度的提升。實例分割可以借鑒注意力機制,圖神經網絡的方法來建立目標在空間布局以及幾何形狀之間的聯系。(4)從現有算法的精度來看,小目標的實例分割問題仍然是一個挑戰。COCO數據集中定義像素總數小于322為小目標。可見其在圖像中像素面積占比很小,經過多次采樣和池化等定會缺少很多細節。而實例分割是一個需要精確和完整的像素信息才能完成的任務,兩者產生矛盾。未來的研究可以小目標檢測為切入點,結合超分辨率圖像任務、生成對抗網絡、尺度自適應和注意力機制等策略來提高小目標的實例分割精度。

  (5)實例分割大多是有監督學習,其數據采用人工手動進行像素標注的方式,繁瑣的數據標注耗費大量的人力和時間。為了減少成本,使用自監督學習、弱監督學習方式從已有未標注或少量標注數據中自動生成標簽實現實例分割。也可利用現有的已標注邊界框作為先驗信息輔助鎖定目標范圍。(6)從實際應用的角度,現有網絡設計的復雜度高,占用內存大,速度和準確度之間還不能達到平衡。輕量化的網絡架構,滿足速度快和精度高的需求將是實例分割未來探究的重要內容。

  參考文獻:

  FukushimaK.Neocognitron:ASelf-organizingNeuralNetworkModelforaMechanismofPatternRecognitionUnaffectedbyShiftinPosition[J].BiologicalCybernetics,1980,36(4):193–202.

  [1]LeCunY,BottouL,BengioY,etal.Gradient-basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278–2324.

  [2]KrizhevskyA,SutskeverI,HintonG.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].Advancesinneuralinformationprocessingsystems,2012,25(2):1097–1105.

  作者:蘇麗1,2,孫雨鑫1,苑守正1

主站蜘蛛池模板: 狠狠干婷婷 | 亚洲日本人成网站在线观看 | 天天综合久久 | 777久久 | 国产免费一区二区三区 | 黄色网址免费大全 | 成年黄大片 | 在线看片一区 | 91影视在线看免费观看 | 成人免费无毒在线观看网站 | 欧美日韩亚洲另类人人澡 | 中文字幕a∨在线乱码免费看 | 亚洲国产区 | 久久久黄色 | 亚洲经典一区二区三区 | 日本一区二区在线不卡 | 中文字幕韩国 | 黄色性生活网站 | 欧美日韩第三页 | 亚洲国产精品久久网午夜 | 日韩特黄特色大片免费视频 | 精品在线一区二区 | 国产精品免费网站 | 黄视频日本 | 在线观看的黄网 | 亚洲色图第1页 | 国产成人亚洲精品影院 | 欧美日韩免费一区二区三区 | 国产永久免费高清动作片www | 国产成人亚洲综合a∨婷婷 国产成人亚洲综合无 | 狠狠婷婷| 泄欲网站免费观看 | 国产精品亚洲欧美一区麻豆 | 中国xxx片 | 91看片淫黄大片欧美看国产片 | 亚洲国产成人久久综合碰碰动漫3d | 综合激情区视频一区视频二区 | 成人午夜免费视频毛片 | 亚洲狠狠ady亚洲精品大秀 | 伦理片一级 | 千涩成人网 |