圖1 PASCAL VOC訓(xùn)練圖片

語義分割在醫(yī)學(xué)影像診斷、自動(dòng)駕駛、衛(wèi)星圖像處理、環(huán)境分析、農(nóng)業(yè)發(fā)展和圖像搜索引擎等領(lǐng)域具有廣泛應(yīng)用。本綜述總結(jié)了語義分割的最新進(jìn)展,特別是實(shí)時(shí)系統(tǒng),強(qiáng)調(diào)了高效技術(shù)的重要性。

2 語義分割的歷史

語義分割的早期方法有閾值分割和聚類。閾值分割將圖像分為目標(biāo)和背景,通過使用單個(gè)或多個(gè)閾值進(jìn)行分類。聚類方法將具有相似特征的像素分為同一簇,包括K-means、GMMs、mean-shift和模糊k-means等。邊緣檢測利用邊緣代表邊界的事實(shí),流行的線邊緣檢測方法有Roberts、Sobel和Prewitt等。圖像也可視為圖進(jìn)行分割,計(jì)算關(guān)聯(lián)矩陣,解由矩陣的廣義特征值給出。條件隨機(jī)域(CRF)是一種概率框架,可用于標(biāo)記和分割數(shù)據(jù),包括一元成本和成對成本來模擬像素之間的相互作用,最終目標(biāo)是找到一個(gè)總體成本最小的配置。

3 圖像語義分割的深度學(xué)習(xí)方法

3.1 全卷積網(wǎng)絡(luò)

卷積網(wǎng)絡(luò)最初用于分類任務(wù),通過多個(gè)卷積層處理輸入圖像,最后通過全連接層和softmax輸出層學(xué)習(xí)類別概率分布。在FCN中,全連接層被卷積層替換,允許按像素對圖像進(jìn)行分類(圖2),具有兩個(gè)好處:適用于任何分辨率的圖像,參數(shù)較少,訓(xùn)練和推理更快。這種方法在圖像分割領(lǐng)域取得了最先進(jìn)的結(jié)果,被認(rèn)為是最具影響力的方法之一。

圖2 全卷積網(wǎng)絡(luò)架構(gòu)

3.2 編碼器-解碼器體系結(jié)構(gòu)

在DeconvNet中,作者提出了一種多層反卷積網(wǎng)絡(luò),如圖3,用于解決中由于缺乏真正的反卷積和特征圖尺寸較小導(dǎo)致的信息丟失問題。訓(xùn)練后的網(wǎng)絡(luò)應(yīng)用于單個(gè)對象提議,以獲得實(shí)例分割,這些分割被組合用于最終的語義分割。此外,作者還提出了一種基于解碼器/編碼器架構(gòu)的醫(yī)療應(yīng)用,該架構(gòu)在訓(xùn)練數(shù)據(jù)較少的情況下表現(xiàn)良好。該架構(gòu)在圖像降采樣和升采樣過程中,通過增加和減少特征數(shù)量,實(shí)現(xiàn)更好的分類,如圖4。此外,他們還提出了加權(quán)損失,以提高不同區(qū)域的分類準(zhǔn)確性。

圖3 DeconvNet架構(gòu)

圖4 UNet體系結(jié)構(gòu)

SegNet 使用VGG 作為骨干編碼器,去除了全連接層,并添加了對稱解碼器結(jié)構(gòu),通過重用最大池化索引改善邊界劃分,減少參數(shù)數(shù)量,并提高訓(xùn)練效率。在醫(yī)療應(yīng)用中,一種基于解碼器/編碼器架構(gòu)的方法在訓(xùn)練數(shù)據(jù)較少的情況下表現(xiàn)良好,通過增加和減少特征數(shù)量實(shí)現(xiàn)更好的分類,并提出了加權(quán)損失以提高不同區(qū)域的分類準(zhǔn)確性。

3.3 神經(jīng)網(wǎng)絡(luò)的條件隨機(jī)場

深度學(xué)習(xí)到來之前,條件隨機(jī)域(CRF)是語義分割中最流行的方法之一,但由于訓(xùn)練和推理速度緩慢,以及難以學(xué)習(xí)其內(nèi)部參數(shù),CRF失去了一部分吸引力。CNN的設(shè)計(jì)預(yù)計(jì)在兩個(gè)或多個(gè)類相交的邊界區(qū)域表現(xiàn)不佳,或者可能通過多個(gè)處理階段丟失高層信息。的作者通過將最終神經(jīng)網(wǎng)絡(luò)層的響應(yīng)與完全連接的條件隨機(jī)域相結(jié)合,將這兩種方法結(jié)合起來。這項(xiàng)工作演變?yōu)镈eepLab,其中添加了一些改進(jìn)(例如,孔徑空間金字塔池化),并提出了一些變體。在之前的工作中,CRF沒有與全卷積網(wǎng)絡(luò)聯(lián)合訓(xùn)練,這可能會(huì)導(dǎo)致次優(yōu)的端到端性能。在中,作者提出將CRF表示為RNN,以獲得具有CNN和CRF理想特性的深度網(wǎng)絡(luò)。

圖5 DeepLab 體系結(jié)構(gòu)

3.4 功能融合

語義分割在像素級對圖像進(jìn)行分類,但現(xiàn)有技術(shù)可能導(dǎo)致細(xì)節(jié)丟失。提出通過添加全局上下文來增強(qiáng)全卷積網(wǎng)絡(luò)的性能,提出了增強(qiáng)語義分割網(wǎng)絡(luò)(ESSN),對每個(gè)卷積層的殘差特征圖進(jìn)行上采樣和連接,以保持網(wǎng)絡(luò)所有階段的特征(如圖6)。在下采樣階段提取特征信息,然后在上采樣部分恢復(fù)空間分辨率。在產(chǎn)生分割輸出的最終預(yù)測階段之前,對相應(yīng)的池化和解池化層的特征進(jìn)行上采樣和連接。這些方法在三個(gè)主要的語義分割數(shù)據(jù)集上取得了令人鼓舞的結(jié)果。

圖6 增強(qiáng)的語義分割網(wǎng)絡(luò)架構(gòu)

3.5 生成對抗性網(wǎng)絡(luò)

生成對抗網(wǎng)絡(luò)(GAN)最初用于無監(jiān)督學(xué)習(xí)生成模型,生成與訓(xùn)練集具有相同統(tǒng)計(jì)特性的新數(shù)據(jù),在圖像、天文圖像、3D對象重建和圖像超分辨率等多個(gè)領(lǐng)域產(chǎn)生影響。GAN應(yīng)用于語義分割,使用兩個(gè)網(wǎng)絡(luò),一個(gè)分割網(wǎng)絡(luò),一個(gè)對抗網(wǎng)絡(luò),提高標(biāo)注精度?;贕AN的半監(jiān)督框架由一個(gè)生成器網(wǎng)絡(luò)組成,為多類分類器提供額外的訓(xùn)練樣本,如圖7,添加大量虛假視覺數(shù)據(jù)迫使真實(shí)樣本在特征空間中靠近,改善多類像素分類。GAN在醫(yī)學(xué)圖像中應(yīng)用,對抗網(wǎng)絡(luò)優(yōu)化了一個(gè)多尺度損失函數(shù),分割網(wǎng)絡(luò)由四層卷積級組成,專為有限訓(xùn)練數(shù)據(jù)集而設(shè)計(jì),網(wǎng)絡(luò)性能明顯優(yōu)于其他方法。

圖7 半監(jiān)督卷積 GAN 架構(gòu)(來自 [46])

3.6 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

RNN已被廣泛用于順序任務(wù),如語義分割。ReSeg通過轉(zhuǎn)換每個(gè)ReNet層來適應(yīng)語義分割任務(wù),每個(gè)ReNet層由四個(gè)RNN組成,如圖8,它們在水平和垂直方向上掃描圖像,編碼補(bǔ)丁或激活,并提供相關(guān)的全局信息。ReNet層堆疊在預(yù)先訓(xùn)練的卷積層之上,受益于通用的局部特征。上采樣層跟隨ReNet層,在最終預(yù)測中恢復(fù)原始圖像分辨率。圖像分割的另一個(gè)有趣的應(yīng)用是視頻分割,其中連續(xù)的視頻幀被分割。一種方法是獨(dú)立分割每一幀,但由于視頻幀的高度相關(guān)性,這似乎是一種低效的方法。作者建議通過添加LSTM來整合時(shí)間信息,LSTM是一種RNN,可以在網(wǎng)絡(luò)的不同階段有效地處理長時(shí)間依賴性,并且他們報(bào)告了比CNN同行顯著的性能改進(jìn)。

圖8 ReSeg網(wǎng)絡(luò)架構(gòu)(來自[49])

3.7 全景分割

全景分割是一項(xiàng)結(jié)合語義分割和實(shí)例分割的任務(wù),為所有像素分配類標(biāo)簽,并對所有對象實(shí)例進(jìn)行唯一分割,已在多個(gè)基準(zhǔn)數(shù)據(jù)集上取得最先進(jìn)的結(jié)果。

3.8 基于注意力的模型

深度學(xué)習(xí)中的注意力機(jī)制最初用于機(jī)器翻譯,通過自動(dòng)搜索源句中與目標(biāo)詞相關(guān)的部分,以有效捕獲長距離依賴關(guān)系。在語義分割中,注意力機(jī)制通過整合多尺度特征到全卷積網(wǎng)絡(luò),學(xué)習(xí)在每個(gè)像素位置對多尺度特征進(jìn)行軟加權(quán),如圖9所示,以提高分割準(zhǔn)確性。此外,特征金字塔注意力模塊被引入以解決全卷積網(wǎng)絡(luò)的空間分辨率損失問題,提高較小對象的分類性能。注意力輔助的語義分割網(wǎng)絡(luò)已被廣泛應(yīng)用于各種應(yīng)用中。

圖9 尺度感知語義圖像分割架構(gòu)

4 用于語義圖像分割的實(shí)時(shí)深度學(xué)習(xí)架構(gòu)

深度學(xué)習(xí)的語義分割準(zhǔn)確率顯著提高,例如在Cityscapes數(shù)據(jù)集中實(shí)現(xiàn)了65%的mIoU,在PASCAL VOC 2012數(shù)據(jù)集中實(shí)現(xiàn)了67%的mIoU。最近的架構(gòu)如HRNet和[65]的方法在Cityscapes數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集中分別實(shí)現(xiàn)了>85%和>90%的mIoU。在自動(dòng)駕駛汽車和移動(dòng)設(shè)備分段等領(lǐng)域,計(jì)算效率至關(guān)重要,設(shè)計(jì)實(shí)時(shí)系統(tǒng)時(shí)需要考慮計(jì)算/內(nèi)存成本和推理時(shí)間。

4.1 快速傅里葉變換(FFT)

卷積定理指出,兩個(gè)信號的卷積的傅里葉變換是它們傅里葉變換的逐點(diǎn)積。中的作者利用這一事實(shí)改進(jìn)卷積網(wǎng)絡(luò)的訓(xùn)練和推理時(shí)間。直接卷積復(fù)雜度為O(n 2 ?k 2 ),但基于FFT的方法可將復(fù)雜度降低到O(n 2 log n)?;贔FT開發(fā)了訓(xùn)練和推理算法,降低了計(jì)算和存儲(chǔ)的漸近復(fù)雜度,所需ASIC內(nèi)核數(shù)量減少1000倍,推理速度提高10倍,精度略有降低。

4.2 修剪

神經(jīng)網(wǎng)絡(luò)可以通過修剪冗余權(quán)重來減少存儲(chǔ)和內(nèi)存需求,如三步法:訓(xùn)練網(wǎng)絡(luò)識(shí)別重要連接,修剪不重要連接,重新訓(xùn)練網(wǎng)絡(luò)微調(diào)剩余連接權(quán)重。連接數(shù)量可減少9-13倍,性能幾乎不變。中側(cè)重于語義分割網(wǎng)絡(luò)的通道修剪,通過基于分類和分割任務(wù)修剪卷積濾波器,將操作數(shù)量減少50%,僅損失1%的mIoU。網(wǎng)絡(luò)修剪可提高卷積神經(jīng)網(wǎng)絡(luò)和語義分割性能。

4.3 量化

為提高網(wǎng)絡(luò)效率,可減少表示權(quán)重所需的比特?cái)?shù),如從32位減少到5位,并通過共享權(quán)重限制有效權(quán)重?cái)?shù)量。在Bi-Real Net中,作者研究了1位卷積神經(jīng)網(wǎng)絡(luò)的增強(qiáng),通過在二進(jìn)制激活之前采用批歸一化層的實(shí)值輸出并將其連接到下一塊的實(shí)值激活來提高性能。因此,所提出的模型的表征能力遠(yuǎn)高于原始的1位CNN,且計(jì)算成本可以忽略不計(jì)。

4.4 深度可分離卷積

前兩種方法通過修剪和壓縮減小網(wǎng)絡(luò)規(guī)模,Sifre提出了深度可分離卷積,提高了二維卷積的計(jì)算效率,被Xception和MobileNets采用,提高了相對架構(gòu)的效率。常規(guī)卷積的計(jì)算復(fù)雜度取決于輸入/輸出特征圖、輸入通道數(shù)、輸出通道數(shù)和內(nèi)核空間維度。深度可分離卷積將濾波器的卷積分解為兩部分,第一部分需要D2×K2×M,第二部分需要D2×M×N。計(jì)算改進(jìn)的階數(shù)為max(O(N),O(D2)),在濾波器大小或深度增加時(shí)尤為明顯。

4.5 膨脹卷積

作者引入了膨脹卷積,通過在卷積核中插入零來擴(kuò)展有效感受野。如圖10所示,膨脹率越高,覆蓋范圍越大。在語義分割任務(wù)中,膨脹卷積可以指數(shù)地?cái)U(kuò)展感受野,而不會(huì)增加計(jì)算成本。通過堆疊具有不同膨脹率的多個(gè)卷積層,可以顯著提高分割性能。

圖10 3×3膨脹卷積核的示意圖。左:膨脹率=1,中:膨脹率=2,右:膨脹率=4。

ESPNet在[80]中引入,結(jié)合膨脹卷積和深度可分離卷積,形成分解卷積的分解集,參數(shù)數(shù)量少,有效感受野大,引入新系統(tǒng)級指標(biāo)分析CNN性能。

4.6 寬度和分辨率乘數(shù)

兩種降低網(wǎng)絡(luò)復(fù)雜性的方法:寬度乘數(shù)和分辨率乘數(shù)。寬度乘數(shù)通過縮放輸入和輸出通道數(shù)量,以降低每一層的計(jì)算需求。分辨率乘數(shù)通過縮放輸入圖像尺寸,降低整體計(jì)算成本。兩種方法可以結(jié)合使用,以提高網(wǎng)絡(luò)性能。

4.7 早期采樣

提出了一種基于實(shí)驗(yàn)結(jié)果和直覺的設(shè)計(jì)選擇,包括早期降采樣、低特征數(shù)量、濾波器感受野和稀疏上采樣圖,以提高分類和分割任務(wù)的性能。

4.8 更小的解碼器尺寸

討論了語義分割網(wǎng)絡(luò)中編碼器和解碼器的非對稱設(shè)計(jì)。編碼器需要深度以捕獲特征,而解碼器僅需要上采樣,因此可以使用較淺的架構(gòu)以節(jié)省計(jì)算資源。

4.9 有效減小網(wǎng)格尺寸

發(fā)現(xiàn)池化操作可能導(dǎo)致表征瓶頸,通過增加通道數(shù)量補(bǔ)償,但增加了計(jì)算成本。顛倒卷積/池化順序無助于表征瓶頸。作者建議并行執(zhí)行池化操作和步幅為2的卷積,將濾波器庫連接,使初始塊推理時(shí)間加快10倍。

4.10 刪除偏差項(xiàng)

偏置項(xiàng)對語義分割網(wǎng)絡(luò)的總體性能沒有顯著影響,通常會(huì)被丟棄。

4.11 使用小內(nèi)核堆疊多層

計(jì)算成本隨內(nèi)核大小增加,[29]中認(rèn)為多個(gè)小內(nèi)核優(yōu)于單個(gè)大內(nèi)核,原因有二:(a)堆疊三個(gè)3×3卷積層對應(yīng)7×7層,參數(shù)減少一半,(b)合并三個(gè)非線性整流層,使決策函數(shù)更具辨別力。

4.12 通道洗牌操作

分組卷積首次用于多GPU模型,通過并行使用多個(gè)卷積提高分類任務(wù)準(zhǔn)確性。然而,在小網(wǎng)絡(luò)中效率較低,瓶頸是密集1×1卷積。通道洗牌操作(如圖11)可克服此問題,通過重塑、轉(zhuǎn)置和平坦化輸出通道,減少操作數(shù)量至組的倍數(shù)。

圖11 通道洗牌體系結(jié)構(gòu)

4.13 兩個(gè)分支網(wǎng)絡(luò)

通過降采樣原始圖像,可以顯著提高語義分割架構(gòu)的推理速度,但會(huì)導(dǎo)致空間細(xì)節(jié)的損失。為解決此問題,兩個(gè)分支網(wǎng)絡(luò)分別使用全分辨率圖像和降采樣圖像,共享層以提高計(jì)算效率。BiSeNet-V2在保持最佳mIoU性能的同時(shí),實(shí)現(xiàn)了最高的推理速度。

4.14 其他設(shè)計(jì)選擇

除了計(jì)算效率高的方法,還有批歸一化、激活函數(shù)選擇和正則化等設(shè)計(jì)選擇,有助于保持良好性能。批歸一化可加速訓(xùn)練過程;ReLU和PReLU是非線性函數(shù),常用于該領(lǐng)域;正則化可防止過擬合。

5 語義分割數(shù)據(jù)集

表1總結(jié)了用于語義分割的多個(gè)數(shù)據(jù)集,包括用于分類任務(wù)和特定應(yīng)用的圖像集,涵蓋了廣泛的場景和對象類別,并進(jìn)行了像素級注釋。

表1 語義分割數(shù)據(jù)集匯總

5.1 上下文中的常見對象(COCO)

COCO是一個(gè)大規(guī)模的對象檢測、分割和字幕數(shù)據(jù)集,包含33萬張圖像,一半被標(biāo)記。它包括80個(gè)對象類別,91個(gè)東西類,150萬個(gè)對象實(shí)例,是圖像分割任務(wù)中最具挑戰(zhàn)性的數(shù)據(jù)集之一。COCO-Stuff 為COCO 2017數(shù)據(jù)集的所有圖像增加了91個(gè)類別的像素級注釋,完成了更復(fù)雜的任務(wù),如語義分割。

5.2 PASCAL 視覺對象類 (VOC)

PASCAL VOC圖像集廣泛用于分類、檢測、分割、動(dòng)作分類和人員布局。訓(xùn)練集和驗(yàn)證集分別包含1464張和1449張圖像,測試集用于評估。數(shù)據(jù)集包含20個(gè)類別的日常物體,包括飛機(jī)、自行車、鳥、船等。PASCAL Context和PASCAL Part是PASCAL VOC的擴(kuò)展,分別對同一圖像進(jìn)行500多個(gè)類別的注釋和對象分解為幾個(gè)部分并對其進(jìn)行注釋。另外兩個(gè)擴(kuò)展是語義邊界數(shù)據(jù)集(SBD)和PASCAL語義部分(PASParts)。

5.3 ADE20K

ADE20K數(shù)據(jù)集由麻省理工學(xué)院計(jì)算機(jī)視覺實(shí)驗(yàn)室開發(fā),包含25K張圖像,具有密集的注釋圖像和近2700個(gè)類。圖像被手動(dòng)詳細(xì)分割,涵蓋了各種場景、對象和對象部分類別。注釋細(xì)節(jié)如圖12,每個(gè)圖像平均有19.5個(gè)實(shí)例和10.5個(gè)對象類。

圖12 ADE20K訓(xùn)練圖像

他們的場景解析基準(zhǔn)選擇了前150個(gè)類別,使用像素精度、平均精度、平均IoU和加權(quán)IoU作為指標(biāo)。訓(xùn)練集使用了2萬多張圖像,驗(yàn)證集使用了2000張圖像,其余用于測試。數(shù)據(jù)來自50個(gè)城市的立體視頻序列和注釋,涉及30個(gè)類別。

5.4 Cityscapes

Cityscapes數(shù)據(jù)集包含25K張圖像,其中5K張具有高質(zhì)量像素級注釋,20K張具有粗略注釋,分別如圖13a和13b所示。

圖13 Cityscapes訓(xùn)練圖像

基準(zhǔn)套件包含200多個(gè)條目,用于像素級語義標(biāo)注任務(wù),是最多樣化和具挑戰(zhàn)性的城市場景數(shù)據(jù)集,常用于性能評估。

5.5 SYNTHIA

SYNTHIA數(shù)據(jù)集是一個(gè)包含13K個(gè)城市圖像的合成圖像集合,用于自動(dòng)駕駛應(yīng)用。使用像素級注釋生成逼真的合成圖像,并在訓(xùn)練階段與公開可用的現(xiàn)實(shí)城市圖像一起使用,以提高語義分割任務(wù)的性能。SYNTHIA合成圖像的一個(gè)例子見圖14,以及圖像生成所用的城市全景。

圖14 來自 SYNTHIA 的合成圖像示例及其語義標(biāo)簽和城市總體視圖。

5.6 SIFT Flow

SIFT Flow 是處理 LabelMe 圖像子集的數(shù)據(jù)集,包含2688幀準(zhǔn)確像素級注釋,主要對象類別來自室外場景,圖像尺寸較小(256×256像素),用于評估場景解析算法。

5.7 CamVid

CamVid是一個(gè)城市場景數(shù)據(jù)集,包含四個(gè)高清視頻序列,總時(shí)長約22分鐘,約40K幀。其中701個(gè)對象被手動(dòng)標(biāo)記為32個(gè)類別。平均注釋時(shí)間不到20分鐘,需要230個(gè)人工小時(shí)。每個(gè)注釋圖像都經(jīng)過二次檢查和確認(rèn)。

5.8 KITTI

KITTI數(shù)據(jù)集在自動(dòng)駕駛研究中廣泛使用,包含相機(jī)圖像、激光掃描、GPS測量和IMU加速度等傳感器數(shù)據(jù),收集于德國卡爾斯魯厄及其周邊地區(qū)。該數(shù)據(jù)集包含200多張完全注釋的圖像,語義分割基準(zhǔn)包含14個(gè)條目,評估指標(biāo)包括運(yùn)行時(shí)間和環(huán)境信息。

6 指標(biāo)

在本節(jié)中,我們將總結(jié)用于評估不同語義分割方法的基本指標(biāo)。它們要么關(guān)注分割輸出的準(zhǔn)確性(即它與真實(shí)情況的接近程度),要么關(guān)注方法的效率(即推理時(shí)間和內(nèi)存使用)。

6.1 混淆矩陣

在總共有 C 個(gè)類的分割任務(wù)中,混淆矩陣是一個(gè) C × C 表,其中位置 (i, j) 中的元素表示應(yīng)該屬于類 i 但被分類為屬于的像素?cái)?shù) j 類。一個(gè)好的模型會(huì)產(chǎn)生一個(gè)混淆矩陣,其對角線元素(即正確分類的像素)具有高計(jì)數(shù)。

6.2 歸一化混淆矩陣

它源自混淆矩陣,但每個(gè)條目都通過將其除以預(yù)測類 j 的總數(shù)來標(biāo)準(zhǔn)化。這樣所有條目都在 [0, 1] 范圍內(nèi)。

6.3 準(zhǔn)確度

準(zhǔn)確率或全局準(zhǔn)確率是正確分類的像素占總像素的比率。它可以通過將對角線元素之和除以圖像中的總像素來從混淆矩陣導(dǎo)出。準(zhǔn)確性可能會(huì)產(chǎn)生誤導(dǎo),特別是當(dāng)所考慮的類別不平衡時(shí)。例如,如果 95% 的像素屬于一類(通常是背景),則始終預(yù)測此類的簡單模型將獲得 95% 的準(zhǔn)確率,這絕對無法捕獲分割任務(wù)的依賴性。

6.4 平均準(zhǔn)確度

它被定義為每個(gè)類別中正確分類的像素與所有類別的平均總像素的比率。

6.5 并集的平均交集

并集平均交集 (mIoU) 是一個(gè)解決準(zhǔn)確性指標(biāo)的類不平衡弱點(diǎn)的指標(biāo)。特別是,它將模型的逐像素分類輸出與真實(shí)情況進(jìn)行比較,并找到它們的交集和并集(即,有多少像素被正確分類為所有類別 i 的類別 i,以及有多少像素被分類為類別 i)?;蛘邔τ谒蓄?i) 都注釋為類 i。交集與并集的比率(所有類的總和)是 mIoU 或 Jaccard 指數(shù)。它對類別不平衡具有魯棒性,并且可以說是評估語義分割任務(wù)時(shí)最流行的指標(biāo)。

6.6 并集上的加權(quán)交集

這是之前指標(biāo)的一個(gè)小變化,用于說明每個(gè)類別的像素?cái)?shù)量。它計(jì)算每個(gè)類的 IoU 的加權(quán)平均值,并按類中的像素?cái)?shù)進(jìn)行加權(quán)。

6.7 精度

第 i 類的精度定義為分類為 i 的像素中被正確分類的比例??梢詾槎鄠€(gè)類別相應(yīng)地定義平均精度度量。

6.8 召回

第 i 類的召回率定義為第 i 類的實(shí)際像素中被正確分類的比例。類似地,可以為多個(gè)類別相應(yīng)地定義平均召回度量。

6.9 F1 分?jǐn)?shù)

F1-score 通過計(jì)算調(diào)和平均值來聚合精確度/召回率指標(biāo)。它結(jié)合了兩者的功能并提供兩種類型錯(cuò)誤的信息。

6.10 每秒幀數(shù)

以前的所有指標(biāo)都衡量模型輸出的準(zhǔn)確性,但沒有捕獲方法的效率。要捕獲的一個(gè)重要指標(biāo)是網(wǎng)絡(luò)的推理速度,即以每秒幀數(shù) (fps) 為單位測量的執(zhí)行時(shí)間。它是在經(jīng)過充分訓(xùn)練的網(wǎng)絡(luò)上運(yùn)行新圖像推理的時(shí)間的倒數(shù)。在大多數(shù)實(shí)時(shí)應(yīng)用中,需要 30 或更高的 fps,通常要優(yōu)于典型的視頻幀速率。

6.11 內(nèi)存使用

內(nèi)存使用量是網(wǎng)絡(luò)大小的衡量標(biāo)準(zhǔn)。它可以通過參數(shù)數(shù)量(對于深度神經(jīng)網(wǎng)絡(luò)方法)、表示網(wǎng)絡(luò)的內(nèi)存大小或運(yùn)行模型所需的浮點(diǎn)運(yùn)算 (FLOP) 數(shù)量來衡量。

7 性能總結(jié)

本節(jié)匯總了Cityscapes數(shù)據(jù)集上語義分割性能最佳的十個(gè)模型,并簡要總結(jié)了實(shí)現(xiàn)這些結(jié)果的方法。盡管匿名提交的內(nèi)容在基準(zhǔn)評估中占據(jù)了一些表現(xiàn)最好的位置,但并未包含在本部分中。從表2可以看出,大多數(shù)參賽作品都是在過去幾個(gè)月內(nèi)發(fā)布的,競爭非常激烈,進(jìn)展也非常快。

表2 Cityscapes像素級語義標(biāo)簽任務(wù)表現(xiàn)最佳的模型

表3對實(shí)時(shí)語義分割工作進(jìn)行了排名,其中性能指標(biāo)是推理速度(即每秒幀數(shù) (FPS))。前十名中有三個(gè)由一篇論文占據(jù),證明了性能/效率的權(quán)衡。然而,實(shí)時(shí)語義分割已成為現(xiàn)實(shí),多種架構(gòu)的精度接近最先進(jìn)的語義分割模型。

表3 Cityscapes像素級語義標(biāo)簽任務(wù)表現(xiàn)最佳的實(shí)時(shí)模型

參考資料:《 A SURVEY ON DEEP LEARNING METHODS FOR SEMANTIC IMAGE SEGMENTATION IN REAL-TIME》

文章轉(zhuǎn)自微信公眾號@算法進(jìn)階

上一篇:

機(jī)器學(xué)習(xí)最全知識(shí)點(diǎn)(萬字長文匯總)

下一篇:

從 0 實(shí)現(xiàn)多分類SVM(Python)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對比試用API 限時(shí)免費(fèi)