checkbox wpf 改变框的大小_【论文阅读】倾斜目标范围框(标注)的终极方案
前言
最常用的斜框標(biāo)注方式是在正框的基礎(chǔ)上加一個(gè)旋轉(zhuǎn)角度θ,其代數(shù)表示為(x_c,y_c,w,h,θ),其中(x_c,y_c )表示范圍框中心點(diǎn)坐標(biāo),(w,h)表示范圍框的寬和高[1,2,7]。對于該標(biāo)注方式,如果將w和h的值互換,再將θ加上或者減去2kπ+π?2,就能夠表示同一個(gè)范圍框。由于同一個(gè)范圍框有多種不同的數(shù)值表示,會導(dǎo)致近似范圍框之間的數(shù)值差異有大大小小多種情況。如果近似范圍框之間的數(shù)值差異大,對于基于監(jiān)督分類的方法來說,就是損失函數(shù)的取值異常[7],不利于模型訓(xùn)練。此標(biāo)注方式還有一種變形,標(biāo)注正框時(shí)不是記錄寬和高,而是記錄中心點(diǎn)到四邊的距離[6],當(dāng)然同樣會有損失異常的問題。
記錄四個(gè)頂點(diǎn)的坐標(biāo)也可以用于標(biāo)注斜框,武大夏桂松和華科白翔團(tuán)隊(duì)制作的DOTA[4]數(shù)據(jù)集以及中國科學(xué)院大學(xué)模式識別與智能系統(tǒng)開發(fā)實(shí)驗(yàn)室標(biāo)注的UCAS-AOD[5]數(shù)據(jù)集就采用了這種標(biāo)注方式。由于可以從四個(gè)頂點(diǎn)中的任意一個(gè)開始記錄,此標(biāo)注方式導(dǎo)致同一個(gè)范圍框有多種不同的數(shù)值表示,進(jìn)而會導(dǎo)致?lián)p失異常[7],增加回歸難度,不利于模型訓(xùn)練。避免損失異常的現(xiàn)行方式是按照坐標(biāo)值排序頂點(diǎn),然后計(jì)算對應(yīng)坐標(biāo)點(diǎn)之間的差異。這種處理方式也是有問題的,對坐標(biāo)值排序會改變數(shù)值維度間的對應(yīng)關(guān)系[8, 9],也就是說,在某次損失計(jì)算過程中預(yù)測向量的第一維對應(yīng)真值向量的第二維,在另外一次損失計(jì)算過程中第一維可能對應(yīng)第三維。這種對應(yīng)關(guān)系的隨機(jī)性同樣不利于模型訓(xùn)練。記錄四個(gè)頂點(diǎn)坐標(biāo)的好處是可以表示任意四邊形,但是在表示矩形時(shí)會有三個(gè)冗余量。一種去除冗余的方式是按順時(shí)針順序記錄矩形四個(gè)頂點(diǎn)中的前兩個(gè)和第二個(gè)頂點(diǎn)到第三個(gè)頂點(diǎn)的距離[7],但是同樣會出現(xiàn)一個(gè)范圍框有多種不同的數(shù)值表示。
還有一種斜框標(biāo)注方式是記錄斜框的外接正框以及斜框四個(gè)頂點(diǎn)與正框四個(gè)頂點(diǎn)順時(shí)針方向的偏移量[8]。該標(biāo)注方式同樣可以表示任意四邊形,如果只記錄斜框量個(gè)頂點(diǎn)與正框兩個(gè)頂點(diǎn)順時(shí)針方向的偏移量就只能表示矩形框[9]。目前沒有用該標(biāo)注方式標(biāo)注樣本的,而是用于先預(yù)測正框再進(jìn)一步預(yù)測真實(shí)的斜框,在預(yù)測正框時(shí)將錨點(diǎn)框向斜框的外接正框回歸。但是要想斜框預(yù)測得準(zhǔn)確就要求正框也得預(yù)測準(zhǔn)確,增加了預(yù)測目標(biāo)數(shù)量,也就增加了回歸難度,同樣不利于模型訓(xùn)練。
本文提供了一種矩形斜框標(biāo)注方式,可以用作樣本標(biāo)注和模型的回歸目標(biāo)。該標(biāo)注方式?jīng)]有冗余量,同一個(gè)范圍框只有一種數(shù)值表示,作為回歸目標(biāo)時(shí)不會出現(xiàn)損失異常,有利于模型訓(xùn)練。本文還將此標(biāo)注方式與多種其他傾斜范圍框標(biāo)注方式在目標(biāo)檢測任務(wù)上進(jìn)行了對比驗(yàn)證。對比實(shí)驗(yàn)證明此標(biāo)注方式對于朝向任意、密集排布的目標(biāo)檢測具有一定的優(yōu)勢。
標(biāo)注方法
本文提供的斜框標(biāo)注方式用于標(biāo)注的量有“中心點(diǎn)C的坐標(biāo)、中心點(diǎn)到任意一個(gè)頂點(diǎn)D的向量□((CD) ? )、C到D的一個(gè)相鄰頂點(diǎn)E的向量□((CE) ? )在□((CD) ? )上的投影向量□((CP) ? )與□((CD) ? )的比例系數(shù)”,代數(shù)表示為(x_c,y_c,u,v,ρ),其中(x_c,y_c )為中心點(diǎn)C的坐標(biāo),(u,v)為向量□((CD) ? )的坐標(biāo),ρ為向量□((CP) ? )與□((CD) ? )的比例系數(shù)。
圖1中黑實(shí)線表示傾斜范圍框,X表示表示圖像行方向上的坐標(biāo)軸,Y表示圖像列方向上的坐標(biāo)軸,C表示范圍框的中心點(diǎn),D、E為范圍框的某兩個(gè)頂點(diǎn),P為□((CE) ? )在□((CD) ? )上的投影點(diǎn)。
由于向量□((CD) ? )可以從四個(gè)中任取,□((CE) ? )向量可以從兩個(gè)中任取,必須提供一些外在約束確保標(biāo)注方式數(shù)值表示的唯一性。首先,要求ρ的取值范圍為[0,1) ,也就是□((CP) ? )與□((CD) ? )同向;另外要求從□((CD) ? )到□((CE) ? )的夾角只能是順時(shí)針方向或者逆時(shí)針方向中的一種。
圖1-用于標(biāo)注范圍框的量有中心點(diǎn)C、向量□((CD) ? )、□((CP) ? )與□((CD) ? )的比例系數(shù)如此一來,同一個(gè)范圍框只有兩種數(shù)值表示。也就是說,將向量□((CD) ? )取反,但保持其它值不變,仍然表示同一個(gè)范圍框。由于同一個(gè)范圍框的兩種表示之間只有向量(CD) ?是相反的,可以引入一個(gè)量s表示(CD) ?的兩個(gè)分量是同正負(fù)的還是一正一負(fù)的(后文將稱之為同號或異號,可見s只有兩種取值),那么可以用(|u|,|v|,s)表示(CD) ?和-(CD) ?。同號時(shí),(CD) ?和-(CD) ?分別為(|u|,|v| )和(-|u|,-|v| );異號時(shí),(CD) ?和-(CD) ?分別為(-|u|,|v| )和(|u|,-|v| )。此時(shí)就可以將同一個(gè)范圍框的數(shù)值表示減少到一個(gè),其代數(shù)表示為(x_c,y_c,|u|,|v|,s,ρ)。
從圖1中還可以看出,如果是正框,顯然向量(CD) ?的坐標(biāo)就是范圍框?qū)捀叩囊话搿?梢酝ㄟ^令(u,v)=2(CD) ?使該標(biāo)注方式與正框的相應(yīng)標(biāo)注方式兼容。
求解頂點(diǎn)坐標(biāo)和邊長
在給定標(biāo)注數(shù)值(x_c,y_c,|u|,|v|,s,ρ)時(shí),向量□((CD) ? )就是已知的,向量□((CP) ? )可以表示為□(ρ(CD) ? )。那么要獲得范圍框四個(gè)頂點(diǎn)的坐標(biāo),將引入的外部約束用方程進(jìn)行表示,通過求解以下方程組的實(shí)現(xiàn)。
方程組中的第一個(gè)式子表示向量□((EP) ? )與向量□((CD) ? )垂直,第二個(gè)式子表示向量□((CP) ? )與向量□((CD) ? )的長度相等,第三個(gè)式子表示從□((CD) ? )到□((CE) ? )的夾角只能是順時(shí)針方向或者逆時(shí)針方向中的一種。第三個(gè)式子只取用一個(gè)即可。
范圍框的邊長可以用下式計(jì)算。
式中w_b是范圍框的短邊長度,h_b是范圍框的長邊長度。
正方形范圍框
易知,在范圍框是正方形時(shí),即使?jié)M足前述約束條件,仍然有兩種數(shù)值表示。取任意一個(gè)頂點(diǎn)作為參考向量□((CD) ? ),中心點(diǎn)到其順時(shí)針或逆時(shí)針方向的相鄰頂點(diǎn)的向量在□((CD) ? )上的投影總是0。如果ρ的取值不允許為0,就不能表示正方形范圍框,雖然正方形范圍框非常少見。
我們解決方案是,為正方形范圍框引入額外的約束:□((CD) ? )與X軸夾角的取值范圍為[ 0,90) 度。這這個(gè)約束條件下,□((CD) ? )只能落在X軸上或者第一、三象限。
圖2 正方形范圍框s的損失平滑
圖3中實(shí)線和虛線范圍框的s值不同,但是它們卻是非常近似的范圍框。因此s值的差異不能真實(shí)體現(xiàn)范圍框之間的差異。容易看出,□((CD) ? )與坐標(biāo)軸的夾角越小,s的差異越是不能真實(shí)體現(xiàn)范圍框之間的差異。
圖3 s值不同,但是它們卻是非常近似的范圍框□((CD) ? )與坐標(biāo)的夾角越小,□((CD) ? )的兩個(gè)分量的模之間的差異越大。當(dāng)□((CD) ? )的兩個(gè)分量的模之間的差異大到一定程度后,為s的差值乘上一個(gè)很小的權(quán)重來平滑s的差異與范圍框的真實(shí)差異間的錯(cuò)配。
我們首先設(shè)計(jì)了一個(gè)函數(shù)用于度量□((CD) ? )的兩個(gè)分量的模之間的差異。
其中|u|,|v|分別是□((CD) ? )的兩個(gè)分量的模。可見diff的取值范圍為[0,1],當(dāng)|u|,|v|相等時(shí)取零,當(dāng)其中一個(gè)為0時(shí)取1。在公式(4)中采用了平方函數(shù),實(shí)際應(yīng)用中,為了加快計(jì)算速度推薦使用求絕對值函數(shù)。然后將diff代入反Sigmoid函數(shù)求出s損失的權(quán)重。(PS:相減除以相加是常用的評估兩個(gè)數(shù)量之間相對差異的方式,比如NDVI、NDWI。)
后記
弄這個(gè)東西純屬于臨時(shí)起意,早些時(shí)候?yàn)楣咀隽艘粋€(gè)基于深度學(xué)習(xí)的遙感影像目標(biāo)檢測軟件,總覺得當(dāng)時(shí)用的范圍框標(biāo)注方式不夠好。抽了個(gè)時(shí)間琢磨了一下,設(shè)計(jì)了這樣一種標(biāo)注方法。先寫好了專利,覺得把時(shí)間投入到深度學(xué)習(xí)里純屬于浪費(fèi)生命,問了幾個(gè)人是否愿意參與進(jìn)來做個(gè)實(shí)驗(yàn),我來寫個(gè)論文,一作讓出去;然而他們不是沒空,就是水平?jīng)]到。
這個(gè)標(biāo)注方式確實(shí)還有點(diǎn)價(jià)值,不想給埋沒了,只得自己動手,設(shè)計(jì)了一個(gè)目標(biāo)檢測網(wǎng)絡(luò),在一些數(shù)據(jù)集上初步試驗(yàn)了效果,寫了論文的初稿。恰好用了一個(gè)月的時(shí)間,下面那個(gè)分割算法倉庫的提交日志記錄下來了時(shí)間,2-15到3-15。
最終論文會發(fā)表到國內(nèi)某個(gè)學(xué)報(bào)上。發(fā)論文不是目的,都是先寫專利,論文從專利說明書改出來的。專利說明書中文寫的,也不想翻譯,發(fā)中文期刊省事。
這里僅介紹了范圍框標(biāo)注方式,正式發(fā)表的論文里還包含了一個(gè)用于對比驗(yàn)證這個(gè)標(biāo)注方式的網(wǎng)絡(luò),還有一些試驗(yàn)數(shù)據(jù)和結(jié)論。關(guān)于那個(gè)目標(biāo)檢測網(wǎng)絡(luò)沒啥好說的,結(jié)構(gòu)簡單不新奇。有了這個(gè)標(biāo)注方式,諸位可以輕松想到,或者想到更好的。另外……
神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)有啥好說的論文出來之后,代碼將會公開到tgis-top/TRD。
引用
[1] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: towards real-time object detection with region proposal networks. In IEEE Transactions on Pattern Analysis and Machine Intelligence, (6):1137–1149, 2017.
[2] Joseph Redmon, Santosh Divvala, Ross Girshick and Ali Farhadi. You only look once: Unified, real-time object detection. In Proc. of CVPR, p779–788, 2016.
[3] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. Ssd: Single shot multibox detector. In ECCV, p21–37. Springer, 2016.
[4] Gui-Song Xia, Xiang Bai, Jian Ding, Zhen Zhu, Serge Belongie, Jiebo Luo, Mihai Datcu, Marcello Pelillo, and Liangpei Zhang. DOTA: A Large-scale Dataset for Object Detection in Aerial Images. In CVPR, 2018.
[5] Haigang Zhu, Xiaogang Chen, Weiqun Dai, Kun Fu, Qixiang Ye, Jianbin Jiao. Orientation Robust Object Detection in Aerial Images Using Deep Convolutional Neural Network. IEEE Int'l Conf. Image Processing, 2015.
[6] Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, and Jiajun Liang. East: an efficient andaccurate scene text detector. In Proc. CVPR, p2642–2651, 2017.
[7] Yingying Jiang, Xiangyu Zhu, Xiaobing Wang, Shuli Yang,Wei Li, Hua Wang, Pei Fu, and Zhenbo Luo. R2cnn: rotational region cnn for orientation robust scene text detection. arXiv:1706.09579, 2017.
[8] Xue Yang,Jirui Yang, Junchi Yan, Yue Zhang, Tengfei Zhang, Zhi Guo, Sun Xian, and Kun Fu. SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objs. In ICCV, 2019.
[9] Yongchao Xu, Mingtao Fu, Qimeng Wang, Yukang Wang, Kai Chen, Gui-Song Xia, and Xiang Bai. Gliding vertex on the horizontal bounding box for multi-oriented obj detection. arXiv:1911.09358, 2019.
[10] Youtian Lin, Pengming Feng, and Jian Guan. IENet: Interacting Embranchment One Stage Anchor Free Detector for Orientation Aerial Object Detection. arXiv:1912.00969, 2019.
[11] Tsung-Yi Lin, Piotr Doll ?ar, Ross B Girshick, Kaiming He, Bharath Hariharan, and Serge J Belongie. Feature pyramid networks for object detection. In Proc. of CVPR, vol 1, page 4, 2017.
[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proc. of CVPR, pages 770–778, 2016.
總結(jié)
以上是生活随笔為你收集整理的checkbox wpf 改变框的大小_【论文阅读】倾斜目标范围框(标注)的终极方案的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2023年芒种节气是几月几号几时几分几秒
- 下一篇: 续言的沙发真皮材料好吗?