深度學習在視覺上的應用

發布時間:2022-12-30 08:09:26發布者:網站發布

計算機視覺中比較成功的深度學習的應用,包括人臉識別,圖像問答,物體檢測,物體跟蹤。



人臉識別


這里說人臉識別中的人臉比對,即得到一張人臉,與數據庫里的人臉進行比對;或同時給兩張人臉,判斷是不是同一個人。


這方面比較超前的是湯曉鷗教授,他們提出的DeepID算法在LWF上做得比較好。他們也是用卷積神經網絡,但在做比對時,兩張人臉分別提取了不同位置特征,然后再進行互相比對,得到最后的比對結果。最新的DeepID-3算法,在LWF達到了99.53%準確度,與肉眼識別結果相差無幾。


圖片問答問題


這是2014年左右興起的課題,即給張圖片同時問個問題,然后讓計算機回答。比如有一個辦公室靠海的圖片,然后問“桌子后面有什么”,神經網絡輸出應該是“椅子和窗戶”。





這一應用引入了LSTM網絡,這是一個專門設計出來具有一定記憶能力的神經單元。特點是,會把某一個時刻的輸出當作下一個時刻的輸入。可以認為它比較適合語言等,有時間序列關系的場景。因為我們在讀一篇文章和句子的時候,對句子后面的理解是基于前面對詞語的記憶。


圖像問答問題是基于卷積神經網絡和LSTM單元的結合,來實現圖像問答。LSTM輸出就應該是想要的答案,而輸入的就是上一個時刻的輸入,以及圖像的特征,及問句的每個詞語。



物體檢測問題(Region CNN)



深度學習在物體檢測方面也取得了非常好的成果。2014年的Region CNN算法,基本思想是首先用一個非深度的方法,在圖像中提取可能是物體的圖形塊,然后深度學習算法根據這些圖像塊,判斷屬性和一個具體物體的位置。



為什么要用非深度的方法先提取可能的圖像塊?因為在做物體檢測的時候,如果你用掃描窗的方法進行物體監測,要考慮到掃描窗大小的不一樣,長寬比和位置不一樣,如果每一個圖像塊都要過一遍深度網絡的話,這種時間是你無法接受的。

所以用了一個折中的方法,叫Selective Search。先把完全不可能是物體的圖像塊去除,只剩2000左右的圖像塊放到深度網絡里面判斷。那么取得的成績是AP是58.5,比以往幾乎翻了一倍。有一點不盡如人意的是,region CNN的速度非常慢,需要10到45秒處理一張圖片。


Faster R-CNN方法


而且我在去年NIPS上,我們看到的有Faster R-CNN方法,一個超級加速版R-CNN方法。它的速度達到了每秒七幀,即一秒鐘可以處理七張圖片。技巧在于,不是用圖像塊來判斷是物體還是背景,而把整張圖像一起扔進深度網絡里,讓深度網絡自行判斷哪里有物體,物體的方塊在哪里,種類是什么?


經過深度網絡運算的次數從原來的2000次降到一次,速度大大提高了。


Faster R-CNN提出了讓深度學習自己生成可能的物體塊,再用同樣深度網絡來判斷物體塊是否是背景?同時進行分類,還要把邊界和給估計出來。


Faster R-CNN可以做到又快又好,在VOC2007上檢測AP達到73.2,速度也提高了兩三百倍。


YOLO


去年FACEBOOK提出來的YOLO網絡,也是進行物體檢測,最快達到每秒鐘155幀,達到了完全實時。它讓一整張圖像進入到神經網絡,讓神經網絡自己判斷這物體可能在哪里,可能是什么。但它縮減了可能圖像塊的個數,從原來Faster R-CNN的2000多個縮減縮減到了98個。



同時取消了Faster R-CNN里面的RPN結構,代替Selective Search結構。YOLO里面沒有RPN這一步,而是直接預測物體的種類和位置。


YOLO的代價就是精度下降,在155幀的速度下精度只有52.7,45幀每秒時的精度是63.4。


SSD


在arXiv上出現的最新算法叫Single Shot MultiBox Detector,即SSD。



它是YOLO的超級改進版,吸取了YOLO的精度下降的教訓,同時保留速度快的特點。它能達到58幀每秒,精度有72.1。速度超過Faster R-CNN 有8倍,但達到類似的精度。


物體跟蹤


所謂跟蹤,就是在視頻里面第一幀時鎖定感興趣的物體,讓計算機跟著走,不管怎么旋轉晃動,甚至躲在樹叢后面也要跟蹤。




深度學習對跟蹤問題有很顯著的效果。DeepTrack算法是我在澳大利亞信息科技研究院時和同事提出的,是第一在線用深度學習進行跟蹤的文章,當時超過了其它所有的淺層算法。


今年有越來越多深度學習跟蹤算法提出。去年十二月ICCV 2015上面,馬超提出的Hierarchical Convolutional Feature算法,在數據上達到最新的記錄。它不是在線更新一個深度學習網絡,而是用一個大網絡進行預訓練,然后讓大網絡知道什么是物體什么不是物體。



將大網絡放在跟蹤視頻上面,然后再分析網絡在視頻上產生的不同特征,用比較成熟的淺層跟蹤算法來進行跟蹤,這樣利用了深度學習特征學習比較好的好處,同時又利用了淺層方法速度較快的優點。效果是每秒鐘10幀,同時精度破了記錄。


最新的跟蹤成果是基于Hierarchical Convolutional Feature,由一個韓國的科研組提出的MDnet。它集合了前面兩種深度算法的集大成,首先離線的時候有學習,學習的不是一般的物體檢測,也不是ImageNet,學習的是跟蹤視頻,然后在學習視頻結束后,在真正在使用網絡的時候更新網絡的一部分。這樣既在離線的時候得到了大量的訓練,在線的時候又能夠很靈活改變自己的網絡。






在線留言
姓名:
電話:
 
比特币钱包,tp钱包苹果手机怎么下载,u收款下载,u支付是什么平台,转u钱包下载