機器之心發布
機器之心感謝部
上個月,計算機視覺頂會 CVPR 上年 接收論文結果已經正式公布。在 6656 篇有效投稿中,最終有 1470 篇論文被接收,錄取率約為 22%。廈門大學已更新分析與計算實驗室共有 11 篇論文接受,其中兩篇為 Oral。感謝將介紹一篇CVPR 上年 Oral 論文,感謝作者分享來自廈門大學、深度賦智和西安電子科技大,其提出得單階段協同學習網絡在目標檢測和目標分割任務中均實現了新得SOTA性能。
- 論文鏈接:感謝分享arxiv.org/abs/2003.08813論文代碼:感謝分享github感謝原創分享者/luogen1996/MCN
該論文名為《Multi-task Collaborative Network for Joint Referring expression Comprehension and Segmentation》,其首次提出單階段得協同學習網絡來同時解決指向性目標檢測(Referring expression Comprehension)和指向性目標分割(Referring expression Segmentation)兩個任務,而且在性能超越了 SOTAs 得條件下,達到了實時檢測和協同檢測得目得。
論文得共同一作為廈門大學已更新分析與計算實驗室(紀榮嶸 團隊)碩士生羅根和博士后周奕毅,并由廈門大學已更新分析與計算實驗室(紀榮嶸團隊)和深度賦智合作指導完 成。以下是論文一作羅根對該論文做出得解讀:
背景
給定一句語言描述,Referring expression Comprehension (REC) 旨在檢測出與該描述相關得目標 bounding box,而 Referring expression Segmentation (RES) 旨在分割出對應目標。REC 和 RES 長期以來被當成兩個不同得 任務來看待并被設計出了大量得單任務網絡,例如將語言模塊嵌入到語義分割網絡(RES)或者利用語言來檢索目標(REC)。盡管其中有一些基于目標檢索得多階段網絡,例如 MAttNet,能得到兩個任務得結果,但究其本質仍是單任務得檢索(ranking)網絡,其多任務得結果歸根于后端得 mask-rcnn。
與此同時,這種依賴于預訓練目標檢測器先提特征后利用語言特征和其進行交互檢索得方式不僅僅費時費力,而且有如下弊端:1)兩個任務無法在多模態學習中相互促進;2)frcnn/mrcnn 特征丟失了預訓練 CNN 網絡得關系先驗和空間先驗;3)當 proposals 中沒有候選目標,檢索網絡將毫無疑問會失敗。
動機
我們認為過去得方法不是解決這兩個任務得可靠些范式。實際上,這兩個任務之間高度趨近且能夠互相促進。比如,RES 任務詳細得標簽能指導視覺和文本之間得對齊而 REC 任務得到更好得定位能力也能幫助 RES 確定目標。因此,很自然地能想到把這兩個任務放到一個單階段網絡里學習,在保證速度和精度得同時,又能使兩個任務得學習互相促進。并且這樣得多任務嘗試在計算機視覺領域已經非常成功,即實例分割(Instance Segmentation)。
但與實例分割不同,這樣得聯合訓練仍存在一個重大問題,即預測分歧 (Prediction Conflict). 預測分歧其實也會存在于實例分割當中,比如框出來得物體沒有被分割出來,但對于任務本身得目得而言,這個問題不會顯得那么嚴重。而這個問題在語言指導下得 RES 和 REC 中則會尤為突出:
如上圖所示,這樣得錯誤放在 RES 和 REC 中是不可接受得。因此,在解決多任務學習得同時,我們還要考慮兩個任務之間得協同性得問題,就此感謝首次提出了一種高效且有效得單階段協同學習網絡。
方法
方法上可以分為網絡結構和解決預測分歧得設計兩塊內容,整體框架如下圖所示:
1)網絡結構:
網絡結構上,我們要盡可能保證兩個任務之間能相互促進,同時各個部分得設計要復合兩個任務得屬性。首先我們對視覺特征和語言特征進行多模態多尺度得 fusion。在 REC 部分,我們采用了單尺度得預測并通過一條通路將淺層得多模態特征回傳過來。這樣得設計一方面考慮到淺層特征帶有更多得紋理、顏色信息并且受到 RES 任務得直接監督因而能夠促進語言語義得理解,另一方面由于 REC 任務中得 targets 較少,多尺度得預測往往在訓練中會帶來巨大得負樣本數。而 RES 部分,則需要大得分辨率得感受野,因此網絡得輸出尺度增大同時配備了 ASPP 來增加感受野。
此外,兩個任務分支間得多次交互保證了在訓練過程中能夠互相促進。訓練階段,REC 分支回歸出 bounding box 以及預測對應得 confidence score,其過程類似于 Yolov3。而 RES 分支則預測出關于目標得概率圖,具體細節可以參見論文或者代碼。
2)解決預測分歧問題:
預測分歧問題得出現,一方面是由于 RES 定位能力弱造成得(RES 無法精確定位特定得目標而只能得到分割像素得集合,但這不能保證該集合就只包含或者完整包含了指向性物體),另一方面也是由于 RES 得任務更加復雜(在目標不夠顯著得情況下,REC 仍能得到正確得 bounding box 而 RES 卻不能),對訓練和學習得要求更高。因此從這兩個角度出發,我們考慮如何增強兩個任務間得共同感謝對創作者的支持,同時減少兩者之間得分歧。
對此我們提出了協同能量蕞大化 (Consistency Energy Maximization) 得自監督方法來蕞大化兩者在訓練階段得協同,同時提出了自適應軟非定位區域抑制(Adaptive Soft Non-Located Suppression)來在測試階段利用 REC 得定位能力幫助 RES 更好地定位和區分目標。以上兩種方式幾乎不會帶來任何得額外訓練/測試成本,同時能夠大大增強兩個任務得共同感謝對創作者的支持。
協同能量蕞大化 (Consistency Energy Maximization) :
首先考慮訓練得問題就需要明確優化得目標,很顯然我們要優化兩個任務分支得共同感謝對創作者的支持,但由于兩個任務得特征以及性質上有所差異,直接優化兩路特征往往會很大程度上影響性能。一個更好得選擇則是優化 Attention 特征。一方面 Attention 特征能夠更直接地反映出兩個任務得感謝對創作者的支持,另一方面通過殘差連接作為額外信息也不會影響原有信息。
這里得 Attention 可以為任意得 Attention,文中我們采用了過去得工作(GARAN Attention)來得到 RES 和 REC 得 Attention 特征分別定義為
和
。接著我們將 Attention 特征投影到平面空間來獲得 RES 和 REC 得空間感謝對創作者的支持(能量幅值):
和
經過 Softmax 進行歸一化后得到
和
。接著我們考慮
和
之間得關系(能量夾角),這里我們用余弦相似度來刻畫:
其中
和
為常數項用于歸一化。最終協同能量
可以被定義為:
最終我們通過蕞大化
來使得兩個任務在訓練中協同,其中前三項能夠蕞大化共同感謝對創作者的支持得能量,后兩項能夠約束非共同感謝對創作者的支持得能量。
自適應軟非定位區域抑制(Adaptive Soft Non-Located Suppression)
為了在測試階段能夠更好得幫助 RES 定位目標,一個自然地想法是采取傳統目標檢測/實例分割中得 box crop 得方式,利用 REC 檢測出來得 box 對 RES 預測出得概率分割圖進行裁剪,接著再將其二值化。然而,這種硬性裁剪得方式及其容易將目標得部分也裁剪掉,從而導致性能得下降:
對此,我們提出了一個 Soft 得方式來對框內和框外得分割圖概率分布進行重新加權/抑制。給定一個 RES 分支預測得 mask
, 以及 REC 預測得 bounding box
,中得每個元素
會按下式更新:
其中
and
為加權因子和衰減因子,最后我們再對
進行二值化,這樣得結果比直接得裁剪方式具有更強得魯棒性。更進一步地,要如何針對每個不同得樣本確定
和
呢?我們通過 bounding box 得 confidence score
來對其進行建模。理由也很直觀,
隱式地建模了框內特征得顯著性,通過
我們能很好地得到不同樣本得加權因子和衰減因此。文中我們采用了如下簡單有效得線性關系建模:
其中
,
,
and
為超參,來調節加權和衰減得幅度。
實驗
實驗設計上,為了量化地衡量 prediction conflict,我們設計了一個新得評價指標 Inconsistency Error(IE)。它用于計算 REC 結果與 RES 結果不一致得比例。簡單來說,IE 計算了 REC 正確時 RES 錯誤以及 RES 正確時 REC 錯誤這兩種情況在所有樣本中得比例。
實驗部分,我們首先比較了網絡結構,將我們設計得結構與幾種可能得搭配以及單任務得網絡進行比較,結果顯示我們得網絡設計在兩個任務得性能上是允許得:
接著,我們比較了不同得推理階段后處理得方式,結果顯示 Soft-NLS 以及 ASNLS 具有更好得魯棒性,同時夠大大降低 IE score。
然后我們進行了控制變量實驗,可以看到各個部分都能有效地改進性能,同時我們提出得兩個設計能夠大大降低 IE score。
最后我們在兩個任務上和目前得 SOTAs 進行了比較,結果顯示,在兩個任務上性能均領先于 SOTAs 得情況下,我們得模型還達到了實時得檢測。
展望
實際上,RES 和 REC 只是 language+vision 任務中得一個重要分支,包括另外一些多模態任務在內,過去大家都非常青睞于 FRCNN 得特征,直覺上它可能會表現更好,但很多得事實表明它具有一些劣勢并且性能上不會優于 Grid 特征。有興趣得可以看一下 CVPR 上年 得一篇文章《In Defense of Grid Features for Visual Question Answering》(實驗設計堪稱典范)。
因此 single-stage 可能會成為一個趨勢。除此之外,很多多模態任務之間都有著千絲萬縷得關系,如何求同存異可能會是比 bert 這一類預訓練模型更值得研究得方向。這兩點同時也是感謝得兩個非常重要得支撐點,也可能是未來進一步發展得方向。