Relation Matters: Foreground-aware Graph-based Relational Reasoning for Domain Adaptive Object Detection

要約

領域適応型物体検出(DAOD)は、知識移転により物体検出器の汎化能力を向上させることに焦点を当てている。DAODの最近の進歩は、きめ細かい特徴アライメント手法により、適応プロセスの重点をグローバルからローカルに変更することに努めている。しかし、グローバルアライメントとローカルアライメントのどちらのアプローチも、ドメイン間やドメイン内の明示的な依存関係や相互作用が無視されているため、異なる前景オブジェクト間の位相的関係を捉えることに失敗している。この場合、1対1のアライメントを求めるだけでは、必ずしも正確な知識伝達を確保することはできない。さらに、従来のアライメントベースのアプローチは、ターゲットドメインにおける不正確な位置特定結果の蓄積により、伝達可能性の低い領域(背景など)に関して壊滅的なオーバーフィッティングを起こす可能性がある。これらの問題を解決するために、我々はまずDAODをオープンセット領域適応問題として定式化し、前景と背景をそれぞれ「既知クラス」と「未知クラス」と見なす。これにより、DAODモデルに、一般的なアライメントベースのパラダイムを超える関係推論の機能を付与することができる。ドメイン間の視覚的、意味的相関は二部グラフ構造により階層的にモデル化され、ドメイン内の関係はグラフアテンションメカニズムにより符号化される。実証実験の結果、提案するFGRRは4つのDAODベンチマークにおいて最先端技術を凌駕する性能を持つことが示された。

要約(オリジナル)

Domain Adaptive Object Detection (DAOD) focuses on improving the generalization ability of object detectors via knowledge transfer. Recent advances in DAOD strive to change the emphasis of the adaptation process from global to local in virtue of fine-grained feature alignment methods. However, both the global and local alignment approaches fail to capture the topological relations among different foreground objects as the explicit dependencies and interactions between and within domains are neglected. In this case, only seeking one-vs-one alignment does not necessarily ensure the precise knowledge transfer. Moreover, conventional alignment-based approaches may be vulnerable to catastrophic overfitting regarding those less transferable regions (e.g. backgrounds) due to the accumulation of inaccurate localization results in the target domain. To remedy these issues, we first formulate DAOD as an open-set domain adaptation problem, in which the foregrounds and backgrounds are seen as the “known classes” and “unknown class” respectively. Accordingly, we propose a new and general framework for DAOD, named Foreground-aware Graph-based Relational Reasoning (FGRR), which incorporates graph structures into the detection pipeline to explicitly model the intra- and inter-domain foreground object relations on both pixel and semantic spaces, thereby endowing the DAOD model with the capability of relational reasoning beyond the popular alignment-based paradigm. The inter-domain visual and semantic correlations are hierarchically modeled via bipartite graph structures, and the intra-domain relations are encoded via graph attention mechanisms. Empirical results demonstrate that the proposed FGRR exceeds the state-of-the-art performance on four DAOD benchmarks.

arxiv情報

著者 Chaoqi Chen,Jiongcheng Li,Hong-Yu Zhou,Xiaoguang Han,Yue Huang,Xinghao Ding,Yizhou Yu
発行日 2022-06-06 05:12:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク