要約
タイトル:弱教師付き異種ドメイン物体検出のための追加グローバル集約を備えたDETR
要約:
– DETR-GAと呼ばれる新しい異種ドメイン物体検出器を提案する。
– DETRは、エンコーダーとデコーダーが両方ともアテンションメカニズムに基づいており、画像全体の意味を集約することができるという洞察に基づいて、異種ドメイン物体検出に強いポテンシャルを持っていると考えられる。
– DETR-GAは、’インスタンスレベル+画像レベル’の予測を同時に行い、 ‘強い+弱い’の教師信号を利用して異種ドメイン物体検出を行う。
– モデルのキャパシティを利用するために、エンコーダーとデコーダーに対して、各クラスクエリ/フォアグラウンドクエリを追加して、意味を画像レベル予測に集約する。
– DETR-GAの最大の利点は、エンコーダーの弱教師付きクラスクエリが、対応する位置をおおよそ特定し、非関係領域から注意をそらすことができることである。
– 実験の結果、DETR-GAは4つの異なる異種ドメインベンチマークにおいて、CSWSODを大幅に改善し、現状に比べて優位性を示す(例:PASCAL VOC – > Clipart_allデータセットで29.0%-> 79.4%mAP)。
要約(オリジナル)
This paper presents a DETR-based method for cross-domain weakly supervised object detection (CDWSOD), aiming at adapting the detector from source to target domain through weak supervision. We think DETR has strong potential for CDWSOD due to an insight: the encoder and the decoder in DETR are both based on the attention mechanism and are thus capable of aggregating semantics across the entire image. The aggregation results, i.e., image-level predictions, can naturally exploit the weak supervision for domain alignment. Such motivated, we propose DETR with additional Global Aggregation (DETR-GA), a CDWSOD detector that simultaneously makes ‘instance-level + image-level’ predictions and utilizes ‘strong + weak’ supervisions. The key point of DETR-GA is very simple: for the encoder / decoder, we respectively add multiple class queries / a foreground query to aggregate the semantics into image-level predictions. Our query-based aggregation has two advantages. First, in the encoder, the weakly-supervised class queries are capable of roughly locating the corresponding positions and excluding the distraction from non-relevant regions. Second, through our design, the object queries and the foreground query in the decoder share consensus on the class semantics, therefore making the strong and weak supervision mutually benefit each other for domain alignment. Extensive experiments on four popular cross-domain benchmarks show that DETR-GA significantly improves CSWSOD and advances the states of the art (e.g., 29.0% –> 79.4% mAP on PASCAL VOC –> Clipart_all dataset).
arxiv情報
著者 | Zongheng Tang,Yifan Sun,Si Liu,Yi Yang |
発行日 | 2023-04-14 12:16:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI