Towards Data-Efficient Detection Transformers

要約

検出トランスフォーマーは、サンプルが豊富な COCO データセットで競争力のあるパフォーマンスを達成しました。
ただし、それらのほとんどは、都市景観のような小規模なデータセットでパフォーマンスが大幅に低下することを示しています。
言い換えれば、検出トランスフォーマーは一般的にデータを大量に消費します。
この問題に取り組むために、データ効率の高いRCNNバリアントから代表的なDETRへの段階的な移行を通じて、データ効率に影響を与える要因を経験的に分析します。
経験的な結果は、局所的な画像領域からのまばらな特徴のサンプリングが鍵を握っていることを示唆しています。
この観察に基づいて、既存の検出トランスフォーマーのデータを大量に消費する問題を、クロスアテンション層でキーと値のシーケンスを構築する方法を単純に入れ替えることで軽減し、元のモデルへの変更を最小限に抑えます。
さらに、より豊富な監視を提供し、データ効率を向上させるために、シンプルで効果的なラベル拡張方法を導入します。
実験は、私たちの方法がさまざまな検出トランスに容易に適用でき、小規模なデータセットとサンプルが豊富なデータセットの両方でパフォーマンスを向上できることを示しています。
コードは \url{https://github.com/encounter1997/DE-DETRs} で公開されます。

要約(オリジナル)

Detection Transformers have achieved competitive performance on the sample-rich COCO dataset. However, we show most of them suffer from significant performance drops on small-size datasets, like Cityscapes. In other words, the detection transformers are generally data-hungry. To tackle this problem, we empirically analyze the factors that affect data efficiency, through a step-by-step transition from a data-efficient RCNN variant to the representative DETR. The empirical results suggest that sparse feature sampling from local image areas holds the key. Based on this observation, we alleviate the data-hungry issue of existing detection transformers by simply alternating how key and value sequences are constructed in the cross-attention layer, with minimum modifications to the original models. Besides, we introduce a simple yet effective label augmentation method to provide richer supervision and improve data efficiency. Experiments show that our method can be readily applied to different detection transformers and improve their performance on both small-size and sample-rich datasets. Code will be made publicly available at \url{https://github.com/encounter1997/DE-DETRs}.

arxiv情報

著者 Wen Wang,Jing Zhang,Yang Cao,Yongliang Shen,Dacheng Tao
発行日 2022-08-25 02:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク