要約
DETR オブジェクト検出アプローチは、Transformer エンコーダーおよびデコーダー アーキテクチャを適用してオブジェクトを検出し、有望なパフォーマンスを実現します。
この論文では、表現学習技術を使用して、DETRの主な問題である遅い収束に対処するための簡単なアプローチを提示します。
このアプローチでは、2 つのデコーダーを使用して、左上隅と中央のキーポイントのペアとしてオブジェクトの境界ボックスを検出します。
オブジェクトをペアのキーポイントとして検出することにより、モデルは、2 つのデコーダーからの出力クエリに対して、共同分類とペアの関連付けを構築します。
ペアの関連付けについては、特殊なアーキテクチャを必要とせずに、対照的な自己教師あり学習アルゴリズムを利用することを提案します。
MS COCO データセットの実験結果は、トレーニング中にペア DETR が元の DETR よりも少なくとも 10 倍速く、条件付き DETR よりも 1.5 倍速く収束できることを示していますが、一貫して高い平均精度スコアを持っています。
要約(オリジナル)
The DETR object detection approach applies the transformer encoder and decoder architecture to detect objects and achieves promising performance. In this paper, we present a simple approach to address the main problem of DETR, the slow convergence, by using representation learning technique. In this approach, we detect an object bounding box as a pair of keypoints, the top-left corner and the center, using two decoders. By detecting objects as paired keypoints, the model builds up a joint classification and pair association on the output queries from two decoders. For the pair association we propose utilizing contrastive self-supervised learning algorithm without requiring specialized architecture. Experimental results on MS COCO dataset show that Pair DETR can converge at least 10x faster than original DETR and 1.5x faster than Conditional DETR during training, while having consistently higher Average Precision scores.
arxiv情報
著者 | Seyed Mehdi Iranmanesh,Xiaotong Chen,Kuo-Chin Lien |
発行日 | 2022-11-11 17:32:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google