Language-aware Multiple Datasets Detection Pretraining for DETRs

要約

タイトル:DETRのための言語認識多重データセット検出の事前学習

要約:
– 大規模なデータセットで事前学習を行うことで、物体検出の性能を向上できるが、物体検出用の注釈付きデータセットのスケールアップは、高い労力コストがかかるため、困難である。
– 独立した領域特化型データセットが多数存在するため、これらのデータセットを統合してモデルを共同で事前学習することで、データのボリュームと多様性を向上することが望ましい。
– 本論文では、METR(DETRの事前学習に複数データセットを利用するフレームワーク)を提案する。手動でラベル空間を統合する必要はなく、二値分類によって典型的な物体検出の多分類を変換するために、事前学習済みの言語モデルを導入する。
– 具体的には、画像に含まれる可能性のあるカテゴリーを抽出するカテゴリー抽出モジュールを設計し、言語の埋め込みによってこれらのカテゴリーを異なるクエリに割り当てる。各クエリは、クラス固有のオブジェクトを予測するだけに責任がある。
– また、新しい検出パラダイムに適応するために、同じカテゴリーに割り当てられたクエリに対応するグループ二部マッチング戦略を提案する。
– 幅広い実験により、METRがマルチタスク関節トレーニングまたは事前学習&微調整パラダイムにおいて非常に優れた結果を達成することが示されている。特に、我々の事前学習モデルは高い柔軟な転移性を持ち、COCO val2017ベンチマーク上のさまざまなDETRライク検出器においてパフォーマンスを向上させる。本論文の公開後にコードが利用可能になる予定。

要約(オリジナル)

Pretraining on large-scale datasets can boost the performance of object detectors while the annotated datasets for object detection are hard to scale up due to the high labor cost. What we possess are numerous isolated filed-specific datasets, thus, it is appealing to jointly pretrain models across aggregation of datasets to enhance data volume and diversity. In this paper, we propose a strong framework for utilizing Multiple datasets to pretrain DETR-like detectors, termed METR, without the need for manual label spaces integration. It converts the typical multi-classification in object detection into binary classification by introducing a pre-trained language model. Specifically, we design a category extraction module for extracting potential categories involved in an image and assign these categories into different queries by language embeddings. Each query is only responsible for predicting a class-specific object. Besides, to adapt our novel detection paradigm, we propose a group bipartite matching strategy that limits the ground truths to match queries assigned to the same category. Extensive experiments demonstrate that METR achieves extraordinary results on either multi-task joint training or the pretrain & finetune paradigm. Notably, our pre-trained models have high flexible transferability and increase the performance upon various DETR-like detectors on COCO val2017 benchmark. Codes will be available after this paper is published.

arxiv情報

著者 Jing Hao,Song Chen,Xiaodi Wang,Shumin Han
発行日 2023-04-07 10:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク