Described Object Detection: Liberating Object Detection with Flexible Expressions

要約

言語情報に基づいてオブジェクトを検出することは、Open-Vocabulary object Detection (OVD) や Referring Expression Comprehension (REC) などの一般的なタスクです。
このペーパーでは、カテゴリー名を OVD 用の柔軟な言語表現に拡張し、既存のオブジェクトを根拠とする REC のみの制限を克服することで、それらを Described Object Detection (DOD) と呼ばれるより実用的な設定に進めます。
私たちは記述検出データセット ($D^3$) を構築することで国防総省の研究基盤を確立します。
このデータセットは、短いカテゴリ名でも長い説明でも柔軟な言語表現が可能で、すべての画像上のすべての記述オブジェクトに漏れなくアノテーションが付けられます。
$D^3$ で以前の SOTA メソッドを評価することにより、現在の REC、OVD、および二機能メソッドに失敗するいくつかの問題を発見します。
REC メソッドは信頼スコア、ネガティブ インスタンスの拒否、およびマルチターゲット シナリオに苦労しますが、OVD メソッドは長く複雑な記述による制約に直面します。
最近の二機能手法も、REC タスクと OVD タスクのトレーニング手順と推論戦略が分離されているため、DOD ではうまく機能しません。
前述の発見に基づいて、トレーニング データを再構成し、バイナリ分類サブタスクを導入することで REC 手法を大幅に改善し、既存の手法を上回るベースラインを提案します。
データとコードは https://github.com/shikras/d-cube で入手でき、関連作品は https://github.com/Charles-Xie/awesome-descripted-object-detection で追跡されます。

要約(オリジナル)

Detecting objects based on language information is a popular task that includes Open-Vocabulary object Detection (OVD) and Referring Expression Comprehension (REC). In this paper, we advance them to a more practical setting called Described Object Detection (DOD) by expanding category names to flexible language expressions for OVD and overcoming the limitation of REC only grounding the pre-existing object. We establish the research foundation for DOD by constructing a Description Detection Dataset ($D^3$). This dataset features flexible language expressions, whether short category names or long descriptions, and annotating all described objects on all images without omission. By evaluating previous SOTA methods on $D^3$, we find some troublemakers that fail current REC, OVD, and bi-functional methods. REC methods struggle with confidence scores, rejecting negative instances, and multi-target scenarios, while OVD methods face constraints with long and complex descriptions. Recent bi-functional methods also do not work well on DOD due to their separated training procedures and inference strategies for REC and OVD tasks. Building upon the aforementioned findings, we propose a baseline that largely improves REC methods by reconstructing the training data and introducing a binary classification sub-task, outperforming existing methods. Data and code are available at https://github.com/shikras/d-cube and related works are tracked in https://github.com/Charles-Xie/awesome-described-object-detection.

arxiv情報

著者 Chi Xie,Zhao Zhang,Yixuan Wu,Feng Zhu,Rui Zhao,Shuang Liang
発行日 2023-10-11 14:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク