要約
我々は、ユーザーの指示に基づいて対象オブジェクトの位置を特定する参照オブジェクト検出 (ROD) のためのデータ中心の手法である InstructDET を提案します。
参照式 (REC) から派生していますが、利用する命令はオブジェクト検出に関連する一般的なユーザーの意図を網羅するために大幅に多様化されています。
1 つの画像に対して、すべての単一オブジェクトと複数のオブジェクトのさまざまな組み合わせを参照する膨大な命令を作成します。
各命令とそれに対応するオブジェクト バウンディング ボックス (bbx) は、1 つのトレーニング データ ペアを構成します。
一般的な検出表現を包含するために、基礎モデルの一般化が人間のような表現を生成するのに効果的であるため、新興ビジョン言語モデル (VLM) とラージ言語モデル (LLM) を使用して、テキスト プロンプトとオブジェクト bbx によってガイドされる命令を生成します。
(例: オブジェクトのプロパティ、カテゴリ、および関係の説明)。
構築したデータセットを InDET と名付けます。
これには、基礎モデルからの画像、bbx、および一般化された手順が含まれています。
当社の InDET は既存の REC データセットと物体検出データセットから開発されており、InstructDET メソッドを使用することで物体 bbx を含むあらゆる画像を組み込むことができる可能性が広がります。
InDET データセットを使用することで、従来の ROD モデルが標準の REC データセットと InDET テスト セットの既存の手法を上回ることを示します。
当社のデータ中心メソッド InstructDET は、基礎モデルを活用した自動データ拡張機能を備えており、一般的な物体検出命令を実行するために ROD を大幅に多様化できるという有望な分野を方向付けています。
要約(オリジナル)
We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions.
arxiv情報
著者 | Ronghao Dang,Jiangyan Feng,Haodong Zhang,Chongjian Ge,Lin Song,Lijun Gong,Chengju Liu,Qijun Chen,Feng Zhu,Rui Zhao,Yibing Song |
発行日 | 2023-10-11 04:04:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google