要約
最初に物体を検出し、次に物体を数えるように設計された対話型物体計数モデルである T-Rex を紹介します。
視覚的なプロンプトを統合したオープンセットのオブジェクト検出タスクとしてオブジェクトのカウントを定式化します。
ユーザーは参照画像上に点やボックスをマークすることで対象のオブジェクトを指定でき、T-Rex は同様のパターンを持つすべてのオブジェクトを検出します。
ティラノサウルスからの視覚的なフィードバックに基づいて、ユーザーは、欠落しているオブジェクトや誤って検出されたオブジェクトについてプロンプトを表示することで、インタラクティブに計数結果を調整することもできます。
T-Rex は、いくつかのクラスに依存しない計数ベンチマークで最先端のパフォーマンスを達成しました。
その可能性をさらに活用するために、私たちはさまざまなシナリオと課題を網羅する新しい計数ベンチマークを確立しました。
定量的および定性的結果の両方で、ティラノサウルスが並外れたゼロショットカウント能力を備えていることが示されています。
また、T-Rex のさまざまな実用的なアプリケーション シナリオを紹介し、視覚的なプロンプトの領域における T-Rex の可能性を示します。
要約(オリジナル)
We introduce T-Rex, an interactive object counting model designed to first detect and then count any objects. We formulate object counting as an open-set object detection task with the integration of visual prompts. Users can specify the objects of interest by marking points or boxes on a reference image, and T-Rex then detects all objects with a similar pattern. Guided by the visual feedback from T-Rex, users can also interactively refine the counting results by prompting on missing or falsely-detected objects. T-Rex has achieved state-of-the-art performance on several class-agnostic counting benchmarks. To further exploit its potential, we established a new counting benchmark encompassing diverse scenarios and challenges. Both quantitative and qualitative results show that T-Rex possesses exceptional zero-shot counting capabilities. We also present various practical application scenarios for T-Rex, illustrating its potential in the realm of visual prompting.
arxiv情報
著者 | Qing Jiang,Feng Li,Tianhe Ren,Shilong Liu,Zhaoyang Zeng,Kent Yu,Lei Zhang |
発行日 | 2023-11-22 18:57:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google