Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection

要約

視覚的関係検出は、画像内のオブジェクトとその関係を識別することを目的としています。
従来の方法では、既存の物体検出アーキテクチャに別個の関係モジュールまたはデコーダを追加することで、このタスクに取り組みました。
この分離により複雑さが増し、エンドツーエンドのトレーニングが妨げられ、パフォーマンスが制限されます。
我々は、オープン語彙の視覚的関係を検出するための、シンプルで高効率なデコーダ不要のアーキテクチャを提案します。
私たちのモデルは、オブジェクトをトークンとして表し、それらの関係を暗黙的にモデル化する Transformer ベースの画像エンコーダーで構成されています。
関係情報を抽出するために、関係を形成する可能性が高いオブジェクトのペアを選択するアテンション メカニズムを導入します。
オブジェクトと関係検出データの混合でこのモデルをトレーニングするための 1 段階のレシピを提供します。
私たちのアプローチは、リアルタイム推論速度で Visual Genome および大規模語彙 GQA ベンチマーク上で最先端の関係検出パフォーマンスを実現します。
ゼロショットのパフォーマンス、アブレーション、および実際の定性的な例の分析を提供します。

要約(オリジナル)

Visual relationship detection aims to identify objects and their relationships in images. Prior methods approach this task by adding separate relationship modules or decoders to existing object detection architectures. This separation increases complexity and hinders end-to-end training, which limits performance. We propose a simple and highly efficient decoder-free architecture for open-vocabulary visual relationship detection. Our model consists of a Transformer-based image encoder that represents objects as tokens and models their relationships implicitly. To extract relationship information, we introduce an attention mechanism that selects object pairs likely to form a relationship. We provide a single-stage recipe to train this model on a mixture of object and relationship detection data. Our approach achieves state-of-the-art relationship detection performance on Visual Genome and on the large-vocabulary GQA benchmark at real-time inference speeds. We provide analyses of zero-shot performance, ablations, and real-world qualitative examples.

arxiv情報

著者 Tim Salzmann,Markus Ryll,Alex Bewley,Matthias Minderer
発行日 2024-03-21 10:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG, cs.RO パーマリンク