Panoptic Scene Graph Generation

要約

既存の研究では、シーングラフ生成(SGG)(画像のシーンを理解するための重要なテクノロジー)を検出の観点から取り上げています。つまり、オブジェクトはバウンディングボックスを使用して検出され、その後にペアワイズ関係が予測されます。
そのようなパラダイムは、分野の進歩を妨げるいくつかの問題を引き起こすと私たちは主張します。
たとえば、現在のデータセットの境界ボックスベースのラベルには通常、ヘアなどの冗長なクラスが含まれており、コンテキストの理解に不可欠な背景情報が省略されています。
この作業では、パノラマシーングラフ生成(PSG)を紹介します。これは、モデルが厳密な境界ボックスではなくパノラマセグメンテーションに基づいてより包括的なシーングラフ表現を生成する必要がある新しい問題タスクです。
COCOとVisualGenomeからの49kの注釈付きの重複画像を含む高品質のPSGデータセットは、コミュニティがその進捗状況を追跡するために作成されます。
ベンチマークのために、SGGの従来の方法から変更された4つの2ステージベースラインと、効率的なTransformerベースの検出器(DETR)に基づくPSGTRおよびPSGFormerと呼ばれる2つの1ステージベースラインを構築します。
PSGTRは一連のクエリを使用してトリプレットを直接学習しますが、PSGFormerは、2つのTransformerデコーダーからのクエリの形式でオブジェクトとリレーションを個別にモデル化し、その後にプロンプ​​トのようなリレーションオブジェクトマッチングメカニズムを実行します。
最後に、未解決の課題と将来の方向性に関する洞察を共有します。

要約(オリジナル)

Existing research addresses scene graph generation (SGG) — a critical technology for scene understanding in images — from a detection perspective, i.e., objects are detected using bounding boxes followed by prediction of their pairwise relationships. We argue that such a paradigm causes several problems that impede the progress of the field. For instance, bounding box-based labels in current datasets usually contain redundant classes like hairs, and leave out background information that is crucial to the understanding of context. In this work, we introduce panoptic scene graph generation (PSG), a new problem task that requires the model to generate a more comprehensive scene graph representation based on panoptic segmentations rather than rigid bounding boxes. A high-quality PSG dataset, which contains 49k well-annotated overlapping images from COCO and Visual Genome, is created for the community to keep track of its progress. For benchmarking, we build four two-stage baselines, which are modified from classic methods in SGG, and two one-stage baselines called PSGTR and PSGFormer, which are based on the efficient Transformer-based detector, i.e., DETR. While PSGTR uses a set of queries to directly learn triplets, PSGFormer separately models the objects and relations in the form of queries from two Transformer decoders, followed by a prompting-like relation-object matching mechanism. In the end, we share insights on open challenges and future directions.

arxiv情報

著者 Jingkang Yang,Yi Zhe Ang,Zujin Guo,Kaiyang Zhou,Wayne Zhang,Ziwei Liu
発行日 2022-07-22 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク