Iterative Scene Graph Generation

要約

シーングラフ生成のタスクでは、特定の画像(またはビデオ)内のオブジェクトエンティティとそれに対応する相互作用述語を識別します。
組み合わせて大きな解空間があるため、シーングラフ生成への既存のアプローチは、推定を実行可能にするために同時分布の特定の因数分解を想定しています(たとえば、オブジェクトが述語予測から条件付きで独立していると想定)。
ただし、この固定因数分解は、すべてのシナリオで理想的ではありません(たとえば、相互作用を伴うオブジェクトが小さく、それ自体では識別できない画像の場合)。
この作業では、この制限に対処するだけでなく、マルコフ確率場でのメッセージパッシングを使用して画像に動的条件付けを導入するシーングラフ生成の新しいフレームワークを提案します。
これは、各変更が前の反復で生成されたグラフを条件とする反復改良手順として実装されます。
洗練されたステップ全体にわたるこの条件付けにより、エンティティと関係に関する共同推論が可能になります。
このフレームワークは、斬新でエンドツーエンドのトレーニング可能なトランスベースのアーキテクチャを介して実現されます。
さらに、提案されたフレームワークは、既存のアプローチのパフォーマンスを向上させることができます。
VisualGenomeおよびActionGenomeベンチマークデータセットに関する広範な実験を通じて、シーングラフ生成のパフォーマンスが向上していることを示しています。

要約(オリジナル)

The task of scene graph generation entails identifying object entities and their corresponding interaction predicates in a given image (or video). Due to the combinatorially large solution space, existing approaches to scene graph generation assume certain factorization of the joint distribution to make the estimation feasible (e.g., assuming that objects are conditionally independent of predicate predictions). However, this fixed factorization is not ideal under all scenarios (e.g., for images where an object entailed in interaction is small and not discernible on its own). In this work, we propose a novel framework for scene graph generation that addresses this limitation, as well as introduces dynamic conditioning on the image, using message passing in a Markov Random Field. This is implemented as an iterative refinement procedure wherein each modification is conditioned on the graph generated in the previous iteration. This conditioning across refinement steps allows joint reasoning over entities and relations. This framework is realized via a novel and end-to-end trainable transformer-based architecture. In addition, the proposed framework can improve existing approach performance. Through extensive experiments on Visual Genome and Action Genome benchmark datasets we show improved performance on the scene graph generation.

arxiv情報

著者 Siddhesh Khandelwal,Leonid Sigal
発行日 2022-07-27 10:37:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク