Unbiased Scene Graph Generation in Videos

要約

タイトル:動画における偏見のないシーングラフ生成

要約:

– 動画から動的なシーングラフ生成(SGG)を行うタスクは、場面の固有のダイナミズム、モデル予測の時間的な変動、視覚的関係の長尾分布の複雑さなど、困難な課題が存在する。
– 既存の動的SGG手法は、主に複雑なアーキテクチャを用いて空間・時間的なコンテキストを捉えることを目的としており、特に関係性の長尾分布のような課題に対処していない。そのため、バイアスのあるシーングラフが生成されることが多い。
– これらの課題に対処するため、我々は「TEMPURA」という新しいフレームワークを導入する。TEMPURAは、トランスフォーマベースのシーケンスモデリングを利用してオブジェクトレベルの時間的一貫性を取り入れ、メモリガイドトレーニングを使用してバイアスのない関係表現を合成し、ガウス混合モデル(GMM)を用いて視覚的関係の予測不確実性を減衰させる。
– 大規模な実験により、我々の手法は既存の手法よりも有意に(場合によっては10%)パフォーマンスが向上し、よりバイアスのないシーングラフを生成することができることが示された。

要約(オリジナル)

The task of dynamic scene graph generation (SGG) from videos is complicated and challenging due to the inherent dynamics of a scene, temporal fluctuation of model predictions, and the long-tailed distribution of the visual relationships in addition to the already existing challenges in image-based SGG. Existing methods for dynamic SGG have primarily focused on capturing spatio-temporal context using complex architectures without addressing the challenges mentioned above, especially the long-tailed distribution of relationships. This often leads to the generation of biased scene graphs. To address these challenges, we introduce a new framework called TEMPURA: TEmporal consistency and Memory Prototype guided UnceRtainty Attenuation for unbiased dynamic SGG. TEMPURA employs object-level temporal consistencies via transformer-based sequence modeling, learns to synthesize unbiased relationship representations using memory-guided training, and attenuates the predictive uncertainty of visual relations using a Gaussian Mixture Model (GMM). Extensive experiments demonstrate that our method achieves significant (up to 10% in some cases) performance gain over existing methods highlighting its superiority in generating more unbiased scene graphs.

arxiv情報

著者 Sayak Nag,Kyle Min,Subarna Tripathi,Amit K. Roy Chowdhury
発行日 2023-04-06 21:45:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク