FloCoDe: Unbiased Dynamic Scene Graph Generation with Temporal Consistency and Correlation Debiasing

要約

ビデオからの動的シーン グラフ生成 (SGG) には、シーン全体のオブジェクトを包括的に理解するだけでなく、時間的な動きやさまざまなオブジェクトとの相互作用をキャプチャする方法も必要です。
さらに、視覚的な関係のロングテール分布は、ほとんどの動的 SGG メソッドにとって重大なボトルネックです。
これは、それらの多くが複雑なアーキテクチャを使用して時空間コンテキストをキャプチャすることに焦点を当てており、偏ったシーン グラフの生成につながるためです。
これらの課題に対処するために、私たちは FloCoDe: バイアスのない動的シーン グラフに対する不確実性の減衰を伴う、フローを意識した時間的一貫性と相関のバイアス除去を提案します。
FloCoDe は、フローを使用した特徴ワーピングを採用し、フレーム間で時間的に一貫したオブジェクトを検出します。
視覚的関係のロングテールの問題に対処するために、ロングテールクラスの不偏関係表現を学習するための相関偏り除去とラベル相関ベースの損失を提案します。
具体的には、対比損失を使用して一般的に共起する関係を捕捉するラベル相関を組み込むことを提案します。これは、ロングテールクラスの堅牢な表現を学習するのに役立ちます。
さらに、SGG データ内のノイズの多い注釈を処理するために、不確実性減衰ベースの分類子フレームワークを採用します。
広範な実験による評価では、4.1% もの高いパフォーマンス向上が示されており、より公平なシーン グラフを生成することの優位性が実証されています。

要約(オリジナル)

Dynamic scene graph generation (SGG) from videos requires not only a comprehensive understanding of objects across scenes but also a method to capture the temporal motions and interactions with different objects. Moreover, the long-tailed distribution of visual relationships is a crucial bottleneck for most dynamic SGG methods. This is because many of them focus on capturing spatio-temporal context using complex architectures, leading to the generation of biased scene graphs. To address these challenges, we propose FloCoDe: Flow-aware Temporal Consistency and Correlation Debiasing with uncertainty attenuation for unbiased dynamic scene graphs. FloCoDe employs feature warping using flow to detect temporally consistent objects across frames. To address the long-tail issue of visual relationships, we propose correlation debiasing and a label correlation-based loss to learn unbiased relation representations for long-tailed classes. Specifically, we propose to incorporate label correlations using contrastive loss to capture commonly co-occurring relations, which aids in learning robust representations for long-tailed classes. Further, we adopt the uncertainty attenuation-based classifier framework to handle noisy annotations in the SGG data. Extensive experimental evaluation shows a performance gain as high as 4.1%, demonstrating the superiority of generating more unbiased scene graphs.

arxiv情報

著者 Anant Khandelwal
発行日 2024-04-12 17:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク