Adaptive Visual Scene Understanding: Incremental Scene Graph Generation

要約

シーングラフ生成(SGG)は、画像を解析し、オブジェクトとその関係について意味のある情報を抽出する。ダイナミックな視覚世界では、AIシステムにとって、新しいオブジェクトを継続的に検出し、既存のオブジェクトとの関係を確立することが極めて重要である。近年、物体検出や画像認識の領域において、継続的な学習に焦点を当てた研究が数多く行われている。しかし、SGGにおけるより困難な継続的学習問題に焦点を当てた研究は限られている。この難易度の増加は、物体間の複雑な相互作用と動的関係、およびそれらに関連するコンテキストから生じる。従って、継続的学習において、SGGモデルは、適応的な視覚的情景理解の過程において、情景グラフを拡張、修正、保持、推論することがしばしば要求される。継続的シーングラフ生成(CSEGG)を系統的に探求するために、我々は3つの学習レジームからなる包括的ベンチマークを提示する:関係漸進、シーン漸進、関係汎化。さらに、RASと名付けられた「合成による分析経由のリプレイ」手法を紹介する。この手法はシーングラフを活用し、異なるシーンを表現するために分解と再合成を行い、これらの合成シーングラフに基づいて合成シーンを再生する。再生された合成シーンは、既知および未知の環境におけるSGGの熟練度を練習し、洗練させる手段として機能する。我々の実験結果は、既存の継続的学習手法とSGGバックボーンを直接組み合わせることの課題を浮き彫りにするだけでなく、同時にプライバシーとメモリ使用量を維持しながらCSEGG効率を向上させる、我々の提案アプローチの有効性を実証する。すべてのデータとソースコードはオンラインで公開されている。

要約(オリジナル)

Scene graph generation (SGG) analyzes images to extract meaningful information about objects and their relationships. In the dynamic visual world, it is crucial for AI systems to continuously detect new objects and establish their relationships with existing ones. Recently, numerous studies have focused on continual learning within the domains of object detection and image recognition. However, a limited amount of research focuses on a more challenging continual learning problem in SGG. This increased difficulty arises from the intricate interactions and dynamic relationships among objects, and their associated contexts. Thus, in continual learning, SGG models are often required to expand, modify, retain, and reason scene graphs within the process of adaptive visual scene understanding. To systematically explore Continual Scene Graph Generation (CSEGG), we present a comprehensive benchmark comprising three learning regimes: relationship incremental, scene incremental, and relationship generalization. Moreover, we introduce a “Replays via Analysis by Synthesis’ method named RAS. This approach leverages the scene graphs, decomposes and re-composes them to represent different scenes, and replays the synthesized scenes based on these compositional scene graphs. The replayed synthesized scenes act as a means to practice and refine proficiency in SGG in known and unknown environments. Our experimental results not only highlight the challenges of directly combining existing continual learning methods with SGG backbones but also demonstrate the effectiveness of our proposed approach, enhancing CSEGG efficiency while simultaneously preserving privacy and memory usage. All data and source code are publicly available online.

arxiv情報

著者 Naitik Khandelwal,Xiao Liu,Mengmi Zhang
発行日 2024-11-01 05:29:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク