要約
従来のクローズドセットモデルの制限を克服する完全にオープンボキャブラリーシーングラフ生成のための新しい変圧器ベースのフレームワークであるOVSGTRを提示します。
従来の方法は、オブジェクトと関係の両方の認識を固定語彙に制限し、新しい概念が頻繁に出現する実際のシナリオへの適用性を妨げます。
対照的に、私たちのアプローチは、事前定義されたカテゴリを超えてオブジェクト(ノード)とその相互関係(エッジ)を共同で予測します。
OVSGTRは、冷凍画像バックボーンとテキストエンコーダを備えたDETRのようなアーキテクチャを活用して、高品質の視覚的およびセマンティック機能を抽出し、エンドツーエンドシーングラフ予測のためにトランスデコーダーを介して融合します。
複雑な視覚関係に関するモデルの理解を豊かにするために、シーングラフアノテーションを弱く監視している方法で合成する関係認識前トレーニング戦略を提案します。
具体的には、シーンパーサーベース、LLMベース、およびマルチモーダルLLMベースの3つのパイプラインを調査し、最小限のマニュアル注釈で転送可能な監督信号を生成します。
さらに、知識蒸留戦略と組み合わせた視覚的概念保持メカニズムを組み込み、モデルが微調整中に豊富なセマンティックキューを保持することを保証することにより、壊滅的な忘却の忘却の一般的な問題に対処します。
VG150ベンチマークでの広範な実験は、OVSGTRがクローズドセット、オープンボキャブラリーオブジェクト検出ベース、関係ベース、および完全にオープンボカリブラリーシナリオを含む複数の設定で最先端のパフォーマンスを達成することを示しています。
私たちの結果は、より一般化された信頼性の高い視覚的理解に向けてシーングラフの生成を進めるための大規模な関係に対応する事前トレーニングおよび変圧器アーキテクチャの約束を強調しています。
要約(オリジナル)
We present OvSGTR, a novel transformer-based framework for fully open-vocabulary scene graph generation that overcomes the limitations of traditional closed-set models. Conventional methods restrict both object and relationship recognition to a fixed vocabulary, hindering their applicability to real-world scenarios where novel concepts frequently emerge. In contrast, our approach jointly predicts objects (nodes) and their inter-relationships (edges) beyond predefined categories. OvSGTR leverages a DETR-like architecture featuring a frozen image backbone and text encoder to extract high-quality visual and semantic features, which are then fused via a transformer decoder for end-to-end scene graph prediction. To enrich the model’s understanding of complex visual relations, we propose a relation-aware pre-training strategy that synthesizes scene graph annotations in a weakly supervised manner. Specifically, we investigate three pipelines–scene parser-based, LLM-based, and multimodal LLM-based–to generate transferable supervision signals with minimal manual annotation. Furthermore, we address the common issue of catastrophic forgetting in open-vocabulary settings by incorporating a visual-concept retention mechanism coupled with a knowledge distillation strategy, ensuring that the model retains rich semantic cues during fine-tuning. Extensive experiments on the VG150 benchmark demonstrate that OvSGTR achieves state-of-the-art performance across multiple settings, including closed-set, open-vocabulary object detection-based, relation-based, and fully open-vocabulary scenarios. Our results highlight the promise of large-scale relation-aware pre-training and transformer architectures for advancing scene graph generation towards more generalized and reliable visual understanding.
arxiv情報
著者 | Zuyao Chen,Jinlin Wu,Zhen Lei,Chang Wen Chen |
発行日 | 2025-05-26 15:11:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google