SGTR+: End-to-end Scene Graph Generation with Transformer

要約

シーン グラフ生成 (SGG) は、その構成特性により、依然として視覚的に理解するのが難しいタスクです。
これまでのほとんどの作業では、ボトムアップの 2 段階アプローチ、またはポイントベースの 1 段階アプローチが採用されており、多くの場合、時間の複雑さや設計が最適ではないという問題が発生します。
この研究では、タスクを二部グラフ構築問題として定式化して、前述の問題に対処する新しい SGG 手法を提案します。
上記の問題に対処するために、トランスフォーマーベースのエンドツーエンドフレームワークを作成して、エンティティおよびエンティティ認識述語提案セットを生成し、有向エッジを推論して関係トリプレットを形成します。
さらに、エンティティ認識構造に基づいて 2 部シーン グラフの接続性を推論するグラフ アセンブル モジュールを設計し、エンドツーエンドの方法でシーン グラフを生成できるようにします。
二部グラフアセンブリパラダイムに基づいて、エンティティ認識モデリングの有効性とグラフアセンブリの最適化安定性に対処するための新しい技術設計をさらに提案します。
強化されたエンティティ認識設計を備えたこの方法は、最適なパフォーマンスと時間計算量を実現します。
広範な実験結果は、私たちの設計が 3 つの困難なベンチマークで最先端または同等のパフォーマンスを達成でき、既存のアプローチのほとんどを上回り、より高い推論効率を享受できることを示しています。
コードは利用可能です: https://github.com/Scarecrow0/SGTR

要約(オリジナル)

Scene Graph Generation (SGG) remains a challenging visual understanding task due to its compositional property. Most previous works adopt a bottom-up, two-stage or point-based, one-stage approach, which often suffers from high time complexity or suboptimal designs. In this work, we propose a novel SGG method to address the aforementioned issues, formulating the task as a bipartite graph construction problem. To address the issues above, we create a transformer-based end-to-end framework to generate the entity and entity-aware predicate proposal set, and infer directed edges to form relation triplets. Moreover, we design a graph assembling module to infer the connectivity of the bipartite scene graph based on our entity-aware structure, enabling us to generate the scene graph in an end-to-end manner. Based on bipartite graph assembling paradigm, we further propose a new technical design to address the efficacy of entity-aware modeling and optimization stability of graph assembling. Equipped with the enhanced entity-aware design, our method achieves optimal performance and time-complexity. Extensive experimental results show that our design is able to achieve the state-of-the-art or comparable performance on three challenging benchmarks, surpassing most of the existing approaches and enjoying higher efficiency in inference. Code is available: https://github.com/Scarecrow0/SGTR

arxiv情報

著者 Rongjie Li,Songyang Zhang,Xuming He
発行日 2024-01-23 15:18:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク