Joint Generative Modeling of Scene Graphs and Images via Diffusion Models

要約

この論文では、新しい生成タスクであるジョイント シーン グラフ – 画像生成を紹介します。
これまでの研究では、シーン グラフまたはレイアウトに条件を付けた画像生成を検討していましたが、私たちのタスクは、シーン グラフ自体をノイズから無条件に生成し、画像生成の効率的で解釈可能な制御を可能にするという点で特徴的かつ重要です。
私たちのタスクは困難であり、連続的なオブジェクトの境界ボックスや離散的なオブジェクトと関係のカテゴリなど、ノード (オブジェクト) とエッジ (オブジェクト間の関係) の異種属性を持つ、もっともらしいシーン グラフを生成する必要があります。
異種ノードおよびエッジ属性とともに隣接行列を共同モデル化する新しい拡散モデル DiffuseSG を導入します。
カテゴリデータのさまざまなタイプのエンコードを検討し、データを連続空間に緩和します。
デノイザーであるグラフ トランスフォーマーを使用して、DiffuseSG は連続空間内のシーン グラフ表現を連続的にノイズ除去し、最終表現を離散化してクリーンなシーン グラフを生成します。
さらに、経験的なパフォーマンスを向上させるために IoU 正則化を導入します。
私たちのモデルは、Visual Genome および COCO-Stuff データセットでのシーン グラフ生成において、標準的なメトリクスと、問題の複雑さをより適切に捉える新たに導入されたメトリクスの両方において、既存の方法よりも大幅に優れています。
さらに、2 つのダウンストリーム アプリケーションでモデルのさらなる利点を実証します。1) 一連のシーン グラフ完了タスクで優れていること、2) DiffuseSG から生成された追加のトレーニング サンプルを使用してシーン グラフ検出モデルを改善することです。

要約(オリジナル)

In this paper, we present a novel generative task: joint scene graph – image generation. While previous works have explored image generation conditioned on scene graphs or layouts, our task is distinctive and important as it involves generating scene graphs themselves unconditionally from noise, enabling efficient and interpretable control for image generation. Our task is challenging, requiring the generation of plausible scene graphs with heterogeneous attributes for nodes (objects) and edges (relations among objects), including continuous object bounding boxes and discrete object and relation categories. We introduce a novel diffusion model, DiffuseSG, that jointly models the adjacency matrix along with heterogeneous node and edge attributes. We explore various types of encodings for the categorical data, relaxing it into a continuous space. With a graph transformer being the denoiser, DiffuseSG successively denoises the scene graph representation in a continuous space and discretizes the final representation to generate the clean scene graph. Additionally, we introduce an IoU regularization to enhance the empirical performance. Our model significantly outperforms existing methods in scene graph generation on the Visual Genome and COCO-Stuff datasets, both on standard and newly introduced metrics that better capture the problem complexity. Moreover, we demonstrate the additional benefits of our model in two downstream applications: 1) excelling in a series of scene graph completion tasks, and 2) improving scene graph detection models by using extra training samples generated from DiffuseSG.

arxiv情報

著者 Bicheng Xu,Qi Yan,Renjie Liao,Lele Wang,Leonid Sigal
発行日 2024-01-02 10:10:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク