要約
視覚的空間記述 (VSD) は、画像内の特定のオブジェクトの空間関係を説明するテキストを生成することを目的としています。
既存の VSD 作業は、2D 幾何学的視覚特徴をモデル化するだけであるため、必然的に、対象オブジェクトの歪んだ空間理解の問題の餌食になります。
この作業では、VSD 用の 3D シーン機能の組み込みを調査します。
外部の 3D シーン エクストラクターを使用して、入力画像の 3D オブジェクトとシーンの特徴を取得します。これに基づいて、ターゲット オブジェクト中心の 3D 空間シーン グラフ (Go3D-S2G) を構築し、その中でターゲット オブジェクトの空間セマンティクスをモデル化します。
総合的な 3D シーン。
さらに、Go3D-S2G から位相的に多様なサブグラフをサンプリングするシーン サブグラフ選択メカニズムを提案します。そこでは、多様な局所構造特徴がナビゲートされて空間的に多様なテキスト生成が行われます。
2 つの VSD データセットの実験結果は、私たちのフレームワークがベースラインを大幅に上回っており、特に複雑な視覚的空間関係を持つケースを改善していることを示しています。
一方、私たちの方法は、より空間的に多様な世代を生み出すことができます。
コードは https://github.com/zhaoyucs/VSD で入手できます。
要約(オリジナル)
Visual spatial description (VSD) aims to generate texts that describe the spatial relations of the given objects within images. Existing VSD work merely models the 2D geometrical vision features, thus inevitably falling prey to the problem of skewed spatial understanding of target objects. In this work, we investigate the incorporation of 3D scene features for VSD. With an external 3D scene extractor, we obtain the 3D objects and scene features for input images, based on which we construct a target object-centered 3D spatial scene graph (Go3D-S2G), such that we model the spatial semantics of target objects within the holistic 3D scenes. Besides, we propose a scene subgraph selecting mechanism, sampling topologically-diverse subgraphs from Go3D-S2G, where the diverse local structure features are navigated to yield spatially-diversified text generation. Experimental results on two VSD datasets demonstrate that our framework outperforms the baselines significantly, especially improving on the cases with complex visual spatial relations. Meanwhile, our method can produce more spatially-diversified generation. Code is available at https://github.com/zhaoyucs/VSD.
arxiv情報
著者 | Yu Zhao,Hao Fei,Wei Ji,Jianguo Wei,Meishan Zhang,Min Zhang,Tat-Seng Chua |
発行日 | 2023-05-19 15:53:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google