Semantic-guided modeling of spatial relation and object co-occurrence for indoor scene recognition

要約

シーン画像の意味コンテキストを探索することは、屋内シーン認識には不可欠です。
ただし、クラス内の空間レイアウトが多様で、クラス間オブジェクトが共存しているため、さまざまな画像特性を適応させるためにコンテキスト上の関係をモデル化することは大きな課題です。
シーン認識のための既存のコンテキスト モデリング手法には、次の 2 つの制限があります。 1) 通常、それらは、人工的に事前定義された方法でシーン内のオブジェクト間の 1 種類の空間関係のみをモデル化し、多様な空間レイアウトの探索が限られています。
2) 異なるシーン間で共存するオブジェクトの違いを見落とすことが多く、シーン認識のパフォーマンスが低下します。
これらの制限を克服するために、セマンティック セグメンテーションに基づいてオブジェクトの空間関係と共起を同時にモデル化する SpaCoNet を提案します。
まず、シーンの空間的特徴をモデル化するためにセマンティック空間関係モジュール (SSRM) が構築されます。
このモジュールは、セマンティック セグメンテーションの助けを借りて、シーン画像から空間情報を分離し、オブジェクト間のすべての空間関係をエンドツーエンドの方法で徹底的に調査します。
次に、SSRM からの空間特徴と画像特徴抽出モジュールからの深層特徴の両方が各オブジェクトに割り当てられ、異なるシーン間で共存するオブジェクトを区別します。
最後に、上記の識別特徴を利用して、オブジェクト間の長距離共起を調査するためのグローバル-ローカル依存関係モジュールを設計し、さらに屋内シーン認識用の意味ガイド付き特徴表現を生成します。
広く使用されている 3 つのシーン データセットに関する実験結果は、提案された方法の有効性と一般性を示しています。

要約(オリジナル)

Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for scene recognition exhibit two limitations: 1) They typically model only one kind of spatial relationship among objects within scenes in an artificially predefined manner, with limited exploration of diverse spatial layouts. 2) They often overlook the differences in coexisting objects across different scenes, suppressing scene recognition performance. To overcome these limitations, we propose SpaCoNet, which simultaneously models Spatial relation and Co-occurrence of objects guided by semantic segmentation. Firstly, the Semantic Spatial Relation Module (SSRM) is constructed to model scene spatial features. With the help of semantic segmentation, this module decouples the spatial information from the scene image and thoroughly explores all spatial relationships among objects in an end-to-end manner. Secondly, both spatial features from the SSRM and deep features from the Image Feature Extraction Module are allocated to each object, so as to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features above, we design a Global-Local Dependency Module to explore the long-range co-occurrence among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three widely used scene datasets demonstrate the effectiveness and generality of the proposed method.

arxiv情報

著者 Chuanxin Song,Hanbo Wu,Xin Ma
発行日 2024-05-01 13:29:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク