Semantic-guided spatial relation and object co-occurrence modeling for indoor scene recognition

要約

シーン画像の意味コンテキストを探索することは、屋内シーン認識には不可欠です。
ただし、クラス内の空間レイアウトが多様で、クラス間オブジェクトが共存しているため、さまざまな画像特性を適応させるためにコンテキスト上の関係をモデル化することは大きな課題です。
屋内シーン認識のための既存のコンテキスト モデリング手法には、次の 2 つの制限があります。 1) トレーニング中に、色などの空間に依存しない情報が、空間コンテキストを表現するネットワークの能力の最適化を妨げる可能性があります。
2) これらの方法では、異なるシーン間で共存するオブジェクトの違いが見落とされることが多く、シーン認識のパフォーマンスが低下します。
これらの制限に対処するために、セマンティック セグメンテーションに基づいてオブジェクトの空間関係と共起を同時にモデル化する SpaCoNet を提案します。
まず、セマンティック空間関係モジュール (SSRM) は、シーン内のオブジェクト間の空間関係を調査するように設計されています。
このモジュールは、セマンティック セグメンテーションの助けを借りて、画像から空間情報を分離し、無関係な特徴の影響を効果的に回避します。
次に、SSRM の空間コンテキスト特徴と画像特徴抽出モジュールのディープ特徴の両方を使用して、異なるシーン間で共存するオブジェクトを区別します。
最後に、上記の識別特徴を利用して、自己注意メカニズムを使用してオブジェクト間の長距離共起を調査し、さらに屋内シーン認識用の意味ガイド付き特徴表現を生成します。
広く使用されている 3 つのシーン データセットに関する実験結果は、提案された方法の有効性と一般性を示しています。
コードはブラインドレビュープロセスが完了した後に公開されます。

要約(オリジナル)

Exploring the semantic context in scene images is essential for indoor scene recognition. However, due to the diverse intra-class spatial layouts and the coexisting inter-class objects, modeling contextual relationships to adapt various image characteristics is a great challenge. Existing contextual modeling methods for indoor scene recognition exhibit two limitations: 1) During training, space-independent information, such as color, may hinder optimizing the network’s capacity to represent the spatial context. 2) These methods often overlook the differences in coexisting objects across different scenes, suppressing scene recognition performance. To address these limitations, we propose SpaCoNet, which simultaneously models the Spatial relation and Co-occurrence of objects based on semantic segmentation. Firstly, the semantic spatial relation module (SSRM) is designed to explore the spatial relation among objects within a scene. With the help of semantic segmentation, this module decouples the spatial information from the image, effectively avoiding the influence of irrelevant features. Secondly, both spatial context features from the SSRM and deep features from the Image Feature Extraction Module are used to distinguish the coexisting object across different scenes. Finally, utilizing the discriminative features mentioned above, we employ the self-attention mechanism to explore the long-range co-occurrence among objects, and further generate a semantic-guided feature representation for indoor scene recognition. Experimental results on three widely used scene datasets demonstrate the effectiveness and generality of the proposed method. The code will be made publicly available after the blind review process is completed.

arxiv情報

著者 Chuanxin Song,Hanbo Wu,Xin Ma,Yibin Li
発行日 2023-11-01 10:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク