A Deep Learning-based Global and Segmentation-based Semantic Feature Fusion Approach for Indoor Scene Classification

要約

この研究では、セマンティック セグメンテーション マスクを使用して、セグメンテーション ベースのセマンティック特徴 (SSF) によって指定されるシーン全体のセグメンテーション カテゴリの 2D 空間レイアウトを取得する新しいアプローチを提案します。
これらの特徴は、セグメンテーション カテゴリごとに、ピクセル数、2D 平均位置、およびそれぞれの標準偏差値を表します。
さらに、RGB画像から抽出されたCNNベースのグローバル特徴と提案されたSSFから抽出されたセグメンテーションベースの特徴を活用する2分岐ネットワークGS2F2Appも提案されています。
GS2F2App は、SUN RGB-D と NYU Depth V2 という 2 つの屋内シーン ベンチマーク データセットで評価され、両方のデータセットで最先端の結果が得られました。

要約(オリジナル)

This work proposes a novel approach that uses a semantic segmentation mask to obtain a 2D spatial layout of the segmentation-categories across the scene, designated by segmentation-based semantic features (SSFs). These features represent, per segmentation-category, the pixel count, as well as the 2D average position and respective standard deviation values. Moreover, a two-branch network, GS2F2App, that exploits CNN-based global features extracted from RGB images and the segmentation-based features extracted from the proposed SSFs, is also proposed. GS2F2App was evaluated in two indoor scene benchmark datasets: the SUN RGB-D and the NYU Depth V2, achieving state-of-the-art results on both datasets.

arxiv情報

著者 Ricardo Pereira,Tiago Barros,Luis Garrote,Ana Lopes,Urbano J. Nunes
発行日 2024-01-31 16:50:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク