要約
シーン解析の複雑さは、オブジェクトおよびシーン クラスの数とともに増加します。これは、制限されていないオープン シーンではさらに複雑になります。
最大の課題は、より小さなスケールでオブジェクトを識別しながら、シーン要素間の空間関係をモデル化することです。
この論文では、複数のレベルの特徴抽出から空間コンテキストを収集し、各表現レベルの注意の重みを計算して最終的なクラス ラベルを生成する、新しい特徴ブースティング ネットワークを紹介します。
新しい「チャネル アテンション モジュール」は、アテンションの重みを計算するように設計されており、関連する抽出ステージからの特徴が確実に強化され、その他の特徴は減衰されます。
また、モデルは、シーン要素間の抽象的な空間関係を保存し、計算コストを削減するために、低解像度で空間コンテキスト情報を学習します。
その後、空間的注意は、特徴ブースティングを適用する前に、最終的な特徴セットに連結されます。
低解像度の空間注意機能は、大まかなグローバル シーン構造の学習に役立つ補助タスクを使用してトレーニングされます。
提案されたモデルは、ADE20K データセットと Cityscapes データセットの両方で、すべての最先端モデルよりも優れたパフォーマンスを発揮します。
要約(オリジナル)
The complexity of scene parsing grows with the number of object and scene classes, which is higher in unrestricted open scenes. The biggest challenge is to model the spatial relation between scene elements while succeeding in identifying objects at smaller scales. This paper presents a novel feature-boosting network that gathers spatial context from multiple levels of feature extraction and computes the attention weights for each level of representation to generate the final class labels. A novel `channel attention module’ is designed to compute the attention weights, ensuring that features from the relevant extraction stages are boosted while the others are attenuated. The model also learns spatial context information at low resolution to preserve the abstract spatial relationships among scene elements and reduce computation cost. Spatial attention is subsequently concatenated into a final feature set before applying feature boosting. Low-resolution spatial attention features are trained using an auxiliary task that helps learning a coarse global scene structure. The proposed model outperforms all state-of-the-art models on both the ADE20K and the Cityscapes datasets.
arxiv情報
著者 | Vivek Singh,Shailza Sharma,Fabio Cuzzolin |
発行日 | 2024-02-29 15:22:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google