要約
新しい顕著物体検出 (SOD) モデルの開発には、ImageNet の事前トレーニングされたバックボーンの選択と、バックボーン機能を使用するための新しい機能改良モジュールの作成が含まれます。
ただし、事前トレーニングされたバックボーンに新しいコンポーネントを追加するには、ImageNet データセット上でネットワーク全体を再トレーニングする必要があり、これにはかなりの時間がかかります。
したがって、ImageNet の事前トレーニングを行わずに、SOD で直接トレーニングされたニューラル ネットワークを最初から開発することを検討します。
このような定式化により、タスク固有のコンポーネントを完全に自律的に設計できます。
そのために、私たちは、顕著なオブジェクト検出のためのエンコーダー/デコーダー スタイルのネットワークである SODAwideNet を提案します。
私たちは、狭くて深い畳み込みモデルという一般的に実践されているパラダイムから逸脱して、広くて浅いアーキテクチャを採用し、その結果、パラメーター効率の高いディープ ニューラル ネットワークが実現しました。
より浅いネットワークを実現するには、拡張畳み込みと自己注意の組み合わせを使用して、ネットワークの最初から受容野を増加させます。
そこで、拡張畳み込みを用いて、より遠くの領域からより高い解像度で識別特徴を効率的に取得する多受容野特徴集約モジュール(MRFFAM)を提案します。
次に、マルチスケール アテンション (MSA) を提案します。これは、特徴ピラミッドを作成し、複数の解像度にわたって効率的にアテンションを計算して、より大きな特徴マップからグローバルな特徴を抽出します。
最後に、5 つのデータセットで最先端のモデルと比較して競争力のあるパフォーマンスを実現する 2 つのバリアント、SODAwideNet-S (3.03M) と SODAwideNet (9.03M) を提案します。
要約(オリジナル)
Developing a new Salient Object Detection (SOD) model involves selecting an ImageNet pre-trained backbone and creating novel feature refinement modules to use backbone features. However, adding new components to a pre-trained backbone needs retraining the whole network on the ImageNet dataset, which requires significant time. Hence, we explore developing a neural network from scratch directly trained on SOD without ImageNet pre-training. Such a formulation offers full autonomy to design task-specific components. To that end, we propose SODAWideNet, an encoder-decoder-style network for Salient Object Detection. We deviate from the commonly practiced paradigm of narrow and deep convolutional models to a wide and shallow architecture, resulting in a parameter-efficient deep neural network. To achieve a shallower network, we increase the receptive field from the beginning of the network using a combination of dilated convolutions and self-attention. Therefore, we propose Multi Receptive Field Feature Aggregation Module (MRFFAM) that efficiently obtains discriminative features from farther regions at higher resolutions using dilated convolutions. Next, we propose Multi-Scale Attention (MSA), which creates a feature pyramid and efficiently computes attention across multiple resolutions to extract global features from larger feature maps. Finally, we propose two variants, SODAWideNet-S (3.03M) and SODAWideNet (9.03M), that achieve competitive performance against state-of-the-art models on five datasets.
arxiv情報
著者 | Rohit Venkata Sai Dulam,Chandra Kambhamettu |
発行日 | 2023-11-09 01:49:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google