要約
テクスチャ分析は、ディープ ニューラル ネットワークが積極的に適用されているコンピューター ビジョンにおける古典的でありながら困難なタスクです。
ほとんどのアプローチは、事前にトレーニングされたバックボーンを中心に機能集約モジュールを構築し、特定のテクスチャ認識タスクで新しいアーキテクチャを微調整することに基づいています。
ここでは、\textbf{A}ggregated \textbf{D}eep \textbf{A}ctivation \textbf{M}aps (RADAM) の \textbf{R}andom encoding という名前の新しい方法を提案します。
バックボーン。
この手法は、ランダム化オートエンコーダー (RAE) を使用して、事前にトレーニングされた深い畳み込みネットワークのさまざまな深さで出力をエンコードすることで構成されます。
RAE は、クローズド フォーム ソリューションを使用して各画像に対してローカルにトレーニングされ、そのデコーダーの重みを使用して、線形 SVM に供給される 1 次元のテクスチャ表現を構成します。
これは、微調整や逆伝播が必要ないことを意味します。
いくつかのテクスチャ ベンチマークで RADAM を調査し、さまざまな計算予算で最先端の結果を達成します。
私たちの結果は、学習済みの表現がより適切にエンコードされている場合、事前にトレーニングされたバックボーンはテクスチャ認識のために追加の微調整を必要としない可能性があることを示唆しています。
要約(オリジナル)
Texture analysis is a classical yet challenging task in computer vision for which deep neural networks are actively being applied. Most approaches are based on building feature aggregation modules around a pre-trained backbone and then fine-tuning the new architecture on specific texture recognition tasks. Here we propose a new method named \textbf{R}andom encoding of \textbf{A}ggregated \textbf{D}eep \textbf{A}ctivation \textbf{M}aps (RADAM) which extracts rich texture representations without ever changing the backbone. The technique consists of encoding the output at different depths of a pre-trained deep convolutional network using a Randomized Autoencoder (RAE). The RAE is trained locally to each image using a closed-form solution, and its decoder weights are used to compose a 1-dimensional texture representation that is fed into a linear SVM. This means that no fine-tuning or backpropagation is needed. We explore RADAM on several texture benchmarks and achieve state-of-the-art results with different computational budgets. Our results suggest that pre-trained backbones may not require additional fine-tuning for texture recognition if their learned representations are better encoded.
arxiv情報
著者 | Leonardo Scabini,Kallil M. Zielinski,Lucas C. Ribas,Wesley N. Gonçalves,Bernard De Baets,Odemir M. Bruno |
発行日 | 2023-03-08 13:09:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google