FLIM-based Salient Object Detection Networks with Adaptive Decoders

要約

Salient Object Detection(SOD)メソッドは、画像内で際立っているオブジェクトを見つけ、顕著性マップでより高い値をピクセルに割り当て、予測されたセグメンテーションマスクを出力するマップを二等式にすることができます。
最近の傾向は、SODタスクの深いニューラルネットワークではなく、事前に訓練された軽量モデルを調査し、限られた計算リソースの下でアプリケーションに対処することです。
これに関連して、画像マーカー(FLIM)から学習する機能という名前の方法論を使用して軽量ネットワークを調査しました。これは、エンコーダーのカーネルが、いくつかの代表的な画像の識別領域のマーカーピクセルから推定できると仮定しています。
この作業では、フリムエンコーダーと適応型デコーダーを組み合わせることにより、SODについて、軽量モデルの数百倍軽量モデルのフライ級ネットワークを提案します。
このようなフリムネットワークは、3〜4つの代表的な画像のみでトレーニングされ、バックプロパゲーションがないため、ラベル付きデータ制約の下でのアプリケーションにもモデルが適しています。
5つの適応デコーダーを研究します。
それらの2つはここで紹介されています。
ピクセルごとに1つのニューロンに依存している以前のものとは異なる重みを共有すると、新しい適応デコーダーのヒューリスティック関数は、ピクセルあたりの各ニューロンの重みを推定します。
フリムモデルを適応デコーダーと比較して、バックプロパゲーションによって訓練されたデコーダーを備えた最先端の2つのフリムネットワークと、デコーダーの重量を定義する1つのフリムネットワークを備えた2つの軽量ネットワークを備えた2つの挑戦的なSODタスクの適応デコーダーを比較します。
この実験は、ベースライン上の提案されたネットワークの利点を示しており、新しいアプリケーションでそのような方法をさらに調査することの重要性を明らかにしています。

要約(オリジナル)

Salient Object Detection (SOD) methods can locate objects that stand out in an image, assign higher values to their pixels in a saliency map, and binarize the map outputting a predicted segmentation mask. A recent tendency is to investigate pre-trained lightweight models rather than deep neural networks in SOD tasks, coping with applications under limited computational resources. In this context, we have investigated lightweight networks using a methodology named Feature Learning from Image Markers (FLIM), which assumes that the encoder’s kernels can be estimated from marker pixels on discriminative regions of a few representative images. This work proposes flyweight networks, hundreds of times lighter than lightweight models, for SOD by combining a FLIM encoder with an adaptive decoder, whose weights are estimated for each input image by a given heuristic function. Such FLIM networks are trained from three to four representative images only and without backpropagation, making the models suitable for applications under labeled data constraints as well. We study five adaptive decoders; two of them are introduced here. Differently from the previous ones that rely on one neuron per pixel with shared weights, the heuristic functions of the new adaptive decoders estimate the weights of each neuron per pixel. We compare FLIM models with adaptive decoders for two challenging SOD tasks with three lightweight networks from the state-of-the-art, two FLIM networks with decoders trained by backpropagation, and one FLIM network whose labeled markers define the decoder’s weights. The experiments demonstrate the advantages of the proposed networks over the baselines, revealing the importance of further investigating such methods in new applications.

arxiv情報

著者 Gilson Junior Soares,Matheus Abrantes Cerqueira,Jancarlo F. Gomes,Laurent Najman,Silvio Jamil F. Guimarães,Alexandre Xavier Falcão
発行日 2025-04-29 15:44:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク