要約
豊富な注釈付きデータと複雑なネットワークアーキテクチャの必要性は、深部学習の顕著なオブジェクト検出(深いSOD)とより広い深い学習環境全体に大きな課題をもたらします。
この課題は、計算リソースが限られている発展途上国の医療アプリケーションでは特に深刻です。
最新のテクニックと古典的なテクニックを組み合わせることで、実用的なアプリケーションを可能にしながら、競争力のあるパフォーマンスを維持するための道があります。
イメージマーカー(FLIM)のメソッドからの機能学習は、これらの注釈から直接学習したフィルターを使用して、ユーザーが描くマーカーを介して畳み込みエンコーダを設計する専門家を支援します。
最近の調査結果は、Flimエンコーダーを適応型デコーダーと結合すると、SODに適したフライ級ネットワークが作成され、軽量モデルよりもかなり少ないパラメーターが必要であり、バックプロパゲーションの必要性を排除することが示されています。
Cellular Automata(CA)メソッドは、データスカルスシナリオで成功していることが証明されていますが、適切な初期化が必要です。通常、ユーザー入力、プライアー、またはランダム性を介して。
これらのアプローチの実用的な交差点を提案します。Flimネットワークを使用して、各画像のユーザーインタラクションを必要とせずに専門知識を持つCA状態を初期化します。
Flimネットワークの各レベルから機能をデコードすることにより、複数のCASを同時に初期化して、マルチレベルのフレームワークを作成できます。
私たちの方法は、異なるネットワークレイヤーにエンコードされた階層的な知識を活用し、複数の顕著性マップをcaアンサンブルとして機能する高品質の最終出力にマージします。
2つの挑戦的な医療データセットのベンチマークは、深いSOD文献の確立されたモデルと比較して、マルチレベルCAアプローチの競争力を示しています。
要約(オリジナル)
The necessity of abundant annotated data and complex network architectures presents a significant challenge in deep-learning Salient Object Detection (deep SOD) and across the broader deep-learning landscape. This challenge is particularly acute in medical applications in developing countries with limited computational resources. Combining modern and classical techniques offers a path to maintaining competitive performance while enabling practical applications. Feature Learning from Image Markers (FLIM) methodology empowers experts to design convolutional encoders through user-drawn markers, with filters learned directly from these annotations. Recent findings demonstrate that coupling a FLIM encoder with an adaptive decoder creates a flyweight network suitable for SOD, requiring significantly fewer parameters than lightweight models and eliminating the need for backpropagation. Cellular Automata (CA) methods have proven successful in data-scarce scenarios but require proper initialization — typically through user input, priors, or randomness. We propose a practical intersection of these approaches: using FLIM networks to initialize CA states with expert knowledge without requiring user interaction for each image. By decoding features from each level of a FLIM network, we can initialize multiple CAs simultaneously, creating a multi-level framework. Our method leverages the hierarchical knowledge encoded across different network layers, merging multiple saliency maps into a high-quality final output that functions as a CA ensemble. Benchmarks across two challenging medical datasets demonstrate the competitiveness of our multi-level CA approach compared to established models in the deep SOD literature.
arxiv情報
著者 | Felipe Crispim Salvagnini,Jancarlo F. Gomes,Cid A. N. Santos,Silvio Jamil F. Guimarães,Alexandre X. Falcão |
発行日 | 2025-04-15 17:22:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google