Hierarchical Sparse Attention Framework for Computationally Efficient Classification of Biological Cells

要約

Sparseattnnetは、画像から最も有益なピクセルのみを適応的に選択および処理する効率的な画像分類のための新しい階層的な注意駆動型フレームワークです。
従来の畳み込みニューラルネットワークは通常、情報密度に関係なく画像全体を処理し、計算の非効率性と無関係な特徴に潜在的に焦点を当てます。
私たちのアプローチは、モデルの下流層から細かい多毛注意によって蒸留された粗い注意メカニズムを活用し、モデルが損失収束の傾向に基づいてトレーニング中に適応的に学習される最も顕著なKピクセルを識別および抽出できるようにします。
トップKピクセルが選択されると、モデルはこれらのピクセルのみを処理し、セマンティクスをキャプチャするために言語モデルに単語として埋め込み、続いてグローバルコンテキストを組み込むためにマルチヘッドの注意が続きます。
生物細胞画像の場合、Sparseattnnetが完全な画像ではなくピクセルの約15%を処理できることを示します。
次のモダリティからの白血球の画像を使用した細胞分類タスクに適用されます:染色のない細胞のデジタルホログラフィからの光経路差(OPD)画像、染色のない細胞からの運動感受性(イベント)カメラからの画像、および3つのイメージングモダリティすべてについて、競争力のある精度で競争力のある精度で競争力のある精度で競争力のある精度を達成します。
従来のCNNおよび視覚変圧器と比較して、1秒あたりの動作。
モデルは生物学的に関連する領域に焦点を当てているため、説明可能性の向上も提供します。
Sparseattnnetの適応的で軽量な性質により、イメージングフローサイトメトリーを含むリソース制約のある高スループット設定での展開に最適です。

要約(オリジナル)

We present SparseAttnNet, a new hierarchical attention-driven framework for efficient image classification that adaptively selects and processes only the most informative pixels from images. Traditional convolutional neural networks typically process the entire images regardless of information density, leading to computational inefficiency and potential focus on irrelevant features. Our approach leverages a dynamic selection mechanism that uses coarse attention distilled by fine multi-head attention from the downstream layers of the model, allowing the model to identify and extract the most salient k pixels, where k is adaptively learned during training based on loss convergence trends. Once the top-k pixels are selected, the model processes only these pixels, embedding them as words in a language model to capture their semantics, followed by multi-head attention to incorporate global context. For biological cell images, we demonstrate that SparseAttnNet can process approximately 15% of the pixels instead of the full image. Applied to cell classification tasks using white blood cells images from the following modalities: optical path difference (OPD) images from digital holography for stain-free cells, images from motion-sensitive (event) camera from stain-free cells, and brightfield microscopy images of stained cells, For all three imaging modalities, SparseAttnNet achieves competitive accuracy while drastically reducing computational requirements in terms of both parameters and floating-point operations per second, compared to traditional CNNs and Vision Transformers. Since the model focuses on biologically relevant regions, it also offers improved explainability. The adaptive and lightweight nature of SparseAttnNet makes it ideal for deployment in resource-constrained and high-throughput settings, including imaging flow cytometry.

arxiv情報

著者 Elad Yoshai,Dana Yagoda-Aharoni,Eden Dotan,Natan T. Shaked
発行日 2025-05-12 15:29:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク