3D Mitochondria Instance Segmentation with Spatio-Temporal Transformers

要約

電子顕微鏡 (EM) における正確な 3 D ミトコンドリア インスタンス セグメンテーションは困難な問題であり、その分布と形態を経験的に分析するための前提条件として機能します。
ほとんどの既存のアプローチは、3D 畳み込みを使用して代表的な特徴を取得します。
ただし、これらの畳み込みベースのアプローチは、局所受容野が限られているため、ボリューム ミトコンドリア データの長期依存性を効果的に捉えるのに苦労しています。
これに対処するために、分割時空間注意モジュールに基づくハイブリッド エンコーダー/デコーダー フレームワークを提案します。このフレームワークは、後で変形可能な畳み込みによって融合されます。
さらに、バックグラウンド クラッターからミトコンドリア インスタンスの領域を区別するのに役立つ、トレーニング中にセマンティック フォアグラウンド バックグラウンドの敵対的損失を導入します。
Lucchi、MitoEM-R、MitoEM-H の 3 つのベンチマークに関する広範な実験により、3 つのデータセットすべてで最先端の結果を達成する提案された貢献の利点が明らかになりました。
私たちのコードとモデルは、https://github.com/OmkarThawakar/STT-UNET で入手できます。

要約(オリジナル)

Accurate 3D mitochondria instance segmentation in electron microscopy (EM) is a challenging problem and serves as a prerequisite to empirically analyze their distributions and morphology. Most existing approaches employ 3D convolutions to obtain representative features. However, these convolution-based approaches struggle to effectively capture long-range dependencies in the volume mitochondria data, due to their limited local receptive field. To address this, we propose a hybrid encoder-decoder framework based on a split spatio-temporal attention module that efficiently computes spatial and temporal self-attentions in parallel, which are later fused through a deformable convolution. Further, we introduce a semantic foreground-background adversarial loss during training that aids in delineating the region of mitochondria instances from the background clutter. Our extensive experiments on three benchmarks, Lucchi, MitoEM-R and MitoEM-H, reveal the benefits of the proposed contributions achieving state-of-the-art results on all three datasets. Our code and models are available at https://github.com/OmkarThawakar/STT-UNET.

arxiv情報

著者 Omkar Thawakar,Rao Muhammad Anwer,Jorma Laaksonen,Orly Reiner,Mubarak Shah,Fahad Shahbaz Khan
発行日 2023-03-21 17:58:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク