要約
我々は、正確かつ高速なセル インスタンス セグメンテーションのために空間機能とスケール機能を組み合わせた、You Only Look Once (YOLO) フレームワーク (ASF-YOLO) をベースとした新しい Attendal Scale Sequence Fusion を提案します。
YOLO セグメンテーション フレームワークに基づいて構築されており、スケール シーケンス機能フュージョン (SSFF) モジュールを使用してネットワークのマルチスケール情報抽出機能を強化し、トリプル フィーチャー エンコーダー (TPE) モジュールを使用して、異なるスケールの特徴マップを融合して詳細度を向上させます。
情報。
さらに、SSFF モジュールと TPE モジュールの両方を統合するチャネルおよび位置アテンション メカニズム (CPAM) を導入します。これは、検出およびセグメンテーションのパフォーマンスを向上させるために、情報チャネルと空間位置に関連する小さなオブジェクトに焦点を当てています。
2 つのセル データセットの実験による検証により、提案された ASF-YOLO モデルの顕著なセグメンテーション精度と速度が示されました。
2018 Data Science Bowl データセットでボックス mAP 0.91、マスク mAP 0.887、推論速度 47.3 FPS を達成し、最先端の手法を上回ります。
ソース コードは https://github.com/mkang315/ASF-YOLO で入手できます。
要約(オリジナル)
We propose a novel Attentional Scale Sequence Fusion based You Only Look Once (YOLO) framework (ASF-YOLO) which combines spatial and scale features for accurate and fast cell instance segmentation. Built on the YOLO segmentation framework, we employ the Scale Sequence Feature Fusion (SSFF) module to enhance the multi-scale information extraction capability of the network, and the Triple Feature Encoder (TPE) module to fuse feature maps of different scales to increase detailed information. We further introduce a Channel and Position Attention Mechanism (CPAM) to integrate both the SSFF and TPE modules, which focus on informative channels and spatial position-related small objects for improved detection and segmentation performance. Experimental validations on two cell datasets show remarkable segmentation accuracy and speed of the proposed ASF-YOLO model. It achieves a box mAP of 0.91, mask mAP of 0.887, and an inference speed of 47.3 FPS on the 2018 Data Science Bowl dataset, outperforming the state-of-the-art methods. The source code is available at https://github.com/mkang315/ASF-YOLO.
arxiv情報
| 著者 | Ming Kang,Chee-Ming Ting,Fung Fung Ting,Raphaël C. -W. Phan |
| 発行日 | 2023-12-11 15:47:12+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google