Med-URWKV: Pure RWKV With ImageNet Pre-training For Medical Image Segmentation

要約

医療画像セグメンテーションは、コンピューター支援診断と治療における基本的で重要な技術です。
以前の方法は、両方を組み合わせた畳み込みニューラルネットワーク(CNN)ベース、トランスベース、およびハイブリッドアーキテクチャの3つのカテゴリに広く分類できます。
ただし、CNNの制限された受容フィールドや、トランスの二次複雑さによって引き起こされる計算オーバーヘッドなど、それぞれに独自の制限があります。
最近、レセプタンス加重キー値(RWKV)モデルは、さまざまなビジョンタスクの有望な代替手段として浮上しており、線形計算の複雑さを備えた強力な長距離モデリング機能を提供しています。
一部の研究では、RWKVを医療画像セグメンテーションタスクに適合させ、競争力のあるパフォーマンスを達成しています。
ただし、これらの研究のほとんどは、医療画像セグメンテーションタスクの事前に訓練されたVRWKVモデルを活用する潜在的な利点を調査することなく、Vision-RWKV(VRWKV)メカニズムと訓練モデルの変更に焦点を当てています。
このホワイトペーパーでは、Med-Urwkvを提案します。Med-urwkvは、医療画像セグメンテーションタスクにおけるRWKVの可能性をさらに調査するためにイメージネットベースの事前販売を組み込んだU-Netフレームワークに基づいて構築された純粋なRWKVベースのアーキテクチャを提案します。
私たちの知る限り、Med-Urwkvは、大規模な事前訓練を受けたVRWKVエンコーダーを直接再利用できる医療分野で最初の純粋なRWKVセグメンテーションモデルです。
7つのデータセットでの実験結果は、MED-URWKVが、ゼロからトレーニングされた他の慎重に最適化されたRWKVモデルと比較して、同等または優れたセグメンテーションパフォーマンスを達成することを示しています。
これは、モデルのパフォーマンスを向上させる際に、前処理されたVRWKVエンコーダーを使用することの有効性を検証します。
コードがリリースされます。

要約(オリジナル)

Medical image segmentation is a fundamental and key technology in computer-aided diagnosis and treatment. Previous methods can be broadly classified into three categories: convolutional neural network (CNN) based, Transformer based, and hybrid architectures that combine both. However, each of them has its own limitations, such as restricted receptive fields in CNNs or the computational overhead caused by the quadratic complexity of Transformers. Recently, the Receptance Weighted Key Value (RWKV) model has emerged as a promising alternative for various vision tasks, offering strong long-range modeling capabilities with linear computational complexity. Some studies have also adapted RWKV to medical image segmentation tasks, achieving competitive performance. However, most of these studies focus on modifications to the Vision-RWKV (VRWKV) mechanism and train models from scratch, without exploring the potential advantages of leveraging pre-trained VRWKV models for medical image segmentation tasks. In this paper, we propose Med-URWKV, a pure RWKV-based architecture built upon the U-Net framework, which incorporates ImageNet-based pretraining to further explore the potential of RWKV in medical image segmentation tasks. To the best of our knowledge, Med-URWKV is the first pure RWKV segmentation model in the medical field that can directly reuse a large-scale pre-trained VRWKV encoder. Experimental results on seven datasets demonstrate that Med-URWKV achieves comparable or even superior segmentation performance compared to other carefully optimized RWKV models trained from scratch. This validates the effectiveness of using a pretrained VRWKV encoder in enhancing model performance. The codes will be released.

arxiv情報

著者 Zhenhuan Zhou
発行日 2025-06-12 16:19:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク