Multispectral Texture Synthesis using RGB Convolutional Neural Networks

要約

最先端の RGB テクスチャ合成アルゴリズムは、深い特徴の統計を通じて計算されるスタイル距離に依存しています。
これらの深い特徴は、RGB 画像の大規模なデータセットでトレーニングされた分類ニューラル ネットワークによって抽出されます。
事前トレーニングされたネットワークは RGB 画像用に設計されており、RGB 画像でトレーニングされているため、このような合成方法をマルチスペクトル画像に拡張することは簡単ではありません。
この研究では、これらの方法をマルチスペクトル イメージングに拡張する 2 つのソリューションを提案します。
どちらも、二次ニューラル統計が抽出されるニューラル ネットワークの追加のトレーニングを必要としません。
1 つ目は、トレーニング全体を通じてスペクトル バンドのランダムな 3 つのバッチを最適化することで構成されます。
2 つ目は、マルチスペクトル ピクセルを 3 次元空間に投影します。
さらに、投影によって引き起こされる潜在的な異常な色分布を回避するために、投影の上流でカラー転送操作を行う利点を調査します。
私たちの実験では、さまざまなメトリクスを通じてさまざまな方法のパフォーマンスを比較します。
これらを使用して見本ベースのテクスチャ合成を実行し、良好な視覚品質を達成し、RGB バンドで最先端の方法に近づくことができることを実証します。

要約(オリジナル)

State-of-the-art RGB texture synthesis algorithms rely on style distances that are computed through statistics of deep features. These deep features are extracted by classification neural networks that have been trained on large datasets of RGB images. Extending such synthesis methods to multispectral images is not straightforward, since the pre-trained networks are designed for and have been trained on RGB images. In this work, we propose two solutions to extend these methods to multispectral imaging. Neither of them require additional training of the neural network from which the second order neural statistics are extracted. The first one consists in optimizing over batches of random triplets of spectral bands throughout training. The second one projects multispectral pixels onto a 3 dimensional space. We further explore the benefit of a color transfer operation upstream of the projection to avoid the potentially abnormal color distributions induced by the projection. Our experiments compare the performances of the various methods through different metrics. We demonstrate that they can be used to perform exemplar-based texture synthesis, achieve good visual quality and comes close to state-of-the art methods on RGB bands.

arxiv情報

著者 Sélim Ollivier,Yann Gousseau,Sidonie Lefebvre
発行日 2024-10-21 13:49:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multispectral Texture Synthesis using RGB Convolutional Neural Networks はコメントを受け付けていません

START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation

要約

ドメイン一般化 (DG) は、複数のソース ドメインから学習することで、モデルを目に見えないターゲット ドメインに一般化できるようにすることを目的としています。
既存の DG 手法は主に畳み込みニューラル ネットワーク (CNN) に依存していますが、CNN は限られた受容野により本質的にテクスチャ バイアスを学習するため、ソース ドメインの過学習が起こりやすくなります。
一部の研究では、DG がグローバル受容野を活用するためにトランスベースの手法 (ViT) を導入していますが、これらの手法では、自己注意の 2 次の複雑さのため、高い計算コストが発生します。
最近、Mamba に代表される高度な状態空間モデル (SSM) は、トレーニング中の系列長の線形複雑性と推論中の高速な RNN のような計算を達成することで、教師あり学習タスクにおいて有望な結果を示しています。
これに触発されて、私たちはドメイン シフト下での Mamba モデルの一般化能力を調査し、SSM 内の入力依存行列がドメイン固有の特徴を蓄積および増幅し、その結果モデルの一般化を妨げる可能性があることを発見しました。
この問題に対処するために、私たちは顕著性ベースのトークン認識変換 (つまり START) を備えた新しい SSM ベースのアーキテクチャを提案します。これは、最先端 (SOTA) のパフォーマンスを実現し、CNN や ViT に代わる競争力のある代替手段を提供します。
私たちの START は、SSM の入力依存マトリックス内の顕著なトークンのドメイン固有の特徴を選択的に摂動および抑制することができるため、異なるドメイン間の不一致を効果的に削減できます。
5 つのベンチマークに関する広範な実験により、START が効率的な線形複雑さで既存の SOTA DG メソッドよりも優れていることが実証されました。
私たちのコードは https://github.com/lingeringlight/START で入手できます。

要約(オリジナル)

Domain Generalization (DG) aims to enable models to generalize to unseen target domains by learning from multiple source domains. Existing DG methods primarily rely on convolutional neural networks (CNNs), which inherently learn texture biases due to their limited receptive fields, making them prone to overfitting source domains. While some works have introduced transformer-based methods (ViTs) for DG to leverage the global receptive field, these methods incur high computational costs due to the quadratic complexity of self-attention. Recently, advanced state space models (SSMs), represented by Mamba, have shown promising results in supervised learning tasks by achieving linear complexity in sequence length during training and fast RNN-like computation during inference. Inspired by this, we investigate the generalization ability of the Mamba model under domain shifts and find that input-dependent matrices within SSMs could accumulate and amplify domain-specific features, thus hindering model generalization. To address this issue, we propose a novel SSM-based architecture with saliency-based token-aware transformation (namely START), which achieves state-of-the-art (SOTA) performances and offers a competitive alternative to CNNs and ViTs. Our START can selectively perturb and suppress domain-specific features in salient tokens within the input-dependent matrices of SSMs, thus effectively reducing the discrepancy between different domains. Extensive experiments on five benchmarks demonstrate that START outperforms existing SOTA DG methods with efficient linear complexity. Our code is available at https://github.com/lingeringlight/START.

arxiv情報

著者 Jintao Guo,Lei Qi,Yinghuan Shi,Yang Gao
発行日 2024-10-21 13:50:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | START: A Generalized State Space Model with Saliency-Driven Token-Aware Transformation はコメントを受け付けていません

Few-shot target-driven instance detection based on open-vocabulary object detection models

要約

現在の大規模なオープン ビジョン モデルは、1 ショットまたは数ショットの物体認識に役立つ可能性があります。
それにもかかわらず、勾配ベースの再トレーニング ソリューションはコストがかかります。
一方、オープン語彙オブジェクト検出モデルは、同じ潜在空間内に視覚的概念とテキスト概念を近づけ、少ない計算コストでプロンプトによるゼロショット検出を可能にします。
我々は、テキストによる説明を必要とせずに、後者をワンショットまたは数ショットの物体認識モデルに変える軽量な方法を提案します。
YOLO-World モデルをベースとして使用した TEgO データセットでの実験では、モデルのサイズ、サンプルの数、画像拡張の使用に応じてパフォーマンスが向上することがわかりました。

要約(オリジナル)

Current large open vision models could be useful for one and few-shot object recognition. Nevertheless, gradient-based re-training solutions are costly. On the other hand, open-vocabulary object detection models bring closer visual and textual concepts in the same latent space, allowing zero-shot detection via prompting at small computational cost. We propose a lightweight method to turn the latter into a one-shot or few-shot object recognition models without requiring textual descriptions. Our experiments on the TEgO dataset using the YOLO-World model as a base show that performance increases with the model size, the number of examples and the use of image augmentation.

arxiv情報

著者 Ben Crulis,Barthelemy Serres,Cyril De Runz,Gilles Venturini
発行日 2024-10-21 14:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Few-shot target-driven instance detection based on open-vocabulary object detection models はコメントを受け付けていません

UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images

要約

高解像度のリモート センシング画像のセマンティック セグメンテーションは、土地被覆マッピング、都市計画、災害評価などの下流アプリケーションで不可欠です。既存の Transformer ベースの手法は精度と効率の間の制約に悩まされていますが、最近提案された Mamba は、
効率的。
したがって、このジレンマを克服するために、Mamba に基づく UNet のようなセマンティック セグメンテーション モデルである UNetMamba を提案します。
これには、高解像度画像内の複雑な情報を効率的にデコードできるマンバ セグメンテーション デコーダ (MSD) と、トレイン専用だがローカル コンテンツの認識を大幅に向上できるローカル監視モジュール (LSM) が組み込まれています。
広範な実験により、UNetMamba が最先端の手法を上回るパフォーマンスを示し、mIoU が LoveDA で 0.87%、ISPRS Vaihingen で 0.39% 増加し、軽量設計、メモリ フットプリントの削減、計算コストの削減を通じて高い効率を実現しました。
ソース コードは https://github.com/EnzeZhu2001/UNetMamba で入手できます。

要約(オリジナル)

Semantic segmentation of high-resolution remote sensing images is vital in downstream applications such as land-cover mapping, urban planning and disaster assessment.Existing Transformer-based methods suffer from the constraint between accuracy and efficiency, while the recently proposed Mamba is renowned for being efficient. Therefore, to overcome the dilemma, we propose UNetMamba, a UNet-like semantic segmentation model based on Mamba. It incorporates a mamba segmentation decoder (MSD) that can efficiently decode the complex information within high-resolution images, and a local supervision module (LSM), which is train-only but can significantly enhance the perception of local contents. Extensive experiments demonstrate that UNetMamba outperforms the state-of-the-art methods with mIoU increased by 0.87% on LoveDA and 0.39% on ISPRS Vaihingen, while achieving high efficiency through the lightweight design, less memory footprint and reduced computational cost. The source code is available at https://github.com/EnzeZhu2001/UNetMamba.

arxiv情報

著者 Enze Zhu,Zhan Chen,Dingkai Wang,Hanru Shi,Xiaoxuan Liu,Lei Wang
発行日 2024-10-21 14:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UNetMamba: An Efficient UNet-Like Mamba for Semantic Segmentation of High-Resolution Remote Sensing Images はコメントを受け付けていません

Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024

要約

Road++ Track3 は、交通シナリオにおけるマルチラベルのアトミック アクティビティ認識タスクを提案します。これは、64 クラスのマルチラベル ビデオ アクション認識タスクとして標準化できます。
マルチラベル原子活動認識タスクでは、視覚的特徴抽出の堅牢性が依然として重要な課題であり、これはモデルのパフォーマンスと汎化能力に直接影響します。
これらの問題に対処するために、私たちのチームはデータ処理、モデル、後処理という 3 つの側面を最適化しました。
まず、適切な解像度とビデオ サンプリング戦略が選択され、固定のサンプリング戦略が検証セットとテスト セットに設定されます。
次に、モデルのトレーニングに関して、チームは特徴抽出用にさまざまなビジュアル バックボーン ネットワークを選択し、トレーニング セットと検証セットでトレーニングされ、テスト セットで推論されるアクション スロット モデルを導入します。
最後に、後処理として、チームはさまざまなモデルの長所と短所を組み合わせて加重融合を行い、テスト セットの最終的な mAP は 58% となり、チャレンジのベースラインより 4% 高くなりました。

要約(オリジナル)

Road++ Track3 proposes a multi-label atomic activity recognition task in traffic scenarios, which can be standardized as a 64-class multi-label video action recognition task. In the multi-label atomic activity recognition task, the robustness of visual feature extraction remains a key challenge, which directly affects the model performance and generalization ability. To cope with these issues, our team optimized three aspects: data processing, model and post-processing. Firstly, the appropriate resolution and video sampling strategy are selected, and a fixed sampling strategy is set on the validation and test sets. Secondly, in terms of model training, the team selects a variety of visual backbone networks for feature extraction, and then introduces the action-slot model, which is trained on the training and validation sets, and reasoned on the test set. Finally, for post-processing, the team combined the strengths and weaknesses of different models for weighted fusion, and the final mAP on the test set was 58%, which is 4% higher than the challenge baseline.

arxiv情報

著者 Jiamin Cao,Lingqi Wang,Kexin Zhang,Yuting Yang,Licheng Jiao,Yuwei Guo
発行日 2024-10-21 14:10:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Improving the Multi-label Atomic Activity Recognition by Robust Visual Feature and Advanced Attention @ ROAD++ Atomic Activity Recognition 2024 はコメントを受け付けていません

Benchmarking Pathology Foundation Models: Adaptation Strategies and Scenarios

要約

計算病理学では、最近いくつかの基礎モデルが登場し、病理学画像を分析するための学習機能の強化が実証されました。
ただし、これらのモデルをさまざまな下流タスクに適応させることは、特に、さまざまなソースや取得条件からのデータセット、およびデータの可用性が限られている場合には依然として困難です。
この研究では、14 のデータセットにわたる 4 つの病理学固有の基礎モデルと、多様な適応シナリオと下流タスクに対処する 2 つのシナリオ (一貫性評価と柔軟性評価) のベンチマークを行います。
5 つの微調整手法を含む一貫性評価シナリオでは、パラメーター効率の高い微調整アプローチが、同じ下流タスク内の多様なデータセットに病理学固有の基礎モデルを適応させるのに効率的かつ効果的であることがわかりました。
データが制限された環境下での柔軟性評価シナリオでは、5 つの少数ショット学習手法を利用し、テスト段階でのみ変更を行う少数ショット学習手法の方が基礎モデルに大きなメリットをもたらしたことが観察されました。
これらの発見は、実際の臨床現場で病理特有の基礎モデルを展開するための指針となる洞察を提供し、病理画像解析の精度と信頼性を向上させる可能性があります。
この研究のコードは、https://github.com/QuIIL/BenchmarkingPathologyFoundationModels で入手できます。

要約(オリジナル)

In computational pathology, several foundation models have recently emerged and demonstrated enhanced learning capability for analyzing pathology images. However, adapting these models to various downstream tasks remains challenging, particularly when faced with datasets from different sources and acquisition conditions, as well as limited data availability. In this study, we benchmark four pathology-specific foundation models across 14 datasets and two scenarios-consistency assessment and flexibility assessment-addressing diverse adaptation scenarios and downstream tasks. In the consistency assessment scenario, involving five fine-tuning methods, we found that the parameter-efficient fine-tuning approach was both efficient and effective for adapting pathology-specific foundation models to diverse datasets within the same downstream task. In the flexibility assessment scenario under data-limited environments, utilizing five few-shot learning methods, we observed that the foundation models benefited more from the few-shot learning methods that involve modification during the testing phase only. These findings provide insights that could guide the deployment of pathology-specific foundation models in real clinical settings, potentially improving the accuracy and reliability of pathology image analysis. The code for this study is available at: https://github.com/QuIIL/BenchmarkingPathologyFoundationModels.

arxiv情報

著者 Jeaung Lee,Jeewoo Lim,Keunho Byeon,Jin Tae Kwak
発行日 2024-10-21 14:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Benchmarking Pathology Foundation Models: Adaptation Strategies and Scenarios はコメントを受け付けていません

Deep Correlated Prompting for Visual Recognition with Missing Modalities

要約

大規模なマルチモーダル モデルは、ペアになったマルチモーダル トレーニング データの大規模なコーパスを活用した一連のタスクで優れたパフォーマンスを示しています。
一般に、それらは常にモダリティ完全な入力を受信すると想定されます。
ただし、この単純な仮定は、プライバシーの制約や収集の困難さのため、現実の世界では必ずしも当てはまらない可能性があります。モダリティが完全なデータで事前トレーニングされたモデルは、モダリティが欠落しているケースではパフォーマンスの低下を容易に示します。
この問題に対処するために、さまざまな欠落ケースをさまざまなタイプの入力とみなして、欠落モダリティのシナリオを処理するように大規模な事前トレーニング済みマルチモーダル モデルを適応させるための学習を促進することを指します。
独立したプロンプトを中間層の先頭に追加するだけではなく、プロンプトと入力特徴間の相関関係を活用し、プロンプトの異なる層間の関係を掘り起こして、指示を慎重に設計することを提案します。
また、さまざまなモダリティの補完的なセマンティクスを組み込んで、各モダリティのプロンプト設計をガイドします。
一般的に使用される 3 つのデータセットに関する広範な実験により、さまざまな欠落シナリオに対する以前のアプローチと比較して、私たちの方法の優位性が一貫して実証されています。
さらに、さまざまなモダリティ欠損率とタイプに対する本発明の方法の一般化可能性と信頼性を示すために、豊富なアブレーションが提供されます。

要約(オリジナル)

Large-scale multimodal models have shown excellent performance over a series of tasks powered by the large corpus of paired multimodal training data. Generally, they are always assumed to receive modality-complete inputs. However, this simple assumption may not always hold in the real world due to privacy constraints or collection difficulty, where models pretrained on modality-complete data easily demonstrate degraded performance on missing-modality cases. To handle this issue, we refer to prompt learning to adapt large pretrained multimodal models to handle missing-modality scenarios by regarding different missing cases as different types of input. Instead of only prepending independent prompts to the intermediate layers, we present to leverage the correlations between prompts and input features and excavate the relationships between different layers of prompts to carefully design the instructions. We also incorporate the complementary semantics of different modalities to guide the prompting design for each modality. Extensive experiments on three commonly-used datasets consistently demonstrate the superiority of our method compared to the previous approaches upon different missing scenarios. Plentiful ablations are further given to show the generalizability and reliability of our method upon different modality-missing ratios and types.

arxiv情報

著者 Lianyu Hu,Tongkai Shi,Wei Feng,Fanhua Shang,Liang Wan
発行日 2024-10-21 14:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Deep Correlated Prompting for Visual Recognition with Missing Modalities はコメントを受け付けていません

From FDG to PSMA: A Hitchhiker’s Guide to Multitracer, Multicenter Lesion Segmentation in PET/CT Imaging

要約

PET/CT スキャンにおける自動病変セグメンテーションは、臨床ワークフローを改善し、がん診断を進歩させるために非常に重要です。
ただし、生理学的変動、PET イメージングで使用されるさまざまなトレーサー、医療センター間でのイメージング プロトコルの多様性などにより、この作業は困難です。
これに対処するために、autoPET シリーズは、多様な PET/CT 環境にわたって一般化するアルゴリズムの開発を研究者に課題として作成されました。
この論文では、ResEncL アーキテクチャを備えた nnU-Net フレームワークを使用したマルチトレーサ、マルチセンターの一般化をターゲットとした、autoPET III の課題に対するソリューションを紹介します。
主要な技術には、初期の解剖学的理解を提供するための、位置ずれデータの増強や、CT、MR、PET データセットにわたるマルチモーダル事前トレーニングが含まれます。
マルチタスクアプローチとして臓器監視を組み込み、モデルが生理学的摂取とトレーサー固有のパターンを区別できるようにします。これは、病変が存在しない場合に特に有益です。
57.61 の Dice スコアを達成したデフォルトの nnU-Net や、より大きな ResEncL (65.31) と比較して、私たちのモデルは、68.40 の Dice スコアでパフォーマンスを大幅に向上させ、同時に偽陽性 (FPvol: 7.82) と偽陰性 (
FNvol: 10.35) 巻。
これらの結果は、PET/CT 病変セグメンテーションのための高度なネットワーク設計、拡張、事前トレーニング、およびマルチタスク学習を組み合わせることが有効であることを強調しています。
テスト セットでの評価後、私たちのアプローチはモデル中心のカテゴリ (Team LesionTracer) で 1 位を獲得しました。
コードは https://github.com/MIC-DKFZ/autopet-3-submission で公開されています。

要約(オリジナル)

Automated lesion segmentation in PET/CT scans is crucial for improving clinical workflows and advancing cancer diagnostics. However, the task is challenging due to physiological variability, different tracers used in PET imaging, and diverse imaging protocols across medical centers. To address this, the autoPET series was created to challenge researchers to develop algorithms that generalize across diverse PET/CT environments. This paper presents our solution for the autoPET III challenge, targeting multitracer, multicenter generalization using the nnU-Net framework with the ResEncL architecture. Key techniques include misalignment data augmentation and multi-modal pretraining across CT, MR, and PET datasets to provide an initial anatomical understanding. We incorporate organ supervision as a multitask approach, enabling the model to distinguish between physiological uptake and tracer-specific patterns, which is particularly beneficial in cases where no lesions are present. Compared to the default nnU-Net, which achieved a Dice score of 57.61, or the larger ResEncL (65.31) our model significantly improved performance with a Dice score of 68.40, alongside a reduction in false positive (FPvol: 7.82) and false negative (FNvol: 10.35) volumes. These results underscore the effectiveness of combining advanced network design, augmentation, pretraining, and multitask learning for PET/CT lesion segmentation. After evaluation on the test set, our approach was awarded the first place in the model-centric category (Team LesionTracer). Code is publicly available at https://github.com/MIC-DKFZ/autopet-3-submission.

arxiv情報

著者 Maximilian Rokuss,Balint Kovacs,Yannick Kirchhoff,Shuhan Xiao,Constantin Ulrich,Klaus H. Maier-Hein,Fabian Isensee
発行日 2024-10-21 14:15:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | From FDG to PSMA: A Hitchhiker’s Guide to Multitracer, Multicenter Lesion Segmentation in PET/CT Imaging はコメントを受け付けていません

Machine Unlearning in Forgettability Sequence

要約

機械の非学習(MU)は、「忘れられる権利」を実現するための有望なパラダイムになりつつあります。これにより、選択したデータ ポイントのトレーニング トレースを削除しながら、非学習後の一般的なテスト サンプルでのモデルの有用性を維持できます。
忘却に関する研究が進むにつれて、多くの基本的な未解決の疑問が未解決のままになっています。それは、サンプルごとに忘れられにくさのレベルが異なるのかということです。
さらに、それぞれの難易度によって決定されるサンプルが忘れられる順序は、忘却アルゴリズムのパフォーマンスに影響しますか?
この論文では、アンラーニングの難しさとアンラーニング アルゴリズムのパフォーマンスに影響を与える重要な要素を特定します。
プライバシー リスクが高いサンプルは、未学習になる可能性が高いことがわかりました。これは、サンプルごとに再学習の難易度が異なり、それがより正確な再学習モードを動機付けることを示しています。
この洞察に基づいて、RSU と呼ばれる、Ranking モジュールと SeqUnlearn モジュールで構成される一般的なアンラーニング フレームワークを提案します。

要約(オリジナル)

Machine unlearning (MU) is becoming a promising paradigm to achieve the ‘right to be forgotten’, where the training trace of any chosen data points could be eliminated, while maintaining the model utility on general testing samples after unlearning. With the advancement of forgetting research, many fundamental open questions remain unanswered: do different samples exhibit varying levels of difficulty in being forgotten? Further, does the sequence in which samples are forgotten, determined by their respective difficulty levels, influence the performance of forgetting algorithms? In this paper, we identify key factor affecting unlearning difficulty and the performance of unlearning algorithms. We find that samples with higher privacy risks are more likely to be unlearning, indicating that the unlearning difficulty varies among different samples which motives a more precise unlearning mode. Built upon this insight, we propose a general unlearning framework, dubbed RSU, which consists of Ranking module and SeqUnlearn module.

arxiv情報

著者 Junjie Chen,Qian Chen,Jian Lou,Xiaoyu Zhang,Kai Wu,Zilong Wang
発行日 2024-10-21 14:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Machine Unlearning in Forgettability Sequence はコメントを受け付けていません

Label Filling via Mixed Supervision for Medical Image Segmentation from Noisy Annotations

要約

医療画像のセグメンテーションを成功させるには、通常、多数の高品質のラベルが必要です。
しかし、ラベル付けプロセスは通常、評価者のさまざまなスキル レベルや特性の影響を受けるため、さまざまな評価者によって提供される推定マスクには通常、評価者間の大きなばらつきが生じます。
この論文では、トレーニング中にノイズの多い注釈のみが与えられたグラウンドトゥルース セグメンテーション ラベルを予測する、LF-Net と呼ばれる、シンプルかつ効果的なラベル充填フレームワークを提案します。
ラベル充填の基本的な考え方は、信頼できるラベルを持つピクセルのサブセットによってセグメンテーション モデルを監視しながら、混合監視によって他のピクセルのラベルを埋めることです。
より具体的には、我々は適格多数決戦略を提案する。すなわち、閾値投票スキームは評価者間の合意をモデル化するように設計されており、選択されたピクセルのサブセットの多数決ラベルが監視とみなされます。
他のピクセルのラベルを埋めるために、2 つのタイプの混合補助監視が提案されています。ノイズのあるアノテーションの固有構造から学習されたソフト ラベルと、個々の評価者の特性情報を伝播する評価者の特性ラベルです。
LF-Net には 2 つの主な利点があります。
1) 信頼できるピクセルを使用したトレーニングには、信頼できる監督によるトレーニングが組み込まれており、グラウンドトゥルース ラベル学習の方向性を導きます。
2) 2 種類の混合監視により、ネットワークがピクセルのサブセットによって監視されている場合の過剰適合の問題が防止され、真のラベルの高い忠実度が保証されます。
多様な画像モダリティの 5 つのデータセットに関する結果は、当社の LF-Net が最先端の方法と比較してすべてのデータセットでセグメンテーションの精度を向上させ、MS 病変のセグメンテーションの DSC でさえ 7% 向上していることを示しています。

要約(オリジナル)

The success of medical image segmentation usually requires a large number of high-quality labels. But since the labeling process is usually affected by the raters’ varying skill levels and characteristics, the estimated masks provided by different raters usually suffer from high inter-rater variability. In this paper, we propose a simple yet effective Label Filling framework, termed as LF-Net, predicting the groundtruth segmentation label given only noisy annotations during training. The fundamental idea of label filling is to supervise the segmentation model by a subset of pixels with trustworthy labels, meanwhile filling labels of other pixels by mixed supervision. More concretely, we propose a qualified majority voting strategy, i.e., a threshold voting scheme is designed to model agreement among raters and the majority-voted labels of the selected subset of pixels are regarded as supervision. To fill labels of other pixels, two types of mixed auxiliary supervision are proposed: a soft label learned from intrinsic structures of noisy annotations, and raters’ characteristics labels which propagate individual rater’s characteristics information. LF-Net has two main advantages. 1) Training with trustworthy pixels incorporates training with confident supervision, guiding the direction of groundtruth label learning. 2) Two types of mixed supervision prevent over-fitting issues when the network is supervised by a subset of pixels, and guarantee high fidelity with the true label. Results on five datasets of diverse imaging modalities show that our LF-Net boosts segmentation accuracy in all datasets compared with state-of-the-art methods, with even a 7% improvement in DSC for MS lesion segmentation.

arxiv情報

著者 Ming Li,Wei Shen,Qingli Li,Yan Wang
発行日 2024-10-21 14:36:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Label Filling via Mixed Supervision for Medical Image Segmentation from Noisy Annotations はコメントを受け付けていません