MSA-UNet3+: Multi-Scale Attention UNet3+ with New Supervised Prototypical Contrastive Loss for Coronary DSA Image Segmentation

要約

冠動脈疾患の診断と治療には、冠動脈デジタル減算血管造影(DSA)画像の正確なセグメンテーションが不可欠です。
深い学習ベースのセグメンテーションの進歩にもかかわらず、コントラストの低い、ノイズ、重複構造、クラス内の分散が高い、クラスの不均衡などの課題は、正確な容器の描写を制限します。
これらの制限を克服するために、MSA-UNET3+:冠動脈DSA画像セグメンテーションのMultiScale Atterness Enhanced UNET3+アーキテクチャを提案します。
このフレームワークは、マルチスケール拡張ボトルネック(MSD-BottleNeck)とコンテキストの注意融合モジュール(CAFM)を組み合わせました。これにより、マルチスケールの特徴抽出を強化するだけでなく、微細粒度の詳細を保持し、コンテキストの理解が向上します。
さらに、監視されたプロトタイプのコントラスト損失(SPCL)を提案します。これは、分類されている背景サンプルに焦点を当てることにより、クラスの不均衡とクラス内の分散を最小限に抑えるために、監視されたプロトタイプの対照学習を組み合わせています。
私的な冠動脈DSAデータセットで実施された実験は、MSA-UNET3+が最先端の方法を上回り、87.73%のサイコロ係数、87.78%のF1スコア、平均表面距離(ASD)と平均等輪距離(ACD)を大幅に減少させることを示しています。
開発されたフレームワークは、臨床医に正確な容器セグメンテーションを提供し、冠動脈狭窄の正確な識別を可能にし、情報に基づいた診断と治療の決定をサポートします。
このコードは、次のGithubプロファイルリンクhttps://github.com/rayanmerghani/msa-unet3plusでリリースされます。

要約(オリジナル)

The accurate segmentation of coronary Digital Subtraction Angiography (DSA) images is essential for diagnosing and treating coronary artery diseases. Despite advances in deep learning-based segmentation, challenges such as low contrast, noise, overlapping structures, high intra-class variance, and class imbalance limit precise vessel delineation. To overcome these limitations, we propose the MSA-UNet3+: a Multi-Scale Attention enhanced UNet3+ architecture for coronary DSA image segmentation. The framework combined Multi-Scale Dilated Bottleneck (MSD-Bottleneck) with Contextual Attention Fusion Module (CAFM), which not only enhances multi-scale feature extraction but also preserve fine-grained details, and improve contextual understanding. Furthermore, we propose a new Supervised Prototypical Contrastive Loss (SPCL), which combines supervised and prototypical contrastive learning to minimize class imbalance and high intra-class variance by focusing on hard-to-classified background samples. Experiments carried out on a private coronary DSA dataset demonstrate that MSA-UNet3+ outperforms state-of-the-art methods, achieving a Dice coefficient of 87.73%, an F1-score of 87.78%, and significantly reduced Average Surface Distance (ASD) and Average Contour Distance (ACD). The developed framework provides clinicians with precise vessel segmentation, enabling accurate identification of coronary stenosis and supporting informed diagnostic and therapeutic decisions. The code will be released at the following GitHub profile link https://github.com/rayanmerghani/MSA-UNet3plus.

arxiv情報

著者 Rayan Merghani Ahmed,Adnan Iltaf,Bin Li,Shoujun Zhou
発行日 2025-04-07 15:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MSA-UNet3+: Multi-Scale Attention UNet3+ with New Supervised Prototypical Contrastive Loss for Coronary DSA Image Segmentation はコメントを受け付けていません

Training state-of-the-art pathology foundation models with orders of magnitude less data

要約

計算病理学の分野では、最近、現代ビジョンファンデーションモデル(FMS)の開発によって駆動される急速な進歩が見られました。
最近の研究では、トレーニングデータセットとモデルサイズを増やし、ドメイン固有の画像処理手法を統合すると、下流タスクでのモデルのパフォーマンスが大幅に向上することが示されています。
これらの洞察に基づいて、私たちの研究には、病理FMSのトレーニングを最適化するために、文献から標準的なDINOV2フレームワークに最近のいくつかの変更が組み込まれています。
また、埋め込みにエンコードされた情報をさらに強化するために、高解像度画像の微調整モデルのトレーニング後の手順を適用します。
ダウンストリームタスクで同等または優れたパフォーマンスを実証しながら、他の最先端のFMSをトレーニングするために使用したWSIよりも最大2桁少ないWSIで訓練された3つの新しい病理学FMSを提示します。
TCGAのみで訓練されたモデル(12K WSI)でさえ、ほとんどの既存のFMSを上回り、平均してこれまでに公開された2番目に良いFMであるVirchow2と一致します。
これは、膨大なデータ収集を最大限に活用するために病理学FMSをトレーニングするために使用されるモデルとアルゴリズムをさらに改善するための重要な可能性がまだ残っていることを示唆しています。

要約(オリジナル)

The field of computational pathology has recently seen rapid advances driven by the development of modern vision foundation models (FMs), typically trained on vast collections of pathology images. Recent studies demonstrate that increasing the training data set and model size and integrating domain-specific image processing techniques can significantly enhance the model’s performance on downstream tasks. Building on these insights, our work incorporates several recent modifications to the standard DINOv2 framework from the literature to optimize the training of pathology FMs. We also apply a post-training procedure for fine-tuning models on higher-resolution images to further enrich the information encoded in the embeddings. We present three novel pathology FMs trained on up to two orders of magnitude fewer WSIs than those used to train other state-of-the-art FMs while demonstrating a comparable or superior performance on downstream tasks. Even the model trained on TCGA alone (12k WSIs) outperforms most existing FMs and, on average, matches Virchow2, the second-best FM published to date. This suggests that there still remains a significant potential for further improving the models and algorithms used to train pathology FMs to take full advantage of the vast data collections.

arxiv情報

著者 Mikhail Karasikov,Joost van Doorn,Nicolas Känzig,Melis Erdal Cesur,Hugo Mark Horlings,Robert Berke,Fei Tang,Sebastian Otálora
発行日 2025-04-07 15:38:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Training state-of-the-art pathology foundation models with orders of magnitude less data はコメントを受け付けていません

DiffPatch: Generating Customizable Adversarial Patches using Diffusion Models

要約

衣服に印刷された物理的な敵対的なパッチは、個人が人の検出器を回避することができますが、ほとんどの既存の方法はステルス性よりも攻撃の有効性を優先し、審美的に不快なパッチをもたらします。
生成的な敵対的なネットワークと拡散モデルは、より自然に見えるパッチを生成する可能性がありますが、ステルス性と攻撃の有効性のバランスをとることができず、ユーザーのカスタマイズの柔軟性の欠如に失敗することがよくあります。
これらの制限に対処するために、カスタマイズ可能で自然主義的な敵対的なパッチを生成するための新しい拡散ベースのフレームワークであるDiffpatchを提案します。
当社のアプローチにより、ユーザーは(ランダムノイズではなく)参照画像から開始でき、マスクを組み込んで、広場に限定されないさまざまな形状のパッチを作成できます。
拡散プロセス中に元のセマンティクスを保存するために、ヌルテキストの反転を使用して、ランダムノイズサンプルを単一の入力画像にマッピングし、不完全な拡散最適化(IDO)を介してパッチを生成します。
私たちの方法は、自然な外観を維持しながら、最先端の非自然主義的なパッチに匹敵する攻撃性能を実現します。
diffpatchを使用して、多様なシナリオでキャプチャされた1,000を超える画像を含む最初の物理的な敵対的なTシャツデータセットであるAdvt-Shirt-1Kを構築します。
Advt-Shirt-1Kは、将来の防御方法をトレーニングまたはテストするための有用なデータセットとして機能します。

要約(オリジナル)

Physical adversarial patches printed on clothing can enable individuals to evade person detectors, but most existing methods prioritize attack effectiveness over stealthiness, resulting in aesthetically unpleasing patches. While generative adversarial networks and diffusion models can produce more natural-looking patches, they often fail to balance stealthiness with attack effectiveness and lack flexibility for user customization. To address these limitations, we propose DiffPatch, a novel diffusion-based framework for generating customizable and naturalistic adversarial patches. Our approach allows users to start from a reference image (rather than random noise) and incorporates masks to create patches of various shapes, not limited to squares. To preserve the original semantics during the diffusion process, we employ Null-text inversion to map random noise samples to a single input image and generate patches through Incomplete Diffusion Optimization (IDO). Our method achieves attack performance comparable to state-of-the-art non-naturalistic patches while maintaining a natural appearance. Using DiffPatch, we construct AdvT-shirt-1K, the first physical adversarial T-shirt dataset comprising over a thousand images captured in diverse scenarios. AdvT-shirt-1K can serve as a useful dataset for training or testing future defense methods.

arxiv情報

著者 Zhixiang Wang,Xiaosen Wang,Bo Wang,Siheng Chen,Zhibo Wang,Xingjun Ma,Yu-Gang Jiang
発行日 2025-04-07 15:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DiffPatch: Generating Customizable Adversarial Patches using Diffusion Models はコメントを受け付けていません

Joint multiband deconvolution for Euclid and Vera C. Rubin images

要約

EuclidやVera C. Rubinのような調査の出現により、天体物理学者は、深く高解像度の画像とマルチバンド画像の両方にアクセスできます。
ただし、これらの2つのタイプは、単一のデータセットで同時に使用できません。
したがって、両方の世界の最高のものを活用し、さまざまな解像度と波長にまたがるデータセットを共同で分析できる画像デコンボリューションアルゴリズムを考案することが重要です。
この作業では、高解像度の宇宙ベースの観測を活用することにより、地上ベースの天文画像の解像度を改善することを目的とした新しいマルチバンドデコンボリューション技術を紹介します。
この方法は、Rubin $ r $、$ i $、および$ z $のバンドがユークリッドVisバンド内にあるという幸運な事実を活用しています。
アルゴリズムは、すべてのデータを共同で描写して、異なるバンド間の相関を活用することにより、$ r $ – 、$ i $ – 、および$ z $ -bandルービン画像をユークリッドの解像度に変換します。
また、結果をさらに改善するために、DRUNETを使用したディープラーニングベースの除去のパフォーマンスを調査します。
解像度と形態の回復、フラックス保存、および異なる騒音レベルへの一般化の観点から、私たちの方法の有効性を説明します。
このアプローチは、特定のユークリドルビンの組み合わせを超えて拡張されており、重複するフィルターを備えたスペースベースの画像を共同で使用することにより、複数の測光バンドの地上画像の解像度を改善するための多用途のソリューションを提供します。

要約(オリジナル)

With the advent of surveys like Euclid and Vera C. Rubin, astrophysicists will have access to both deep, high-resolution images and multiband images. However, these two types are not simultaneously available in any single dataset. It is therefore vital to devise image deconvolution algorithms that exploit the best of both worlds and that can jointly analyze datasets spanning a range of resolutions and wavelengths. In this work we introduce a novel multiband deconvolution technique aimed at improving the resolution of ground-based astronomical images by leveraging higher-resolution space-based observations. The method capitalizes on the fortunate fact that the Rubin $r$, $i$, and $z$ bands lie within the Euclid VIS band. The algorithm jointly de-convolves all the data to convert the $r$-, $i$-, and $z$-band Rubin images to the resolution of Euclid by leveraging the correlations between the different bands. We also investigate the performance of deep-learning-based denoising with DRUNet to further improve the results. We illustrate the effectiveness of our method in terms of resolution and morphology recovery, flux preservation, and generalization to different noise levels. This approach extends beyond the specific Euclid-Rubin combination, offering a versatile solution to improving the resolution of ground-based images in multiple photometric bands by jointly using any space-based images with overlapping filters.

arxiv情報

著者 Utsav Akhaury,Pascale Jablonka,Frédéric Courbin,Jean-Luc Starck
発行日 2025-04-07 15:39:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: astro-ph.IM, cs.CV | Joint multiband deconvolution for Euclid and Vera C. Rubin images はコメントを受け付けていません

Universal Lymph Node Detection in Multiparametric MRI with Selective Augmentation

要約

マルチパラメトリックMRI(MPMRI)におけるリンパ節(LNS)の堅牢な局在化は、リンパ節腫脹の評価に重要です。
放射線科医は、LNのサイズを日常的に測定して、良性を悪性ノードと区別します。これには、その後の癌の病期分類が必要になります。
サイジングは、MPMRIでのLNSの多様な外観によって悪化した面倒な作業であり、測定を困難にします。
さらに、忙しい臨床日には、より小さく、潜在的に転移性LNSが見逃される可能性があります。
これらのイメージングとワークフローの問題を軽減するために、その後の測定のために体内の良性ノードと転移性ノードの両方を普遍的に検出するためのパイプラインを提案します。
最近提案されたVFNETニューラルネットワークは、さまざまな試験プロトコルを備えたさまざまなスキャナーによって獲得されたT2脂肪抑制および拡散加重イメージング(DWI)シーケンスでLNを特定するために採用されました。
また、ラベル内LISA(ILL)として知られる選択的増強技術を使用して、トレーニング中にモデルが見ている入力データのサンプルを多様化し、評価段階で堅牢性を向上させます。
4 fp/vol。
MPMRIで評価された現在のLN検出アプローチと比較して、4 FP/Volで$ \ SIM $ 9 \%の感度改善を示します。

要約(オリジナル)

Robust localization of lymph nodes (LNs) in multiparametric MRI (mpMRI) is critical for the assessment of lymphadenopathy. Radiologists routinely measure the size of LN to distinguish benign from malignant nodes, which would require subsequent cancer staging. Sizing is a cumbersome task compounded by the diverse appearances of LNs in mpMRI, which renders their measurement difficult. Furthermore, smaller and potentially metastatic LNs could be missed during a busy clinical day. To alleviate these imaging and workflow problems, we propose a pipeline to universally detect both benign and metastatic nodes in the body for their ensuing measurement. The recently proposed VFNet neural network was employed to identify LN in T2 fat suppressed and diffusion weighted imaging (DWI) sequences acquired by various scanners with a variety of exam protocols. We also use a selective augmentation technique known as Intra-Label LISA (ILL) to diversify the input data samples the model sees during training, such that it improves its robustness during the evaluation phase. We achieved a sensitivity of $\sim$83\% with ILL vs. $\sim$80\% without ILL at 4 FP/vol. Compared with current LN detection approaches evaluated on mpMRI, we show a sensitivity improvement of $\sim$9\% at 4 FP/vol.

arxiv情報

著者 Tejas Sudharshan Mathai,Sungwon Lee,Thomas C. Shen,Zhiyong Lu,Ronald M. Summers
発行日 2025-04-07 15:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Universal Lymph Node Detection in Multiparametric MRI with Selective Augmentation はコメントを受け付けていません

CODEI: Resource-Efficient Task-Driven Co-Design of Perception and Decision Making for Mobile Robots Applied to Autonomous Vehicles

要約

このペーパーでは、安全性、効率、コスト、エネルギー、計算要件、重量などのリソースの最小限の使用法のバランスをとるためのハードウェアとソフトウェアの最適な選択に焦点を当てることにより、モバイルロボットを設計するための統合の課題と戦略について説明します。
サンプリングベースのモーションプランナーの認識要件を定量化するために、占有クエリの概念を導入することにより、意思決定における認識とモーション計画の相互作用を強調します。
センサーとアルゴリズムのパフォーマンスは、幾何学的関係、オブジェクト特性、センサー解像度、環境条件などのさまざまな要因にわたる偽陰性率(FPR)および偽陽性率(FPR)を使用して評価されます。
知覚要件を知覚パフォーマンスと統合することにより、効率的なセンサーとアルゴリズムの選択と配置のために、整数線形プログラミング(ILP)アプローチが提案されています。
これは、ロボットボディ、モーションプランナー、認識パイプライン、コンピューティングユニットを含む共同設計最適化の基礎を形成します。
このフレームワークは、モバイルロボットの共同設計問題をCodeiとして解決し、具体化されたインテリジェンスの共同設計の略です。
都市シナリオ向けの自律車両(AV)の開発に関するケーススタディは、デザイナーに実用的な情報を提供し、複雑なタスクがリソースの需要をエスカレートすることを示しています。
この研究は、リソースの優先順位付けがセンサーの選択に影響を与えることを示しています。カメラは費用対効果の高い軽量設計に好まれ、LIDARセンサーはより良いエネルギーと計算効率のために選択されます。

要約(オリジナル)

This paper discusses the integration challenges and strategies for designing mobile robots, by focusing on the task-driven, optimal selection of hardware and software to balance safety, efficiency, and minimal usage of resources such as costs, energy, computational requirements, and weight. We emphasize the interplay between perception and motion planning in decision-making by introducing the concept of occupancy queries to quantify the perception requirements for sampling-based motion planners. Sensor and algorithm performance are evaluated using False Negative Rates (FPR) and False Positive Rates (FPR) across various factors such as geometric relationships, object properties, sensor resolution, and environmental conditions. By integrating perception requirements with perception performance, an Integer Linear Programming (ILP) approach is proposed for efficient sensor and algorithm selection and placement. This forms the basis for a co-design optimization that includes the robot body, motion planner, perception pipeline, and computing unit. We refer to this framework for solving the co-design problem of mobile robots as CODEI, short for Co-design of Embodied Intelligence. A case study on developing an Autonomous Vehicle (AV) for urban scenarios provides actionable information for designers, and shows that complex tasks escalate resource demands, with task performance affecting choices of the autonomy stack. The study demonstrates that resource prioritization influences sensor choice: cameras are preferred for cost-effective and lightweight designs, while lidar sensors are chosen for better energy and computational efficiency.

arxiv情報

著者 Dejan Milojevic,Gioele Zardini,Miriam Elser,Andrea Censi,Emilio Frazzoli
発行日 2025-04-07 15:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.CV, cs.RO, cs.SY, eess.SY, I.2.10 | CODEI: Resource-Efficient Task-Driven Co-Design of Perception and Decision Making for Mobile Robots Applied to Autonomous Vehicles はコメントを受け付けていません

3D Universal Lesion Detection and Tagging in CT with Self-Training

要約

放射線科医は、コンピューター断層撮影(CT)研究における病変局在、分類、およびサイズ測定の退屈なタスクを日常的に実行します。
普遍的な病変検出とタグ(ULDT)は、病変測定の面倒な性質を緩和し、腫瘍の負担評価を可能にするのに同時に役立ちます。
以前のULDTアプローチは、公開されているDeeplesionデータセットを利用していますが、病変の完全な(3D)範囲を提供せず、深刻なクラスの不均衡も示しています。
この作業では、3D病変を検出し、発生する身体の部分に従ってタグ付けするセルフトレーニングパイプラインを提案します。2D病変の検出とタグ付けのためにVFNETモデルを訓練するために、deeplesionの30 \%サブセットを大幅に制限しました。
次に、2D病変のコンテキストが3Dに拡張され、マイニングされた3D病変提案は、複数のラウンドでモデルを再訓練するためにベースライントレーニングデータに統合されました。
自己訓練手順を通じて、VFNETモデルは独自の予測から学び、3Dで病変を検出し、タグ付けしました。
我々の結果は、我々のVFNETモデルが[0.125:8]誤検知(FP)で46.9%の平均感度を達成し、deeplesionデータセット全体を使用した既存のアプローチの46.8 \%と比較して、限られた30 \%のデータサブセットを使用したことを示しています。
私たちの知る限り、私たちは3Dの病変を共同で共同で検出し、ボディパーツラベルに従ってタグを付けた最初の人です。

要約(オリジナル)

Radiologists routinely perform the tedious task of lesion localization, classification, and size measurement in computed tomography (CT) studies. Universal lesion detection and tagging (ULDT) can simultaneously help alleviate the cumbersome nature of lesion measurement and enable tumor burden assessment. Previous ULDT approaches utilize the publicly available DeepLesion dataset, however it does not provide the full volumetric (3D) extent of lesions and also displays a severe class imbalance. In this work, we propose a self-training pipeline to detect 3D lesions and tag them according to the body part they occur in. We used a significantly limited 30\% subset of DeepLesion to train a VFNet model for 2D lesion detection and tagging. Next, the 2D lesion context was expanded into 3D, and the mined 3D lesion proposals were integrated back into the baseline training data in order to retrain the model over multiple rounds. Through the self-training procedure, our VFNet model learned from its own predictions, detected lesions in 3D, and tagged them. Our results indicated that our VFNet model achieved an average sensitivity of 46.9\% at [0.125:8] false positives (FP) with a limited 30\% data subset in comparison to the 46.8\% of an existing approach that used the entire DeepLesion dataset. To our knowledge, we are the first to jointly detect lesions in 3D and tag them according to the body part label.

arxiv情報

著者 Jared Frazier,Tejas Sudharshan Mathai,Jianfei Liu,Angshuman Paul,Ronald M. Summers
発行日 2025-04-07 15:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | 3D Universal Lesion Detection and Tagging in CT with Self-Training はコメントを受け付けていません

MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing

要約

深い視覚的臭気は、技術を最適化する学習によって大きな進歩を実証しています。
このアプローチは、フレーム全体の視覚的マッチングに大きく依存しています。
ただし、挑戦的なシナリオでの曖昧なマッチングは、幾何学的モデリングとバンドル調整の最適化に大きなエラーにつながり、ポーズ推定の精度と堅牢性を損ないます。
この課題に対処するために、このペーパーでは、堅牢な初期化、Mambaベースのシーケンシャルマッチングの改良性、および一致する品質を向上させ、ポーズ推定を改善するための滑らかなトレーニングを実施するMambavoを提案します。
具体的には、新しいフレームは、半密度ベースの幾何学的初期化モジュール(GIM)を介して、維持されたポイントフレームグラフ(PFG)の最も近いキーフレームと一致します。
次に、初期化されたPFGは、提案された幾何学MAMBAモジュール(GMM)によって処理されます。これにより、マッチング機能を活用して、全体的なフレーム間マッチングを改良します。
洗練されたPFGは最終的に微分可能なBAによって処理され、ポーズとマップを最適化します。
グラデーションの分散に対処するために、トレーニングをスムーズにトレーニングし、収束と安定性を高めるために、トレンド認識ペナルティ(TAP)が提案されています。
Mambavo ++を有効にするために、ループ閉鎖モジュールが最終的に適用されます。
パブリックベンチマークでは、マンバボとマンバボ++がソタのパフォーマンスを実証しながら、リアルタイムのランニングを保証します。

要約(オリジナル)

Deep visual odometry has demonstrated great advancements by learning-to-optimize technology. This approach heavily relies on the visual matching across frames. However, ambiguous matching in challenging scenarios leads to significant errors in geometric modeling and bundle adjustment optimization, which undermines the accuracy and robustness of pose estimation. To address this challenge, this paper proposes MambaVO, which conducts robust initialization, Mamba-based sequential matching refinement, and smoothed training to enhance the matching quality and improve the pose estimation. Specifically, the new frame is matched with the closest keyframe in the maintained Point-Frame Graph (PFG) via the semi-dense based Geometric Initialization Module (GIM). Then the initialized PFG is processed by a proposed Geometric Mamba Module (GMM), which exploits the matching features to refine the overall inter-frame matching. The refined PFG is finally processed by differentiable BA to optimize the poses and the map. To deal with the gradient variance, a Trending-Aware Penalty (TAP) is proposed to smooth training and enhance convergence and stability. A loop closure module is finally applied to enable MambaVO++. On public benchmarks, MambaVO and MambaVO++ demonstrate SOTA performance, while ensuring real-time running.

arxiv情報

著者 Shuo Wang,Wanting Li,Yongcai Wang,Zhaoxin Fan,Zhe Huang,Xudong Cai,Jian Zhao,Deying Li
発行日 2025-04-07 15:51:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MambaVO: Deep Visual Odometry Based on Sequential Matching Refinement and Training Smoothing はコメントを受け付けていません

Correcting Class Imbalances with Self-Training for Improved Universal Lesion Detection and Tagging

要約

CT研究におけるユニバーサル病変検出とタグ(ULDT)は、腫瘍の負担評価と、時間の経過に伴う病変状態(成長/収縮)の進行を追跡するために重要です。
ただし、完全に注釈されたデータの欠如は、効果的なULDTアプローチの開発を妨げます。
アルゴリズム開発のために、以前の研究では、Deeplesion Dataset(4,427人の患者、10,594の研究、32,120 CTスライス、32,735の病変、8つの身体部分ラベル)を使用していましたが、このデータセットは完全に注釈が付けられておらず、クラスの不均衡が含まれています。
これらの問題に対処するために、この作業では、ULDTのセルフトレーニングパイプラインを開発しました。
VFNETモデルは、CT研究の病変を検出および分類するために、Deeplesion(境界ボックス +タグ)の限られた11.5%サブセット(境界ボックス +タグ)でトレーニングされました。
次に、より大きな目に見えないデータサブセットの新規病変候補をそのトレーニングセットに特定し、組み込み、複数のラウンドで自己訓練を受けました。
複数の自己訓練実験が異なるしきい値ポリシーで実施され、高品質の予測病変を選択し、クラスの不均衡をカバーしました。
直接的な自己訓練により、過小評価されたクラスを犠牲にして、過剰に表現された病変クラスの感受性が改善されることがわかりました。
ただし、自己訓練中に採掘された病変をさまざまなしきい値ポリシーとともにアップサンプリングすると、クラスバランスなしのセルフトレーニング(72 \%対78.5 \%)とは対照的に、4 FPで6.5%の感度が増加しました(78.8.8.8.5 \%の同じ自己訓練ポリシーと比較して、同じ自己トレーニングポリシーと比較して11.7 \%の増加が得られました。
さらに、8つの病変クラスすべての4FPでの感度が改善または維持された結果を示しています。

要約(オリジナル)

Universal lesion detection and tagging (ULDT) in CT studies is critical for tumor burden assessment and tracking the progression of lesion status (growth/shrinkage) over time. However, a lack of fully annotated data hinders the development of effective ULDT approaches. Prior work used the DeepLesion dataset (4,427 patients, 10,594 studies, 32,120 CT slices, 32,735 lesions, 8 body part labels) for algorithmic development, but this dataset is not completely annotated and contains class imbalances. To address these issues, in this work, we developed a self-training pipeline for ULDT. A VFNet model was trained on a limited 11.5\% subset of DeepLesion (bounding boxes + tags) to detect and classify lesions in CT studies. Then, it identified and incorporated novel lesion candidates from a larger unseen data subset into its training set, and self-trained itself over multiple rounds. Multiple self-training experiments were conducted with different threshold policies to select predicted lesions with higher quality and cover the class imbalances. We discovered that direct self-training improved the sensitivities of over-represented lesion classes at the expense of under-represented classes. However, upsampling the lesions mined during self-training along with a variable threshold policy yielded a 6.5\% increase in sensitivity at 4 FP in contrast to self-training without class balancing (72\% vs 78.5\%) and a 11.7\% increase compared to the same self-training policy without upsampling (66.8\% vs 78.5\%). Furthermore, we show that our results either improved or maintained the sensitivity at 4FP for all 8 lesion classes.

arxiv情報

著者 Alexander Shieh,Tejas Sudharshan Mathai,Jianfei Liu,Angshuman Paul,Ronald M. Summers
発行日 2025-04-07 15:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Correcting Class Imbalances with Self-Training for Improved Universal Lesion Detection and Tagging はコメントを受け付けていません

An ensemble deep learning approach to detect tumors on Mohs micrographic surgery slides

要約

MOHSの顕微鏡手術(MMS)は、高リスクの非肝腫皮膚がんを除去するためのゴールドスタンダード技術ですが、術中組織病理学的検査では、かなりの時間、努力、専門性が必要です。
この研究の目的は、MOHSスライドの基底細胞癌(BCC)とアーティファクトを検出するための深い学習モデルを開発することです。
この研究では、BCCSの51人の患者から合計731人のMOHSスライドが使用され、91人が腫瘍を含み、腫瘍のない640が非腫瘍として定義されていました。
データセットは、スライド上の腫瘍と非腫瘍領域をセグメント化するU-Netベースのモデルをトレーニングするために採用されました。
セグメント化されたパッチは、スライド画像全体(WSI)の予測を生成するための腫瘍、または非腫瘍として分類されました。
セグメンテーションフェーズでは、ディープラーニングモデルの成功は、0.70および0.67の値を持つDICEスコアを使用して測定されました。それぞれ腫瘍と非腫瘍で0.98および0.96の曲線下面積(AUC)スコアがありました。
腫瘍分類の場合、パッチベースの検出のために0.98のAUC、およびスライドベースの検出で0.91のAUCがテストデータセットで取得されました。
MOHSスライドで腫瘍と非腫瘍を検出できるAIシステムを提示し、成功しました。
深い学習は、MOHS外科医と皮膚病理学者をより正確な決定を下すのに役立ちます。

要約(オリジナル)

Mohs micrographic surgery (MMS) is the gold standard technique for removing high risk nonmelanoma skin cancer however, intraoperative histopathological examination demands significant time, effort, and professionality. The objective of this study is to develop a deep learning model to detect basal cell carcinoma (BCC) and artifacts on Mohs slides. A total of 731 Mohs slides from 51 patients with BCCs were used in this study, with 91 containing tumor and 640 without tumor which was defined as non-tumor. The dataset was employed to train U-Net based models that segment tumor and non-tumor regions on the slides. The segmented patches were classified as tumor, or non-tumor to produce predictions for whole slide images (WSIs). For the segmentation phase, the deep learning model success was measured using a Dice score with 0.70 and 0.67 value, area under the curve (AUC) score with 0.98 and 0.96 for tumor and non-tumor, respectively. For the tumor classification, an AUC of 0.98 for patch-based detection, and AUC of 0.91 for slide-based detection was obtained on the test dataset. We present an AI system that can detect tumors and non-tumors in Mohs slides with high success. Deep learning can aid Mohs surgeons and dermatopathologists in making more accurate decisions.

arxiv情報

著者 Abdurrahim Yilmaz,Serra Atilla Aydin,Deniz Temur,Furkan Yuceyalcin,Berkin Deniz Kahya,Rahmetullah Varol,Ozay Gokoz,Gulsum Gencoglan,Huseyin Uvet,Gonca Elcin
発行日 2025-04-07 16:05:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | An ensemble deep learning approach to detect tumors on Mohs micrographic surgery slides はコメントを受け付けていません