When Pre-trained Visual Representations Fall Short: Limitations in Visuo-Motor Robot Learning

要約

事前に訓練された視覚表現(PVR)が視覚エンコーダーをゼロからトレーニングするための有望な代替手段として登場しました。
ただし、PVRは、一時的な絡み合いや、小さなシーンの摂動の存在下でも一般化できないことを含む、政策学習の文脈で重要な課題に直面しています。
これらの制限は、シーンの変化に対する一時的な認識と堅牢性を必要とするタスクのパフォーマンスを妨げます。
この作業はこれらの欠点を特定し、それらに対処するための解決策を提案します。
まず、一時的な知覚とタスク完了の感覚でPVR機能を強化し、効果的にそれらを時間内に解き放ちます。
第二に、タスク関連のローカル機能に選択的に注意を払うことを学ぶモジュールを紹介し、分散型シーンで評価されると堅牢性を高めます。
私たちの実験は、特にマスキング目標で訓練されたPVRでの大幅なパフォーマンスの改善を示し、PVR固有の制限に対処する際の強化の有効性を検証します。

要約(オリジナル)

The integration of pre-trained visual representations (PVRs) into visuo-motor robot learning has emerged as a promising alternative to training visual encoders from scratch. However, PVRs face critical challenges in the context of policy learning, including temporal entanglement and an inability to generalise even in the presence of minor scene perturbations. These limitations hinder performance in tasks requiring temporal awareness and robustness to scene changes. This work identifies these shortcomings and proposes solutions to address them. First, we augment PVR features with temporal perception and a sense of task completion, effectively disentangling them in time. Second, we introduce a module that learns to selectively attend to task-relevant local features, enhancing robustness when evaluated on out-of-distribution scenes. Our experiments demonstrate significant performance improvements, particularly in PVRs trained with masking objectives, and validate the effectiveness of our enhancements in addressing PVR-specific limitations.

arxiv情報

著者 Nikolaos Tsagkas,Andreas Sochopoulos,Duolikun Danier,Chris Xiaoxuan Lu,Oisin Mac Aodha
発行日 2025-02-05 15:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | When Pre-trained Visual Representations Fall Short: Limitations in Visuo-Motor Robot Learning はコメントを受け付けていません

Deep Learning Pipeline for Fully Automated Myocardial Infarct Segmentation from Clinical Cardiac MR Scans

要約

目的:完全に自動化された方法で心筋梗塞セグメンテーションを実行できる深い学習ベースの方法を開発および評価する。
材料と方法:このレトロスペクティブ研究では、2つのおよび3次元畳み込みニューラルネットワーク(CNN)のカスケードフレームワークであり、ガドリニウム後期の強化(LGE)心磁気共鳴(CMR)画像の虚血性心筋瘢痕の特定に特化した画像が、
144の試験で構成される社内トレーニングデータセット。
2021年から2023年に得られた152の試験の画像を含む、同じ機関からの別のテストデータセットでは、人工知能(AI)ベースのセグメンテーションと手動セグメンテーションの定量的比較が実行されました。
さらに、セグメンテーションの精度の定性的評価は、盲検化実験の2人のCMR専門家によって、ヒトとAIの両方の専門家の両方で評価されました。
結果:手動と自動化された梗塞量($ \ rho_c $ = 0.9)の間に優れた一致が見つかりました。
定性的評価では、人間ベースの測定と比較して、専門家はAIベースのセグメンテーションを評価して、梗塞の実際の範囲をより頻繁に(P <0.001)よりよく表現することを示しました(33.4%AI、25.1%、41.5%等しい)。 それどころか、微小血管閉塞(MVO)のセグメンテーションでは、手動測定がまだ好まれていました(11.3%AI、55.6%、33.1%等しい)。 結論:この完全に自動化されたセグメンテーションパイプラインにより、CMR梗塞サイズを非常に短い時間で計算し、訓練された人間の観察者のセグメンテーション品質を一致させながら入力画像の前処理を必要とせずに計算できます。 盲検化された実験では、専門家は手動セグメンテーションよりも頻繁に自動化された梗塞セグメンテーションを好み、潜在的な臨床応用への道を開いた。

要約(オリジナル)

Purpose: To develop and evaluate a deep learning-based method that allows to perform myocardial infarct segmentation in a fully-automated way. Materials and Methods: For this retrospective study, a cascaded framework of two and three-dimensional convolutional neural networks (CNNs), specialized on identifying ischemic myocardial scars on late gadolinium enhancement (LGE) cardiac magnetic resonance (CMR) images, was trained on an in-house training dataset consisting of 144 examinations. On a separate test dataset from the same institution, including images from 152 examinations obtained between 2021 and 2023, a quantitative comparison between artificial intelligence (AI)-based segmentations and manual segmentations was performed. Further, qualitative assessment of segmentation accuracy was evaluated for both human and AI-generated contours by two CMR experts in a blinded experiment. Results: Excellent agreement could be found between manually and automatically calculated infarct volumes ($\rho_c$ = 0.9). The qualitative evaluation showed that compared to human-based measurements, the experts rated the AI-based segmentations to better represent the actual extent of infarction significantly (p < 0.001) more often (33.4% AI, 25.1% human, 41.5% equal). On the contrary, for segmentation of microvascular obstruction (MVO), manual measurements were still preferred (11.3% AI, 55.6% human, 33.1% equal). Conclusion: This fully-automated segmentation pipeline enables CMR infarct size to be calculated in a very short time and without requiring any pre-processing of the input images while matching the segmentation quality of trained human observers. In a blinded experiment, experts preferred automated infarct segmentations more often than manual segmentations, paving the way for a potential clinical application.

arxiv情報

著者 Matthias Schwab,Mathias Pamminger,Christian Kremser,Agnes Mayr
発行日 2025-02-05 15:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | Deep Learning Pipeline for Fully Automated Myocardial Infarct Segmentation from Clinical Cardiac MR Scans はコメントを受け付けていません

Deep Learning-based Event Data Coding: A Joint Spatiotemporal and Polarity Solution

要約

一般にイベントカメラと呼ばれる神経型視力センサーは、最近、高速で高ダイナミックレンジと低遅延データ収集を必要とするアプリケーションに関連性を獲得しました。
2D画像をキャプチャする従来のフレームベースのカメラとは異なり、イベントカメラは、時空間および極性情報によって構成された非常に高い時間分解能で構成された膨大な数のピクセルレベルイベントを生成し、非常に効率的なコーディングソリューションを必要とします。
既存のソリューションは、主にコンピュータービジョンタスクを含むターゲットユースケースでは歪みが受け入れられないと仮定して、イベントデータのロスレスコーディングに焦点を当てています。
有望なコーディングアプローチは、イベントデータとポイントクラウドの類似性を活用するため、現在のポイントクラウドコーディングソリューションを使用してイベントデータをコードすることができます。通常は、各イベントの極性に2点クラウド表現を採用します。
このホワイトペーパーでは、単一点クラウド表現を採用する新しい損失のあるディープラーニングベースの共同イベントデータコーディング(DL-JEC)ソリューションを提案し、時空間的および極性イベント情報の間の相関を活用できるようにします。
DL-JECは、関連する従来およびDLベースの最先端のイベントデータコーディングソリューションと比較すると、大幅な圧縮性能の向上を達成できます。
さらに、ターゲットコンピュータービジョンタスクのパフォーマンスを損なうことなく、特にイベント分類のために、ロスレスコーディングに関するレートの低下で損失のあるイベントデータコーディングを使用することが可能であることが示されています。
ターゲットタスクに適応した新しい適応ボクセルの二等式戦略の使用により、DL-JECが優れたパフォーマンスに到達できるようになります。

要約(オリジナル)

Neuromorphic vision sensors, commonly referred to as event cameras, have recently gained relevance for applications requiring high-speed, high dynamic range and low-latency data acquisition. Unlike traditional frame-based cameras that capture 2D images, event cameras generate a massive number of pixel-level events, composed by spatiotemporal and polarity information, with very high temporal resolution, thus demanding highly efficient coding solutions. Existing solutions focus on lossless coding of event data, assuming that no distortion is acceptable for the target use cases, mostly including computer vision tasks. One promising coding approach exploits the similarity between event data and point clouds, thus allowing to use current point cloud coding solutions to code event data, typically adopting a two-point clouds representation, one for each event polarity. This paper proposes a novel lossy Deep Learning-based Joint Event data Coding (DL-JEC) solution adopting a single-point cloud representation, thus enabling to exploit the correlation between the spatiotemporal and polarity event information. DL-JEC can achieve significant compression performance gains when compared with relevant conventional and DL-based state-of-the-art event data coding solutions. Moreover, it is shown that it is possible to use lossy event data coding with its reduced rate regarding lossless coding without compromising the target computer vision task performance, notably for event classification. The use of novel adaptive voxel binarization strategies, adapted to the target task, further enables DL-JEC to reach a superior performance.

arxiv情報

著者 Abdelrahman Seleem,André F. R. Guarda,Nuno M. M. Rodrigues,Fernando Pereira
発行日 2025-02-05 15:39:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Deep Learning-based Event Data Coding: A Joint Spatiotemporal and Polarity Solution はコメントを受け付けていません

Conditional Prediction by Simulation for Automated Driving

要約

モジュラー自動化された駆動システムは、一般に、予測と計画を連続的な個別のタスクとして処理し、それにより協力的な操作を禁止します。
協力計画を可能にするために、この作業は、軌跡間の条件付き依存関係をモデル化する予測モデルを導入します。
このため、微視的なトラフィックシミュレーションによって予測が生成され、個々のトラフィック参加者は、敵対的な逆補強学習を介して訓練された現実的な行動モデルによって制御されます。
自動化された車両のさまざまな候補の軌跡を仮定することにより、それぞれに条件付けられた予測を生成します。
さらに、私たちのアプローチにより、候補の軌跡は予測の展開中に動的に適応することができます。
いくつかの例シナリオは、https://conditionalpredictionbysimulation.github.io/で入手できます。

要約(オリジナル)

Modular automated driving systems commonly handle prediction and planning as sequential, separate tasks, thereby prohibiting cooperative maneuvers. To enable cooperative planning, this work introduces a prediction model that models the conditional dependencies between trajectories. For this, predictions are generated by a microscopic traffic simulation, with the individual traffic participants being controlled by a realistic behavior model trained via Adversarial Inverse Reinforcement Learning. By assuming various candidate trajectories for the automated vehicle, we generate predictions conditioned on each of them. Furthermore, our approach allows the candidate trajectories to adapt dynamically during the prediction rollout. Several example scenarios are available at https://conditionalpredictionbysimulation.github.io/.

arxiv情報

著者 Fabian Konstantinidis,Moritz Sackmann,Ulrich Hofmann,Christoph Stiller
発行日 2025-02-05 15:44:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Conditional Prediction by Simulation for Automated Driving はコメントを受け付けていません

Improving Consistency Models with Generator-Augmented Flows

要約

一貫性モデルは、ニューラルネットワークの単一のフォワードパスでのスコアベースの拡散のマルチステップサンプリングを模倣します。
一貫性の蒸留と一貫性トレーニングの2つの方法で学ぶことができます。
前者は、事前に訓練されたニューラルネットワークによって近似される、対応する微分方程式の真の速度フィールドに依存しています。
対照的に、後者はこの速度フィールドの単一サンプルのモンテカルロ推定を使用します。
関連する推定誤差は、一貫性の蒸留とトレーニングとの間に矛盾を誘発します。
この問題を軽減するために、一貫性モデルから派生した対応する出力に騒々しいデータを輸送する新しい流れを提案します。
このフローにより、以前に特定された不一致とノイズデータ輸送コストが削減されることが証明されます。
その結果、私たちの方法は、一貫性トレーニングの収束を加速するだけでなく、全体的なパフォーマンスを向上させます。
このコードは、https://github.com/thibautissenhuth/consistency_gcで入手できます。

要約(オリジナル)

Consistency models imitate the multi-step sampling of score-based diffusion in a single forward pass of a neural network. They can be learned in two ways: consistency distillation and consistency training. The former relies on the true velocity field of the corresponding differential equation, approximated by a pre-trained neural network. In contrast, the latter uses a single-sample Monte Carlo estimate of this velocity field. The related estimation error induces a discrepancy between consistency distillation and training that, we show, still holds in the continuous-time limit. To alleviate this issue, we propose a novel flow that transports noisy data towards their corresponding outputs derived from a consistency model. We prove that this flow reduces the previously identified discrepancy and the noise-data transport cost. Consequently, our method not only accelerates consistency training convergence but also enhances its overall performance. The code is available at: https://github.com/thibautissenhuth/consistency_GC.

arxiv情報

著者 Thibaut Issenhuth,Sangchul Lee,Ludovic Dos Santos,Jean-Yves Franceschi,Chansoo Kim,Alain Rakotomamonjy
発行日 2025-02-05 15:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Improving Consistency Models with Generator-Augmented Flows はコメントを受け付けていません

MAP Image Recovery with Guarantees using Locally Convex Multi-Scale Energy (LC-MUSE) Model

要約

データマニホールド周辺の地元の地域で強く凸状のマルチスケールの深いエネルギーモデルを提案し、その確率密度を表し、逆の問題に応用します。
特に、畳み込みニューラルネットワーク(CNN)によってパラメーター化されたマルチスケールエネルギーモデルとして、負の対数優先度を表します。
CNNの勾配を局所的に単調に制限します。これは、モデルを局所的に凸マルチスケールエネルギー(LCミューズ)として制約します。
私たちは、定式化がいくつかの望ましい特性を提供する画像ベースの逆問題で学習エネルギーモデルを使用します:i)ソリューションの一意性、ii)収束は逆の問題の最小値、およびiii)摂動を入力するための堅牢性を保証します。
並列磁気共鳴(MR)画像の再構築のコンテキストでは、提案された方法が最先端の凸の正統派よりも優れていることを示しますが、パフォーマンスはプラグアンドプレイの正統派とエンドツーエンドに匹敵します。
訓練された方法を終了します。

要約(オリジナル)

We propose a multi-scale deep energy model that is strongly convex in the local neighbourhood around the data manifold to represent its probability density, with application in inverse problems. In particular, we represent the negative log-prior as a multi-scale energy model parameterized by a Convolutional Neural Network (CNN). We restrict the gradient of the CNN to be locally monotone, which constrains the model as a Locally Convex Multi-Scale Energy (LC-MuSE). We use the learned energy model in image-based inverse problems, where the formulation offers several desirable properties: i) uniqueness of the solution, ii) convergence guarantees to a minimum of the inverse problem, and iii) robustness to input perturbations. In the context of parallel Magnetic Resonance (MR) image reconstruction, we show that the proposed method performs better than the state-of-the-art convex regularizers, while the performance is comparable to plug-and-play regularizers and end-to-end trained methods.

arxiv情報

著者 Jyothi Rikhab Chand,Mathews Jacob
発行日 2025-02-05 16:00:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | MAP Image Recovery with Guarantees using Locally Convex Multi-Scale Energy (LC-MUSE) Model はコメントを受け付けていません

GP-GS: Gaussian Processes for Enhanced Gaussian Splatting

要約

3Dガウスのスプラッティングは、効率的なフォトリアリスティックな新規ビュー合成法として浮上しています。
ただし、モーションからのまばらな構造(SFM)ポイントクラウドへの依存は、シーンの再構成品質を一貫して損なうものにします。
これらの制限に対処するために、このペーパーでは、まばらなSFMポイントクラウドの適応的および不確実性誘導濃度化を実現するためにマルチアウトプットガウスプロセスモデルが開発されている新しい3D再構成フレームワークガウスプロセスガウススプラッティング(GP-GS)を提案します。
具体的には、GPベースの予測を活用して入力2Dピクセルと深度マップから新しい候補ポイントを推測することにより、SFMポイントクラウドを適応的に拡張する動的なサンプリングとフィルタリングパイプラインを提案します。
パイプラインは、不確実性の推定値を利用して、高分散予測の剪定を導き、幾何学的な一貫性を確保し、密なポイント雲の生成を可能にします。
高密度のポイントクラウドは、高品質の初期3Dガウス症を提供して、再構築性能を向上させます。
さまざまなスケールで合成および実世界のデータセットで実施された広範な実験は、提案されたフレームワークの有効性と実用性を検証します。

要約(オリジナル)

3D Gaussian Splatting has emerged as an efficient photorealistic novel view synthesis method. However, its reliance on sparse Structure-from-Motion (SfM) point clouds consistently compromises the scene reconstruction quality. To address these limitations, this paper proposes a novel 3D reconstruction framework Gaussian Processes Gaussian Splatting (GP-GS), where a multi-output Gaussian Process model is developed to achieve adaptive and uncertainty-guided densification of sparse SfM point clouds. Specifically, we propose a dynamic sampling and filtering pipeline that adaptively expands the SfM point clouds by leveraging GP-based predictions to infer new candidate points from the input 2D pixels and depth maps. The pipeline utilizes uncertainty estimates to guide the pruning of high-variance predictions, ensuring geometric consistency and enabling the generation of dense point clouds. The densified point clouds provide high-quality initial 3D Gaussians to enhance reconstruction performance. Extensive experiments conducted on synthetic and real-world datasets across various scales validate the effectiveness and practicality of the proposed framework.

arxiv情報

著者 Zhihao Guo,Jingxuan Su,Shenglin Wang,Jinlong Fan,Jing Zhang,Liangxiu Han,Peng Wang
発行日 2025-02-05 16:09:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T45, cs.AI, cs.CV | GP-GS: Gaussian Processes for Enhanced Gaussian Splatting はコメントを受け付けていません

Controllable GUI Exploration

要約

インターフェイス設計の初期段階では、デザイナーはデザインスペースを探索するために複数のスケッチを作成する必要があります。
デザインツールは、必要以上に詳細を指定することを主張するため、この重要な段階をサポートできないことがよくあります。
生成AIの最近の進歩は、この問題を解決するという希望を高めていますが、実際には、プロンプトでゆるいアイデアを表現することは非現実的であるため失敗します。
この論文では、インターフェイスのスケッチの低い生成に対する拡散ベースのアプローチを提案します。
3種類の入力を介して生成プロセスの柔軟な制御を許可することにより、新境地を破ります:a)プロンプト、b)ワイヤーフレーム、およびc)視覚フロー。
デザイナーは、これらの任意の組み合わせを任意のレベルの詳細で入力として提供することができ、それに応じて低忠実度ソリューションの多様なギャラリーを入手できます。
ユニークな利点は、入力仕様の努力がほとんどなく、大規模なデザインスペースを迅速に調査できることです。
入力仕様のさまざまな組み合わせについて定性的な結果を提示します。
さらに、モデルが他のモデルよりもこれらの仕様とより正確に整合することを示します。

要約(オリジナル)

During the early stages of interface design, designers need to produce multiple sketches to explore a design space. Design tools often fail to support this critical stage, because they insist on specifying more details than necessary. Although recent advances in generative AI have raised hopes of solving this issue, in practice they fail because expressing loose ideas in a prompt is impractical. In this paper, we propose a diffusion-based approach to the low-effort generation of interface sketches. It breaks new ground by allowing flexible control of the generation process via three types of inputs: A) prompts, B) wireframes, and C) visual flows. The designer can provide any combination of these as input at any level of detail, and will get a diverse gallery of low-fidelity solutions in response. The unique benefit is that large design spaces can be explored rapidly with very little effort in input-specification. We present qualitative results for various combinations of input specifications. Additionally, we demonstrate that our model aligns more accurately with these specifications than other models.

arxiv情報

著者 Aryan Garg,Yue Jiang,Antti Oulasvirta
発行日 2025-02-05 16:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.HC | Controllable GUI Exploration はコメントを受け付けていません

RadVLM: A Multitask Conversational Vision-Language Model for Radiology

要約

放射線科医の不足と相まって、胸部X線(CXR)の広範な使用は、自動化されたCXR分析とAIアシストレポートへの関心の高まりを推進しています。
既存のビジョン言語モデル(VLM)は、レポート生成や異常検出などの特定のタスクで有望ですが、インタラクティブな診断機能のサポートが不足していることがよくあります。
この作業では、CXR解釈のために設計されたコンパクトなマルチタスク会話財団モデルであるRadVLMを紹介します。
この目的のために、レポート生成、異常分類、視覚的接地などの単一ターンタスクとマルチターン、マルチタスク会話などの両方の単一ターンタスクを含む100万を超える画像導入ペアを含む大規模な命令データセットをキュレートします。
相互作用。
この命令データセットでradVLMを微調整した後、再実装されたベースラインVLMとともに、さまざまなタスクでそれを評価します。
私たちの結果は、RadVLMが他の放射線科のタスクで競争力を維持しながら、会話能力と視覚的接地で最先端のパフォーマンスを達成していることを示しています。
アブレーション研究は、特に限られた注釈付きデータを備えたシナリオの場合、複数のタスクにわたる共同トレーニングの利点をさらに強調しています。
一緒に、これらの発見は、臨床的に関連するAIアシスタントとしてのRadVLMの可能性を強調し、より効果的でアクセスしやすい診断ワークフローをサポートするための構造化されたCXR解釈と会話機能を提供します。

要約(オリジナル)

The widespread use of chest X-rays (CXRs), coupled with a shortage of radiologists, has driven growing interest in automated CXR analysis and AI-assisted reporting. While existing vision-language models (VLMs) show promise in specific tasks such as report generation or abnormality detection, they often lack support for interactive diagnostic capabilities. In this work we present RadVLM, a compact, multitask conversational foundation model designed for CXR interpretation. To this end, we curate a large-scale instruction dataset comprising over 1 million image-instruction pairs containing both single-turn tasks — such as report generation, abnormality classification, and visual grounding — and multi-turn, multi-task conversational interactions. After fine-tuning RadVLM on this instruction dataset, we evaluate it across different tasks along with re-implemented baseline VLMs. Our results show that RadVLM achieves state-of-the-art performance in conversational capabilities and visual grounding while remaining competitive in other radiology tasks. Ablation studies further highlight the benefit of joint training across multiple tasks, particularly for scenarios with limited annotated data. Together, these findings highlight the potential of RadVLM as a clinically relevant AI assistant, providing structured CXR interpretation and conversational capabilities to support more effective and accessible diagnostic workflows.

arxiv情報

著者 Nicolas Deperrois,Hidetoshi Matsuo,Samuel Ruipérez-Campillo,Moritz Vandenhirtz,Sonia Laguna,Alain Ryser,Koji Fujimoto,Mizuho Nishio,Thomas M. Sutter,Julia E. Vogt,Jonas Kluckert,Thomas Frauenfelder,Christian Blüthgen,Farhad Nooralahzadeh,Michael Krauthammer
発行日 2025-02-05 16:27:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | RadVLM: A Multitask Conversational Vision-Language Model for Radiology はコメントを受け付けていません

FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms

要約

医療画像のセグメンテーションは、医療画像内の関心地域を正確に識別および分離する上で重要な役割を果たします。
生成アプローチは、それぞれの構造に密接に関連するセグメンテーションマスクの統計的特性をモデル化するのに特に効果的です。
この作業では、署名された距離関数(SDF)を表すように設計された画像ガイド付き条件付きフローマッチングフレームワークであるFlowsDFを紹介し、次に、セグメンテーションマスクの暗黙的な分布を表します。
SDFを活用するという利点は、バイナリマスクのそれと比較すると、より自然な歪みです。
条件付きSDF分布の確率パスに関連付けられたベクトルフィールドの学習を通じて、フレームワークは、セグメンテーションマスクの正確なサンプリングと関連する統計測定の計算を可能にします。
この確率論的アプローチは、分散によって表される不確実性マップの生成も促進し、それにより、予測とさらなる分析の堅牢性の強化をサポートします。
公共の核および腺セグメンテーションデータセットで提案された方法の競争力を定性的かつ定量的に示し、医療画像セグメンテーションアプリケーションでの有用性を強調しています。

要約(オリジナル)

Medical image segmentation plays an important role in accurately identifying and isolating regions of interest within medical images. Generative approaches are particularly effective in modeling the statistical properties of segmentation masks that are closely related to the respective structures. In this work we introduce FlowSDF, an image-guided conditional flow matching framework, designed to represent the signed distance function (SDF), and, in turn, to represent an implicit distribution of segmentation masks. The advantage of leveraging the SDF is a more natural distortion when compared to that of binary masks. Through the learning of a vector field associated with the probability path of conditional SDF distributions, our framework enables accurate sampling of segmentation masks and the computation of relevant statistical measures. This probabilistic approach also facilitates the generation of uncertainty maps represented by the variance, thereby supporting enhanced robustness in prediction and further analysis. We qualitatively and quantitatively illustrate competitive performance of the proposed method on a public nuclei and gland segmentation data set, highlighting its utility in medical image segmentation applications.

arxiv情報

著者 Lea Bogensperger,Dominik Narnhofer,Alexander Falk,Konrad Schindler,Thomas Pock
発行日 2025-02-05 16:35:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FlowSDF: Flow Matching for Medical Image Segmentation Using Distance Transforms はコメントを受け付けていません