How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model

要約

自動セグメンテーションは基本的な医療画像分析タスクであり、深い学習の出現により大きな進歩を享受しています。
基礎モデルはしばらくの間、自然言語の処理といくつかのビジョンタスクに役立ちましたが、画像セグメンテーションを念頭に置いて開発された基礎モデル – あらゆるモデル(SAM)は最近開発されており、同様の約束を示しています。
ただし、医療画像セグメンテーションのためのSAMの最適な微調整に関する体系的な分析または「ベストプラクティス」ガイドラインはまだありません。
この作業は、18の組み合わせにわたってさまざまなバックボーンアーキテクチャ、モデルコンポーネント、および微調整アルゴリズムを使用した既存の微調整戦略を要約し、すべての一般的な放射線学のモダリティをカバーする17のデータセットでそれらを評価します。
私たちの研究は、(1)微調整SAMが以前のセグメンテーション方法よりもわずかに優れたパフォーマンスにつながることを明らかにしています。(2)エンコーダーとデコーダーの両方でパラメーター効率の高い学習を使用する微調整戦略は、(3)ネットワークアーキテクチャは最終パフォーマンスにわずかな影響を及ぼします。
また、文献で人気のあるいくつかの方法の非効率性を実証し、さらに実験を少数のショットとプロンプトベースの設定に拡大します。
最後に、https://github.com/mazurowski-lab/finetune-samで、元のSAMよりも一貫して優れたパフォーマンスを得るコードとMRI固有の微調整された重みをリリースしました。

要約(オリジナル)

Automated segmentation is a fundamental medical image analysis task, which enjoys significant advances due to the advent of deep learning. While foundation models have been useful in natural language processing and some vision tasks for some time, the foundation model developed with image segmentation in mind – Segment Anything Model (SAM) – has been developed only recently and has shown similar promise. However, there are still no systematic analyses or ‘best-practice’ guidelines for optimal fine-tuning of SAM for medical image segmentation. This work summarizes existing fine-tuning strategies with various backbone architectures, model components, and fine-tuning algorithms across 18 combinations, and evaluates them on 17 datasets covering all common radiology modalities. Our study reveals that (1) fine-tuning SAM leads to slightly better performance than previous segmentation methods, (2) fine-tuning strategies that use parameter-efficient learning in both the encoder and decoder are superior to other strategies, (3) network architecture has a small impact on final performance, (4) further training SAM with self-supervised learning can improve final model performance. We also demonstrate the ineffectiveness of some methods popular in the literature and further expand our experiments into few-shot and prompt-based settings. Lastly, we released our code and MRI-specific fine-tuned weights, which consistently obtained superior performance over the original SAM, at https://github.com/mazurowski-lab/finetune-SAM.

arxiv情報

著者 Hanxue Gu,Haoyu Dong,Jichen Yang,Maciej A. Mazurowski
発行日 2025-05-09 14:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | How to build the best medical image segmentation algorithm using foundation models: a comprehensive empirical study with Segment Anything Model はコメントを受け付けていません

TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations

要約

ヒトまたはVLMアノテーターによって収集された優先フィードバックは、しばしば騒がしく、正確な好みラベルに依存する選好ベースの強化学習に大きな課題を提示します。
この課題に対処するために、トレンドを提案します。これは、少数のショットの専門家デモを効果的なノイズ緩和のためのトライ教徒の戦略と統合する新しいフレームワークです。
私たちのメソッドは、3つの報酬モデルを同時にトレーニングします。各モデルでは、小さな失われた好みのペアを有用な知識と見なし、パラメーターを更新するためにピアネットワークにそのような有用なペアを教えます。
驚くべきことに、私たちのアプローチには、高性能を達成するために、わずか1〜3人の専門家デモが必要です。
さまざまなロボット操作タスクの傾向を評価し、40%も高いノイズレベルでも最大90%の成功率を達成し、ノイズの多い好みのフィードバックを処理する際の効果的な堅牢性を強調しています。
プロジェクトページ:https://shuaiyihuang.github.io/publications/trend。

要約(オリジナル)

Preference feedback collected by human or VLM annotators is often noisy, presenting a significant challenge for preference-based reinforcement learning that relies on accurate preference labels. To address this challenge, we propose TREND, a novel framework that integrates few-shot expert demonstrations with a tri-teaching strategy for effective noise mitigation. Our method trains three reward models simultaneously, where each model views its small-loss preference pairs as useful knowledge and teaches such useful pairs to its peer network for updating the parameters. Remarkably, our approach requires as few as one to three expert demonstrations to achieve high performance. We evaluate TREND on various robotic manipulation tasks, achieving up to 90% success rates even with noise levels as high as 40%, highlighting its effective robustness in handling noisy preference feedback. Project page: https://shuaiyihuang.github.io/publications/TREND.

arxiv情報

著者 Shuaiyi Huang,Mara Levy,Anubhav Gupta,Daniel Ekpo,Ruijie Zheng,Abhinav Shrivastava
発行日 2025-05-09 14:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | TREND: Tri-teaching for Robust Preference-based Reinforcement Learning with Demonstrations はコメントを受け付けていません

Towards AI-Driven Policing: Interdisciplinary Knowledge Discovery from Police Body-Worn Camera Footage

要約

このペーパーでは、高度な人工知能(AI)および統計機械学習(ML)テクニックを使用して、ロチェスター警察署(RPD)から警察の身体装飾カメラ(BWC)映像を分析するための新しい学際的な枠組みを提案します。
私たちの目標は、警察官と民間人の間の相互作用のパターンを検出、分類、分析して、尊敬、無礼、エスカレーション、脱エスカレーションなどの重要な行動ダイナミクスを特定することです。
ビデオ、オーディオ、および自然言語処理(NLP)手法を統合して、BWC映像から意味のある洞察を抽出することにより、マルチモーダルデータ分析を適用します。
私たちは方法論、計算技術、および調査結果を提示し、警察BWCデータから知識発見のフロンティアを前進させながら、法執行機関の実用的なアプローチを概説します。

要約(オリジナル)

This paper proposes a novel interdisciplinary framework for analyzing police body-worn camera (BWC) footage from the Rochester Police Department (RPD) using advanced artificial intelligence (AI) and statistical machine learning (ML) techniques. Our goal is to detect, classify, and analyze patterns of interaction between police officers and civilians to identify key behavioral dynamics, such as respect, disrespect, escalation, and de-escalation. We apply multimodal data analysis by integrating video, audio, and natural language processing (NLP) techniques to extract meaningful insights from BWC footage. We present our methodology, computational techniques, and findings, outlining a practical approach for law enforcement while advancing the frontiers of knowledge discovery from police BWC data.

arxiv情報

著者 Anita Srbinovska,Angela Srbinovska,Vivek Senthil,Adrian Martin,John McCluskey,Jonathan Bateman,Ernest Fokoué
発行日 2025-05-09 14:29:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards AI-Driven Policing: Interdisciplinary Knowledge Discovery from Police Body-Worn Camera Footage はコメントを受け付けていません

S2MNet: Speckle-To-Mesh Net for Three-Dimensional Cardiac Morphology Reconstruction via Echocardiogram

要約

心エコー図は、その非侵襲的性質、リアルタイム能力、および費用対効果に対する心臓評価デュオで最も一般的に使用されるイメージングモダリティです。
その利点にもかかわらず、ほとんどの臨床心エコー図は2次元の見解のみを提供し、3次元で心臓の解剖学と機能を完全に評価する能力を制限します。
3次元心エコー造影は存在しますが、多くの場合、解像度の減少、利用可能性が限られており、買収コストが高くなります。
これらの課題を克服するために、6つのスライスの日常的に取得した2Dエコー図ビューを統合することにより、連続的で高忠実度の3Dハートモデルを再構築する深い学習フレームワークS2MNETを提案します。
私たちの方法には3つの利点があります。
まず、私たちの方法は、特定の3Dハートメッシュの対応するスライスからの2D心エコー図画像の6つをシミュレートすることにより、データ取得のトレーニングの難しさを回避します。
第二に、3D心エコーの再構築における空間的不連続性または構造的アーティファクトを回避する変形フィールドベースの方法を導入します。
臨床的に収集された心エコー図を使用して方法を検証し、心臓機能の重要な臨床指標である推定左心室体積が、医学理論のLVEとの負の相関を示す臨床測定である医師測定GLPSと強く相関していることを実証します。
この関連付けは、提案された3D建設方法の信頼性を確認します。

要約(オリジナル)

Echocardiogram is the most commonly used imaging modality in cardiac assessment duo to its non-invasive nature, real-time capability, and cost-effectiveness. Despite its advantages, most clinical echocardiograms provide only two-dimensional views, limiting the ability to fully assess cardiac anatomy and function in three dimensions. While three-dimensional echocardiography exists, it often suffers from reduced resolution, limited availability, and higher acquisition costs. To overcome these challenges, we propose a deep learning framework S2MNet that reconstructs continuous and high-fidelity 3D heart models by integrating six slices of routinely acquired 2D echocardiogram views. Our method has three advantages. First, our method avoid the difficulties on training data acquasition by simulate six of 2D echocardiogram images from corresponding slices of a given 3D heart mesh. Second, we introduce a deformation field-based method, which avoid spatial discontinuities or structural artifacts in 3D echocardiogram reconstructions. We validate our method using clinically collected echocardiogram and demonstrate that our estimated left ventricular volume, a key clinical indicator of cardiac function, is strongly correlated with the doctor measured GLPS, a clinical measurement that should demonstrate a negative correlation with LVE in medical theory. This association confirms the reliability of our proposed 3D construction method.

arxiv情報

著者 Xilin Gong,Yongkai Chen,Shushan Wu,Fang Wang,Ping Ma,Wenxuan Zhong
発行日 2025-05-09 14:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | S2MNet: Speckle-To-Mesh Net for Three-Dimensional Cardiac Morphology Reconstruction via Echocardiogram はコメントを受け付けていません

Camera-Only Bird’s Eye View Perception: A Neural Approach to LiDAR-Free Environmental Mapping for Autonomous Vehicles

要約

自律的な車両認識システムは、伝統的に、正確な環境表現を生成するために、費用のかかるLIDARセンサーに依存してきました。
このホワイトペーパーでは、リフトスプラットシュートアーキテクチャを拡張して、バードアイビュー(BEV)マップを生成するカメラのみの認識フレームワークを提案します。
我々の方法では、Yolov11ベースのオブジェクト検出と、マルチカメラ入力全体のDepthanyThingV2単眼深度推定と包括的な360度のシーンの理解を実現します。
OpenLane-V2およびNuscenesデータセットでのアプローチを評価し、Lidar Ground Truthと比較した場合、最大85%の道路セグメンテーション精度と85〜90%の車両検出率を達成し、平均位置誤差は1.2メートルに制限されています。
これらの結果は、カメラ入力のみを使用して豊富な空間情報を抽出する深い学習の可能性を強調し、精度を犠牲にすることなく費用効率の高い自律ナビゲーションを可能にします。

要約(オリジナル)

Autonomous vehicle perception systems have traditionally relied on costly LiDAR sensors to generate precise environmental representations. In this paper, we propose a camera-only perception framework that produces Bird’s Eye View (BEV) maps by extending the Lift-Splat-Shoot architecture. Our method combines YOLOv11-based object detection with DepthAnythingV2 monocular depth estimation across multi-camera inputs to achieve comprehensive 360-degree scene understanding. We evaluate our approach on the OpenLane-V2 and NuScenes datasets, achieving up to 85% road segmentation accuracy and 85-90% vehicle detection rates when compared against LiDAR ground truth, with average positional errors limited to 1.2 meters. These results highlight the potential of deep learning to extract rich spatial information using only camera inputs, enabling cost-efficient autonomous navigation without sacrificing accuracy.

arxiv情報

著者 Anupkumar Bochare
発行日 2025-05-09 15:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Camera-Only Bird’s Eye View Perception: A Neural Approach to LiDAR-Free Environmental Mapping for Autonomous Vehicles はコメントを受け付けていません

Photovoltaic Defect Image Generator with Boundary Alignment Smoothing Constraint for Domain Shift Mitigation

要約

太陽光発電(PV)細胞の正確な欠陥検出は、インテリジェントなPV製造システムの品質と効率を確保するために重要です。
ただし、豊富な欠陥データの希少性は、効果的なモデルトレーニングに大きな課題をもたらします。
既存の方法では、データセットを強化するための生成モデルを調査しましたが、不安定性、限られた多様性、およびドメインシフトに苦しむことがよくあります。
これらの問題に対処するために、安定した拡散(SD)に基づいた太陽光発電欠陥画像ジェネレーターであるPDIGを提案します。
PDIGは、大規模なデータセットから学んだ強力なプライアーを活用して、限られたデータの下で生成品質を向上させます。
具体的には、欠陥タイプとその外観の間のリレーショナル概念をキャプチャするために、テキスト条件付けされた事前に組み込まれたセマンティックコンセプトエンミング(SCE)モジュールを導入します。
ドメイン分布をさらに豊かにするために、産業欠陥特性をSDモデルに注入する軽量の注意を喚起する軽量の産業スタイルアダプター(LISA)を設計します。
推論では、テキストイメージのデュアルスペース制約(TIDSC)モジュールを提案し、位置の一貫性と空間的スムージングアラインメントを介して生成された画像の品質を実施します。
広範な実験は、PDIGが最新の方法と比較して優れたリアリズムと多様性を達成することを示しています。
具体的には、私たちのアプローチは、2番目に良い方法でフレシェットの開始距離(FID)を19.16ポイント改善し、下流の欠陥検出タスクのパフォーマンスを大幅に向上させます。

要約(オリジナル)

Accurate defect detection of photovoltaic (PV) cells is critical for ensuring quality and efficiency in intelligent PV manufacturing systems. However, the scarcity of rich defect data poses substantial challenges for effective model training. While existing methods have explored generative models to augment datasets, they often suffer from instability, limited diversity, and domain shifts. To address these issues, we propose PDIG, a Photovoltaic Defect Image Generator based on Stable Diffusion (SD). PDIG leverages the strong priors learned from large-scale datasets to enhance generation quality under limited data. Specifically, we introduce a Semantic Concept Embedding (SCE) module that incorporates text-conditioned priors to capture the relational concepts between defect types and their appearances. To further enrich the domain distribution, we design a Lightweight Industrial Style Adaptor (LISA), which injects industrial defect characteristics into the SD model through cross-disentangled attention. At inference, we propose a Text-Image Dual-Space Constraints (TIDSC) module, enforcing the quality of generated images via positional consistency and spatial smoothing alignment. Extensive experiments demonstrate that PDIG achieves superior realism and diversity compared to state-of-the-art methods. Specifically, our approach improves Frechet Inception Distance (FID) by 19.16 points over the second-best method and significantly enhances the performance of downstream defect detection tasks.

arxiv情報

著者 Dongying Li,Binyi Su,Hua Zhang,Yong Li,Haiyong Chen
発行日 2025-05-09 15:16:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Photovoltaic Defect Image Generator with Boundary Alignment Smoothing Constraint for Domain Shift Mitigation はコメントを受け付けていません

The Application of Deep Learning for Lymph Node Segmentation: A Systematic Review

要約

自動リンパ節セグメンテーションは、癌の早期発見と病期分類のためのコンピュータービジョンタスクの進歩の基礎です。
従来のセグメンテーション方法は、手動の描写とオペレーターの習熟度の変動によって制約され、高精度を達成する能力を制限します。
ディープラーニングテクノロジーの導入は、リンパ節画像分析の精度を改善するための新しい可能性を提供します。
この研究では、リンパ節セグメンテーションにおけるディープラーニングの適用を評価し、異なるモダリティにわたる医療画像データの分析における畳み込みニューラルネットワーク、エンコーダデコーダーネットワーク、トランスなどのさまざまな深い学習アーキテクチャの方法論について説明します。
進歩にもかかわらず、リンパ節の形状の多様性、正確にラベル付けされたデータセットの希少性、異なるイメージングモダリティにわたって堅牢で一般化可能な方法の不十分な開発など、依然として課題に直面しています。
私たちの知る限り、これはリンパ節セグメンテーションタスクにおける深い学習技術の適用の包括的な概要を提供する最初の研究です。
さらに、この研究では、マルチモーダル融合技術、転送学習、大規模な事前訓練モデルの使用を含む潜在的な将来の研究の方向性も調査し、現在の制限を克服しながら、がん診断と治療計画戦略を強化します。

要約(オリジナル)

Automatic lymph node segmentation is the cornerstone for advances in computer vision tasks for early detection and staging of cancer. Traditional segmentation methods are constrained by manual delineation and variability in operator proficiency, limiting their ability to achieve high accuracy. The introduction of deep learning technologies offers new possibilities for improving the accuracy of lymph node image analysis. This study evaluates the application of deep learning in lymph node segmentation and discusses the methodologies of various deep learning architectures such as convolutional neural networks, encoder-decoder networks, and transformers in analyzing medical imaging data across different modalities. Despite the advancements, it still confronts challenges like the shape diversity of lymph nodes, the scarcity of accurately labeled datasets, and the inadequate development of methods that are robust and generalizable across different imaging modalities. To the best of our knowledge, this is the first study that provides a comprehensive overview of the application of deep learning techniques in lymph node segmentation task. Furthermore, this study also explores potential future research directions, including multimodal fusion techniques, transfer learning, and the use of large-scale pre-trained models to overcome current limitations while enhancing cancer diagnosis and treatment planning strategies.

arxiv情報

著者 Jingguo Qu,Xinyang Han,Man-Lik Chui,Yao Pu,Simon Takadiyi Gunda,Ziman Chen,Jing Qin,Ann Dorothy King,Winnie Chiu-Wing Chu,Jing Cai,Michael Tin-Cheung Ying
発行日 2025-05-09 15:17:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | The Application of Deep Learning for Lymph Node Segmentation: A Systematic Review はコメントを受け付けていません

MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion

要約

ビデオには、視覚イベント、テキストオーバーレイ、サウンド、音声など、複数のモダリティが本質的に含まれています。これらはすべて検索に重要​​です。
ただし、VastやLanguageBindなどの最先端のマルチモーダル言語モデルは、Vision言語モデル(VLM)に基づいて構築されているため、視覚信号を過度に優先します。
検索ベンチマークは、視覚的なクエリに焦点を当て、他のモダリティを無視することにより、このバイアスをさらに強化します。
視覚モダリティとオーディオモダリティの両方からテキストと機能を抽出し、新しいモダリティを認識した加重相互ランク融合と統合する検索システムmmmorrfを作成します。
Mmmorrfは効果的かつ効率的であり、視覚的な記述クエリの代わりにユーザーの情報ニーズに基づいてビデオを検索する際の実用性を示しています。
Multivent 2.0とTVRのMmmorrfを評価します。これは、よりターゲットを絞った情報ニーズに合わせて設計された2つのマルチモーダルベンチマークであり、主要なマルチモーダルエンコーダーよりもNDCG@20 x 81%、単一モダリティの検索よりも37%を改善し、多様なモダリティを統合する価値を示しています。

要約(オリジナル)

Videos inherently contain multiple modalities, including visual events, text overlays, sounds, and speech, all of which are important for retrieval. However, state-of-the-art multimodal language models like VAST and LanguageBind are built on vision-language models (VLMs), and thus overly prioritize visual signals. Retrieval benchmarks further reinforce this bias by focusing on visual queries and neglecting other modalities. We create a search system MMMORRF that extracts text and features from both visual and audio modalities and integrates them with a novel modality-aware weighted reciprocal rank fusion. MMMORRF is both effective and efficient, demonstrating practicality in searching videos based on users’ information needs instead of visual descriptive queries. We evaluate MMMORRF on MultiVENT 2.0 and TVR, two multimodal benchmarks designed for more targeted information needs, and find that it improves nDCG@20 by 81% over leading multimodal encoders and 37% over single-modality retrieval, demonstrating the value of integrating diverse modalities.

arxiv情報

著者 Saron Samuel,Dan DeGenaro,Jimena Guallar-Blasco,Kate Sanders,Oluwaseun Eisape,Tanner Spendlove,Arun Reddy,Alexander Martin,Andrew Yates,Eugene Yang,Cameron Carpenter,David Etter,Efsun Kayi,Matthew Wiesner,Kenton Murray,Reno Kriz
発行日 2025-05-09 15:18:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.IR | MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion はコメントを受け付けていません

Human Perception-Inspired Grain Segmentation Refinement Using Conditional Random Fields

要約

多結晶材料の電子顕微鏡画像における粒界の自動検出は、科学研究の下で無数の工学材料と新規材料のナノスケールの特性評価を加速するのに役立ちます。
多結晶材料微細構造の粒界などの相互接続されたラインネットワークの正確なセグメンテーションは、畳み込みニューラルネットワークを含む従来のコンピュータービジョンアルゴリズムによって生成される断片化されたマスクのために重要な課題をもたらします。
これらのアルゴリズムは薄いマスクと格闘しており、多くの場合、効果的な輪郭の閉鎖と連続性のために後処理を必要とします。
このドメインでの以前のアプローチは、通常、問題固有であり、コンピュータービジョンアルゴリズムから得られたマスクの品質に大きく依存するカスタム後処理技術に依存しています。
この問題に対処するこのペーパーでは、相互接続されたラインネットワークのセグメンテーションマスクに普遍的に適用可能な高速で高忠実度の後処理技術を紹介します。
粒界接続性に関するドメインの知識を活用するこの方法では、条件付きランダムフィールドと知覚グループ化ルールを使用して、識別可能な粒子構造を持つ画像のセグメンテーションマスクを改善します。
このアプローチは、セグメンテーションマスクの精度を大幅に向上させ、多結晶酸化物の電子顕微鏡画像のU-NETモデルとの検証における79%のセグメント識別精度を達成します。
さらに、新規粒アラインメントメトリックが導入され、穀物のアライメントが51%改善されています。
この方法は、迅速かつ正確なセグメンテーションを可能にするだけでなく、前例のないレベルのデータ分析を促進し、粒界ネットワークの統計的表現を大幅に改善し、相互接続されたラインネットワークの正確なセグメンテーションが不可欠な分野に適しています。

要約(オリジナル)

Automated detection of grain boundaries in electron microscope images of polycrystalline materials could help accelerate the nanoscale characterization of myriad engineering materials and novel materials under scientific research. Accurate segmentation of interconnected line networks, such as grain boundaries in polycrystalline material microstructures, poses a significant challenge due to the fragmented masks produced by conventional computer vision algorithms, including convolutional neural networks. These algorithms struggle with thin masks, often necessitating post-processing for effective contour closure and continuity. Previous approaches in this domain have typically relied on custom post-processing techniques that are problem-specific and heavily dependent on the quality of the mask obtained from a computer vision algorithm. Addressing this issue, this paper introduces a fast, high-fidelity post-processing technique that is universally applicable to segmentation masks of interconnected line networks. Leveraging domain knowledge about grain boundary connectivity, this method employs conditional random fields and perceptual grouping rules to refine segmentation masks of any image with a discernible grain structure. This approach significantly enhances segmentation mask accuracy, achieving a 79% segment identification accuracy in validation with a U-Net model on electron microscopy images of a polycrystalline oxide. Additionally, a novel grain alignment metric is introduced, showing a 51% improvement in grain alignment. This method not only enables rapid and accurate segmentation but also facilitates an unprecedented level of data analysis, significantly improving the statistical representation of grain boundary networks, making it suitable for a range of disciplines where precise segmentation of interconnected line networks is essential.

arxiv情報

著者 Doruk Aksoy,Huolin L. Xin,Timothy J. Rupert,William J. Bowman
発行日 2025-05-09 15:18:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.CV | Human Perception-Inspired Grain Segmentation Refinement Using Conditional Random Fields はコメントを受け付けていません

Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation

要約

ファンデーションモデルの最近の人気と、大規模なモデルが下流タスクに転送されるトレイン前および適応前のパラダイムは、ボリュームのある医療画像セグメンテーションに注目を集めています。
ただし、転送学習のために完全な微調整に専念する現在の転送学習戦略は、ターゲットタスクのラベルデータが不足している場合、重要なリソースを必要とし、最適下の結果をもたらす場合があります。
これにより、これらの機関は通常、独自のソリューションを開発するためのデータと計算リソースに制約されているため、実際の臨床環境での適用性が困難になります。
この課題に対処するために、医療画像セグメンテーションファンデーションモデルを適応させるための斬新で現実的なシナリオである、少数のショット効率の高い微調整(FSEFT)を正式にします。
この設定は、適応中のデータとパラメーター効率の両方の重要な役割を考慮します。
オープンアクセスCT臓器セグメンテーションソースで事前に訓練された基礎モデルに基づいて、このような課題に対処するためにパラメーター効率の高い微調整およびブラックボックスアダプターを活用することを提案します。
さらに、この作業では、新しい効率的な適応方法論が導入されています。これには、密な予測タスクと制約された移植推論により適した空間的ブラックボックスアダプターが含まれ、タスク固有の事前知識を活用します。
当社の包括的な転送学習実験は、医療画像セグメンテーションにおける基礎モデルの適合性を確認し、少ないショットシナリオで人気のある微調整戦略の制限を明らかにします。

要約(オリジナル)

The recent popularity of foundation models and the pre-train-and-adapt paradigm, where a large-scale model is transferred to downstream tasks, is gaining attention for volumetric medical image segmentation. However, current transfer learning strategies devoted to full fine-tuning for transfer learning may require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This makes its applicability in real clinical settings challenging since these institutions are usually constrained on data and computational resources to develop proprietary solutions. To address this challenge, we formalize Few-Shot Efficient Fine-Tuning (FSEFT), a novel and realistic scenario for adapting medical image segmentation foundation models. This setting considers the key role of both data- and parameter-efficiency during adaptation. Building on a foundation model pre-trained on open-access CT organ segmentation sources, we propose leveraging Parameter-Efficient Fine-Tuning and black-box Adapters to address such challenges. Furthermore, novel efficient adaptation methodologies are introduced in this work, which include Spatial black-box Adapters that are more appropriate for dense prediction tasks and constrained transductive inference, leveraging task-specific prior knowledge. Our comprehensive transfer learning experiments confirm the suitability of foundation models in medical image segmentation and unveil the limitations of popular fine-tuning strategies in few-shot scenarios.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2025-05-09 15:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation はコメントを受け付けていません