Negate or Embrace: On How Misalignment Shapes Multimodal Representation Learning

要約

画像テキストペアを使用したマルチモーダルコントラスト学習(MMCL)によって例示されるマルチモーダル表現学習は、モダリティ全体でキューを調整することにより、強力な表現を学ぶことを目的としています。
このアプローチは、模範的な画像テキストペアが同一の概念の2つの表現を構成するというコアの仮定に依存しています。
しかし、最近の研究により、実際のデータセットはしばしば不整合を示すことが明らかになりました。
この問題に対処する方法については、2つの異なる視点があります。1つは不整合を軽減することを示唆しており、もう1つはそれを活用しています。
ここでは、これらの一見反対の視点を調整し、実践者に実践的なガイドを提供しようとしています。
したがって、潜在変数モデルを使用して、2つの特定のメカニズムを導入することにより、ミスアライメントを形式化します。選択バイアスは、いくつかのセマンティック変数が欠落している場合、およびセマンティック変数が歪んでいる摂動バイアス – 両方ともモダリティ全体で共有される潜在変数に影響を与えます。
私たちの理論分析は、穏やかな仮定の下で、MMCLによって学んだ表現は、選択と摂動バイアスに不変のセマンティック変数のサブセットに関連する情報を正確にキャプチャすることを示しています。
これは、不整合を理解するための統一された視点を提供します。
これに基づいて、さらに不整合が実際のMLシステムの設計にどのように通知するかについての実用的な洞察を提供します。
合成データと実際の画像テキストデータセットの両方に関する広範な経験的研究を通じて、理論的な調査結果を検証し、マルチモーダル表現学習に対する不整合の微妙な影響に光を当てます。

要約(オリジナル)

Multimodal representation learning, exemplified by multimodal contrastive learning (MMCL) using image-text pairs, aims to learn powerful representations by aligning cues across modalities. This approach relies on the core assumption that the exemplar image-text pairs constitute two representations of an identical concept. However, recent research has revealed that real-world datasets often exhibit misalignment. There are two distinct viewpoints on how to address this issue: one suggests mitigating the misalignment, and the other leveraging it. We seek here to reconcile these seemingly opposing perspectives, and to provide a practical guide for practitioners. Using latent variable models we thus formalize misalignment by introducing two specific mechanisms: selection bias, where some semantic variables are missing, and perturbation bias, where semantic variables are distorted — both affecting latent variables shared across modalities. Our theoretical analysis demonstrates that, under mild assumptions, the representations learned by MMCL capture exactly the information related to the subset of the semantic variables invariant to selection and perturbation biases. This provides a unified perspective for understanding misalignment. Based on this, we further offer actionable insights into how misalignment should inform the design of real-world ML systems. We validate our theoretical findings through extensive empirical studies on both synthetic data and real image-text datasets, shedding light on the nuanced impact of misalignment on multimodal representation learning.

arxiv情報

著者 Yichao Cai,Yuhang Liu,Erdun Gao,Tianjiao Jiang,Zhen Zhang,Anton van den Hengel,Javen Qinfeng Shi
発行日 2025-04-29 13:33:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Negate or Embrace: On How Misalignment Shapes Multimodal Representation Learning はコメントを受け付けていません

Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining

要約

人間中心の認識は、多様なコンピュータービジョンタスクの中核であり、長年の研究焦点でした。
しかし、以前の研究では、これらの人間中心のタスクを個別に研究しましたが、そのパフォーマンスは大部分がパブリックタスク固有のデータセットのサイズに限定されています。
最近の人間中心の方法は、たとえば深さなどの追加のモダリティを活用して、カメラビューに対する感受性とインターネット上のRGB-Dデータの希少性のために事前トレーニングモデルの利点を制限します。
このホワイトペーパーでは、深さ情報を破棄し、離散コサイン変換(DCT)によって周波数空間でRGB画像の意味情報を探索することにより、人間中心の事前トレーニング方法のデータスケーリビリティを改善します。
さらに、キーポイントとDCTマップを使用した新しい注釈除去補助タスクを提案して、RGB画像抽出器を実施して、人体の細かい意味情報を学習します。
私たちの広範な実験は、深度注釈なしで大規模なデータセット(COCOおよびAICデータセット)で前提条件である場合、モデルは、COCOの+0.5マップ、MPIIの+1.4 PCKHよりも最先端のマップよりも優れたパフォーマンスを達成することを示しています。
SHAのMAEおよびSHBのMAEは、群衆のカウントのためのSHBのMAE、SHAで+1.1 F1スコア、SHAの+0.8 F1スコア、群衆のローカリゼーションでは+0.8 F1スコア、およびPerson ReidのMSMTのMarket1501および+0.8マップで+0.1マップ。
また、MPII+NTURGBDデータセットに対する方法の有効性を検証します

要約(オリジナル)

Human-centric perception is the core of diverse computer vision tasks and has been a long-standing research focus. However, previous research studied these human-centric tasks individually, whose performance is largely limited to the size of the public task-specific datasets. Recent human-centric methods leverage the additional modalities, e.g., depth, to learn fine-grained semantic information, which limits the benefit of pretraining models due to their sensitivity to camera views and the scarcity of RGB-D data on the Internet. This paper improves the data scalability of human-centric pretraining methods by discarding depth information and exploring semantic information of RGB images in the frequency space by Discrete Cosine Transform (DCT). We further propose new annotation denoising auxiliary tasks with keypoints and DCT maps to enforce the RGB image extractor to learn fine-grained semantic information of human bodies. Our extensive experiments show that when pretrained on large-scale datasets (COCO and AIC datasets) without depth annotation, our model achieves better performance than state-of-the-art methods by +0.5 mAP on COCO, +1.4 PCKh on MPII and -0.51 EPE on Human3.6M for pose estimation, by +4.50 mIoU on Human3.6M for human parsing, by -3.14 MAE on SHA and -0.07 MAE on SHB for crowd counting, by +1.1 F1 score on SHA and +0.8 F1 score on SHA for crowd localization, and by +0.1 mAP on Market1501 and +0.8 mAP on MSMT for person ReID. We also validate the effectiveness of our method on MPII+NTURGBD datasets

arxiv情報

著者 Weizhen He,Yunfeng Yan,Shixiang Tang,Yiheng Deng,Yangyang Zhong,Pengxin Luo,Donglian Qi
発行日 2025-04-29 14:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adept: Annotation-Denoising Auxiliary Tasks with Discrete Cosine Transform Map and Keypoint for Human-Centric Pretraining はコメントを受け付けていません

Radiance Surfaces: Optimizing Surface Representations with a 5D Radiance Field Loss

要約

画像を輝き表面ベースのシーン表現に変換するための高速でシンプルな手法を提示します。
既存の放射型ボリューム再構成アルゴリズムに基づいて、数行のコードのみを変更する必要がある損失関数の微妙でありながら影響力のある変更を導入します。光線に沿って放射磁場を統合し、結果の画像を監督する代わりに、トレーニング画像をシーンに投影して、空間方向の放射磁場を直接監督します。
この変更の主な結果は、画像形成モデルからのアルファブレンドと光線が行進することであり、代わりにこれらのステップを損失計算に移動することです。
サーフェスへの収束を促進することに加えて、この定式化は、放射磁場の2Dサブセットに明示的なセマンティック意味を割り当て、明確に定義された放射輝度表面に変えます。
最終的に、この表現からレベルセットを抽出し、高品質の放射輝度表面モデルになります。
この方法は、ベースラインアルゴリズムの速度と品質の多くを保持しています。
たとえば、インスタントNGPの適切に修正されたバリアントは、同等の計算効率を維持し、平均PSNRはわずか0.1 dB低いものを達成します。
最も重要なことは、私たちの方法は、指数ボリュームの代わりに明示的な表面を生成し、以前の作業では見られないレベルの単純さでそうすることです。

要約(オリジナル)

We present a fast and simple technique to convert images into a radiance surface-based scene representation. Building on existing radiance volume reconstruction algorithms, we introduce a subtle yet impactful modification of the loss function requiring changes to only a few lines of code: instead of integrating the radiance field along rays and supervising the resulting images, we project the training images into the scene to directly supervise the spatio-directional radiance field. The primary outcome of this change is the complete removal of alpha blending and ray marching from the image formation model, instead moving these steps into the loss computation. In addition to promoting convergence to surfaces, this formulation assigns explicit semantic meaning to 2D subsets of the radiance field, turning them into well-defined radiance surfaces. We finally extract a level set from this representation, which results in a high-quality radiance surface model. Our method retains much of the speed and quality of the baseline algorithm. For instance, a suitably modified variant of Instant NGP maintains comparable computational efficiency, while achieving an average PSNR that is only 0.1 dB lower. Most importantly, our method generates explicit surfaces in place of an exponential volume, doing so with a level of simplicity not seen in prior work.

arxiv情報

著者 Ziyi Zhang,Nicolas Roussel,Thomas Müller,Tizian Zeltner,Merlin Nimier-David,Fabrice Rousselle,Wenzel Jakob
発行日 2025-04-29 14:20:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | Radiance Surfaces: Optimizing Surface Representations with a 5D Radiance Field Loss はコメントを受け付けていません

ForesightNav: Learning Scene Imagination for Efficient Exploration

要約

人間がどのように事前知識を活用して目に見えない環境をナビゲートしながら、探索的な決定を下すことを理解することは、同様の能力を持つ自律的なロボットを開発するために不可欠です。
この作業では、人間の想像力と推論に触発された新しい探索戦略であるForesightnavを提案します。
私たちのアプローチは、未開の地域の占有やセマンティックの詳細などのコンテキスト情報を予測する機能をロボットエージェントに装備しています。
これらの予測により、ロボットは意味のある長期ナビゲーション目標を効率的に選択し、目に見えない環境での探査を大幅に強化することができます。
Structured3Dデータセットを使用して想像力ベースのアプローチを検証し、目に見えないシーンのジオメトリを予測する正確な占有率と優れたパフォーマンスを実証します。
我々の実験は、想像力モジュールが目に見えない環境での探査効率を改善し、PointNavの100%の完了率とStructured3D検証分割のObjectNavで67%のSPLを達成することを示しています。
これらの貢献は、一般化可能で効率的な探査を強化するための自律システムの想像力駆動型の推論の力を示しています。

要約(オリジナル)

Understanding how humans leverage prior knowledge to navigate unseen environments while making exploratory decisions is essential for developing autonomous robots with similar abilities. In this work, we propose ForesightNav, a novel exploration strategy inspired by human imagination and reasoning. Our approach equips robotic agents with the capability to predict contextual information, such as occupancy and semantic details, for unexplored regions. These predictions enable the robot to efficiently select meaningful long-term navigation goals, significantly enhancing exploration in unseen environments. We validate our imagination-based approach using the Structured3D dataset, demonstrating accurate occupancy prediction and superior performance in anticipating unseen scene geometry. Our experiments show that the imagination module improves exploration efficiency in unseen environments, achieving a 100% completion rate for PointNav and an SPL of 67% for ObjectNav on the Structured3D Validation split. These contributions demonstrate the power of imagination-driven reasoning for autonomous systems to enhance generalizable and efficient exploration.

arxiv情報

著者 Hardik Shah,Jiaxu Xing,Nico Messikommer,Boyang Sun,Marc Pollefeys,Davide Scaramuzza
発行日 2025-04-29 14:31:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | ForesightNav: Learning Scene Imagination for Efficient Exploration はコメントを受け付けていません

3D ReX: Causal Explanations in 3D Neuroimaging Classification

要約

説明可能性は、医療イメージングにおけるAIモデルにとって重要な問題のままであり、臨床医がAI主導の予測を信頼することは困難です。
3Dモデル向けの最初の因果関係ベースの事後説明ツールである3D Rexを紹介します。
3D Rexは、実際の因果関係の理論を使用して、モデルの決定に最も重要な領域を強調する責任マップを生成します。
ストローク検出モデルで3D Rexをテストし、ストロークに関連する機能の空間分布に関する洞察を提供します。

要約(オリジナル)

Explainability remains a significant problem for AI models in medical imaging, making it challenging for clinicians to trust AI-driven predictions. We introduce 3D ReX, the first causality-based post-hoc explainability tool for 3D models. 3D ReX uses the theory of actual causality to generate responsibility maps which highlight the regions most crucial to the model’s decision. We test 3D ReX on a stroke detection model, providing insight into the spatial distribution of features relevant to stroke.

arxiv情報

著者 Melane Navaratnarajah,Sophie A. Martin,David A. Kelly,Nathan Blake,Hana Chockler
発行日 2025-04-29 14:51:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, eess.IV | 3D ReX: Causal Explanations in 3D Neuroimaging Classification はコメントを受け付けていません

Probing and Inducing Combinational Creativity in Vision-Language Models

要約

既存の概念を斬新なアイデアに組み合わせる能力は、人間の知性の基本的な特徴として存在します。
GPT-4VやDalle-3などの視覚言語モデル(VLM)の最近の進歩は、出力がM. A. Boden(1998)によって定義されている組み合わせの創造性を反映しているかどうかについての議論を引き起こしました。
認知科学からインスピレーションを得て、コンセプトブレンドのレンズからのVLMの組み合わせの創造性を調査します。
識別と説明 – 実装(IEI)フレームワークを提案します。これは、クリエイティブプロセスを3つのレベルに分解し、入力スペースの識別、共有属性の抽出、新しい意味の意味を導き出すという3つのレベルに分解されます。
このフレームワークを検証するために、IEIフレームワークに従って注釈が付けられた666人のアーティストで生成された視覚マッシュアップの高品質のデータセットであるCreativeMashupをキュレートします。
広範な実験を通じて、理解タスクでは、最高のVLMが平均的な人間のパフォーマンスを上回っている間、専門家レベルの理解に達していないことを実証します。
世代のタスクでは、IEIフレームワークをGeneration Pipelineに組み込むことで、VLMSの出力の創造的な品質が大幅に向上します。
私たちの調査結果は、人工的な創造性を評価するための理論的基盤と、VLMSの創造的生成を改善するための実用的なガイドラインの両方を確立しています。

要約(オリジナル)

The ability to combine existing concepts into novel ideas stands as a fundamental hallmark of human intelligence. Recent advances in Vision-Language Models (VLMs) like GPT-4V and DALLE-3 have sparked debate about whether their outputs reflect combinational creativity–defined by M. A. Boden (1998) as synthesizing novel ideas through combining existing concepts–or sophisticated pattern matching of training data. Drawing inspiration from cognitive science, we investigate the combinational creativity of VLMs from the lens of concept blending. We propose the Identification-Explanation-Implication (IEI) framework, which decomposes creative processes into three levels: identifying input spaces, extracting shared attributes, and deriving novel semantic implications. To validate this framework, we curate CreativeMashup, a high-quality dataset of 666 artist-generated visual mashups annotated according to the IEI framework. Through extensive experiments, we demonstrate that in comprehension tasks, best VLMs have surpassed average human performance while falling short of expert-level understanding; in generation tasks, incorporating our IEI framework into the generation pipeline significantly enhances the creative quality of VLMs’ outputs. Our findings establish both a theoretical foundation for evaluating artificial creativity and practical guidelines for improving creative generation in VLMs.

arxiv情報

著者 Yongqian Peng,Yuxi Ma,Mengmeng Wang,Yuxuan Wang,Yizhou Wang,Chi Zhang,Yixin Zhu,Zilong Zheng
発行日 2025-04-29 14:51:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Probing and Inducing Combinational Creativity in Vision-Language Models はコメントを受け付けていません

GaussTrap: Stealthy Poisoning Attacks on 3D Gaussian Splatting for Targeted Scene Confusion

要約

3Dガウスの飛び散(3DG)がシーン表現と新しいビューの合成のブレークスルーとして出現するにつれて、安全性が批判的なドメイン(自律システム、AR/VRなど)での迅速な採用は、潜在的なセキュリティの脆弱性の精査を緊急に要求します。
この論文では、3DGSパイプラインでのバックドアの脅威に関する最初の体系的な研究を紹介します。
敵は、推論中に悪意のあるシーンの混乱を引き起こすためにバックドアビューを移植する可能性があり、潜在的に自律航海の環境誤解や没​​入型環境での空間的歪みにつながる可能性があることを特定します。
このリスクを明らかにするために、3DGSモデルをターゲットにした新しい中毒攻撃方法であるGuaStrapを提案します。
GuaStrapは、特定の攻撃ビューで悪意のあるビューを注入し、非ターゲットビューで高品質のレンダリングを維持し、最小限の検出可能性を確保し、潜在的な害を最大化します。
具体的には、提案された方法は、3DGでステルスで視点一貫性のある毒性レンダリングを植え付ける3段階のパイプライン(攻撃、安定化、および通常のトレーニング)で構成され、攻撃の有効性と共同で3Dレンダリングのセキュリティリスクを暴露するための知覚リアリズムを共同で最適化します。
合成データセットと現実世界の両方のデータセットでの広範な実験は、GuaStrapが通常のビューで高品質のレンダリングを維持し、その堅牢性、適応性、実用的な適用性を検証しながら、知覚できないが有害なバックドアビューを効果的に埋め込むことができることを示しています。

要約(オリジナル)

As 3D Gaussian Splatting (3DGS) emerges as a breakthrough in scene representation and novel view synthesis, its rapid adoption in safety-critical domains (e.g., autonomous systems, AR/VR) urgently demands scrutiny of potential security vulnerabilities. This paper presents the first systematic study of backdoor threats in 3DGS pipelines. We identify that adversaries may implant backdoor views to induce malicious scene confusion during inference, potentially leading to environmental misperception in autonomous navigation or spatial distortion in immersive environments. To uncover this risk, we propose GuassTrap, a novel poisoning attack method targeting 3DGS models. GuassTrap injects malicious views at specific attack viewpoints while preserving high-quality rendering in non-target views, ensuring minimal detectability and maximizing potential harm. Specifically, the proposed method consists of a three-stage pipeline (attack, stabilization, and normal training) to implant stealthy, viewpoint-consistent poisoned renderings in 3DGS, jointly optimizing attack efficacy and perceptual realism to expose security risks in 3D rendering. Extensive experiments on both synthetic and real-world datasets demonstrate that GuassTrap can effectively embed imperceptible yet harmful backdoor views while maintaining high-quality rendering in normal views, validating its robustness, adaptability, and practical applicability.

arxiv情報

著者 Jiaxin Hong,Sixu Chen,Shuoyang Sun,Hongyao Yu,Hao Fang,Yuqi Tan,Bin Chen,Shuhan Qi,Jiawei Li
発行日 2025-04-29 14:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | GaussTrap: Stealthy Poisoning Attacks on 3D Gaussian Splatting for Targeted Scene Confusion はコメントを受け付けていません

CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation

要約

正確でユーザーフレンドリーなコンピューター支援設計(CAD)は、工業デザインと製造に非常に重要ですが、マルチモーダル設計の要件をサポートできない単純化された表現またはアーキテクチャのために、既存の方法がこれを達成するのに苦労しています。
このホワイトペーパーでは、この問題とデータセットの両方の側面からこの問題に取り組むことを試みます。
まず、境界表現(B-REP)に基づくCAD生成の最初のマルチモーダルフレームワークであるトポロジー予測因子(CMT)を備えたカスケードMARを提案します。
具体的には、Cascade MarはB-Repsに不可欠な「エッジカウンターと表面」の “ `edge-counters-surface」を効果的にキャプチャできますが、トポロジー予測因子は3月のコンパクトトークンのB-repsのトポロジーを直接推定します。
第二に、大規模なトレーニングを容易にするために、ポイントクラウド、テキストの説明、マルチビュー画像を含むマルチモーダル注釈を備えた130万以上のB-REPモデルを含む大規模なマルチモーダルCADデータセットMMABCを開発します。
広範な実験では、条件付きおよび無条件のCAD生成タスクの両方でCMTの上位が示されています。
たとえば、無条件の世代におけるABCの最先端の方法と比較して、カバレッジと有効な比率をそれぞれ +10.68%と +10.3%改善します。
CMTは、MMABCの画像条件付けられたCAD生成で+4.01面取りも改善します。
データセット、コード、および事前処理されたネットワークがリリースされます。

要約(オリジナル)

While accurate and user-friendly Computer-Aided Design (CAD) is crucial for industrial design and manufacturing, existing methods still struggle to achieve this due to their over-simplified representations or architectures incapable of supporting multimodal design requirements. In this paper, we attempt to tackle this problem from both methods and datasets aspects. First, we propose a cascade MAR with topology predictor (CMT), the first multimodal framework for CAD generation based on Boundary Representation (B-Rep). Specifically, the cascade MAR can effectively capture the “edge-counters-surface” priors that are essential in B-Reps, while the topology predictor directly estimates topology in B-Reps from the compact tokens in MAR. Second, to facilitate large-scale training, we develop a large-scale multimodal CAD dataset, mmABC, which includes over 1.3 million B-Rep models with multimodal annotations, including point clouds, text descriptions, and multi-view images. Extensive experiments show the superior of CMT in both conditional and unconditional CAD generation tasks. For example, we improve Coverage and Valid ratio by +10.68% and +10.3%, respectively, compared to state-of-the-art methods on ABC in unconditional generation. CMT also improves +4.01 Chamfer on image conditioned CAD generation on mmABC. The dataset, code and pretrained network shall be released.

arxiv情報

著者 Jianyu Wu,Yizhou Wang,Xiangyu Yue,Xinzhu Ma,Jingyang Guo,Dongzhan Zhou,Wanli Ouyang,Shixiang Tang
発行日 2025-04-29 14:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation はコメントを受け付けていません

RadSAM: Segmenting 3D radiological images with a 2D promptable model

要約

医療画像セグメンテーションは、臨床ケアにおける重要で時間のかかるタスクであり、マスクの精度が非常に重要です。
セグメントAnything Model(SAM)は、視覚プロンプトとエディションに基づいたインタラクティブなインターフェイスを提供して初期セグメンテーションを改善するため、有望なアプローチを提供します。
このモデルには強力な一般化能力があり、事前定義されたクラスに依存せず、多様なオブジェクトに適応します。
ただし、自然な画像で事前に訓練されており、医療データを効果的に処理する能力がありません。
さらに、このモデルは2D画像用に構築されていますが、医療ドメイン全体はCTやMRIなどの3D画像に基づいています。
医療イメージングに対するSAMの最近の適応は2Dモデルに基づいているため、3Dオブジェクトをセグメント化するためにスライスごとに1つのプロンプトが必要であり、セグメンテーションプロセスを退屈にします。
また、編集などの重要な機能もありません。
このギャップを埋めるために、3Dオブジェクトを単一のプロンプトから2Dモデルでセグメント化する新しい方法であるRadsamを提案します。
実際には、ノイズの多いマスクを初期プロンプトとして使用して、ボックスとポイントの境界に加えて、2Dモデルをトレーニングします。
次に、この新しいプロンプトタイプを使用して、反復推論パイプラインを使用して、3Dマスクスライスごとのスライスを再構築します。
単一のプロンプトからCT画像の3Dオブジェクトをセグメント化するモデルの機能を評価し、モデルのドメイン外の転送およびエディション機能を評価するベンチマークを導入します。
AMOS腹部臓器セグメンテーションデータセットを使用して、このベンチマークに対する最先端モデルに対するアプローチの有効性を実証します。

要約(オリジナル)

Medical image segmentation is a crucial and time-consuming task in clinical care, where mask precision is extremely important. The Segment Anything Model (SAM) offers a promising approach, as it provides an interactive interface based on visual prompting and edition to refine an initial segmentation. This model has strong generalization capabilities, does not rely on predefined classes, and adapts to diverse objects; however, it is pre-trained on natural images and lacks the ability to process medical data effectively. In addition, this model is built for 2D images, whereas a whole medical domain is based on 3D images, such as CT and MRI. Recent adaptations of SAM for medical imaging are based on 2D models, thus requiring one prompt per slice to segment 3D objects, making the segmentation process tedious. They also lack important features such as editing. To bridge this gap, we propose RadSAM, a novel method for segmenting 3D objects with a 2D model from a single prompt. In practice, we train a 2D model using noisy masks as initial prompts, in addition to bounding boxes and points. We then use this novel prompt type with an iterative inference pipeline to reconstruct the 3D mask slice-by-slice. We introduce a benchmark to evaluate the model’s ability to segment 3D objects in CT images from a single prompt and evaluate the models’ out-of-domain transfer and edition capabilities. We demonstrate the effectiveness of our approach against state-of-the-art models on this benchmark using the AMOS abdominal organ segmentation dataset.

arxiv情報

著者 Julien Khlaut,Elodie Ferreres,Daniel Tordjman,Hélène Philippe,Tom Boeken,Pierre Manceron,Corentin Dancette
発行日 2025-04-29 15:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | RadSAM: Segmenting 3D radiological images with a 2D promptable model はコメントを受け付けていません

FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models

要約

テキストプロンプトチューニングは、ネットワークの重みを凍結しながら、ローカルクライアントデータの軽量入力トークン(またはプロンプト)を調整することにより、フェデレートラーニングのビジョン言語モデル(例:クリップ)を適応させます。
トレーニング後、プロンプトのみが、集約のために中央サーバーとクライアントによって共有されます。
ただし、テキストの迅速なチューニングは、既知の概念への過剰適合に苦労することが多く、記憶されたテキスト機能に過度に依存している可能性があり、その適応性を目に見えない概念に制限します。
この制限に対処するために、包括的なコンテキスト情報(クラスの画像コンディショニングされた機能とテキスト属性機能)のプロンプトを条件付けするフェデレーションマルチモーダルビジュアルプロンプトチューニング(FEDMVP)を提案します。
FEDMVPのコアには、クロスアテンションを通じてテキストと視覚の特徴を相乗的に整列させ、より豊かなコンタキとの統合を可能にするプロンプトファーダーモジュールがあります。
次に、動的に生成されたマルチモーダル視覚プロンプトは、クリップの凍結ビジョンエンコーダーに入力され、クリップの類似性損失と一貫性の損失の組み合わせでトレーニングされます。
3つの一般化設定にまたがる20のデータセットでの広範な評価は、FedMVPが分散クラスとドメインのパフォーマンスを保持するだけでなく、最先端の方法と比較した場合、目に見えないクラスとドメインに高い一般化可能性を表示することを示しています。
コードは受け入れられるとリリースされます。

要約(オリジナル)

Textual prompt tuning adapts Vision-Language Models (e.g., CLIP) in federated learning by tuning lightweight input tokens (or prompts) on local client data, while keeping network weights frozen. Post training, only the prompts are shared by the clients with the central server for aggregation. However, textual prompt tuning often struggles with overfitting to known concepts and may be overly reliant on memorized text features, limiting its adaptability to unseen concepts. To address this limitation, we propose Federated Multimodal Visual Prompt Tuning (FedMVP) that conditions the prompts on comprehensive contextual information — image-conditioned features and textual attribute features of a class — that is multimodal in nature. At the core of FedMVP is a PromptFormer module that synergistically aligns textual and visual features through cross-attention, enabling richer contexual integration. The dynamically generated multimodal visual prompts are then input to the frozen vision encoder of CLIP, and trained with a combination of CLIP similarity loss and a consistency loss. Extensive evaluation on 20 datasets spanning three generalization settings demonstrates that FedMVP not only preserves performance on in-distribution classes and domains, but also displays higher generalizability to unseen classes and domains when compared to state-of-the-art methods. Codes will be released upon acceptance.

arxiv情報

著者 Mainak Singha,Subhankar Roy,Sarthak Mehrotra,Ankit Jha,Moloud Abdar,Biplab Banerjee,Elisa Ricci
発行日 2025-04-29 15:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FedMVP: Federated Multi-modal Visual Prompt Tuning for Vision-Language Models はコメントを受け付けていません