DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models

要約

このホワイトペーパーでは、DC(Decouple)-Controlnetを紹介します。これは、多条件の画像生成のための非常に柔軟で正確に制御可能なフレームワークです。
DC-Controlnetの背後にあるコアアイデアは、制御条件を切り離し、グローバル制御を異なる要素、内容、およびレイアウトを統合する階層システムに変換することです。
これにより、ユーザーはこれらの個々の条件をより柔軟性と組み合わせることができ、より効率的で正確な画像生成制御につながることができます。
以前のコントロールネットベースのモデルは、画像全体に影響を与え、要素または領域固有の制御の能力を欠いているグローバルな条件のみに依存しています。
この制限により、柔軟性が低下し、多条件の画像生成の状態の誤解を引き起こす可能性があります。
これらの課題に対処するために、DC-Controlnetの要素内コントローラーと要素間コントローラーの両方を提案します。
エレメント内コントローラーは、個々の要素内のさまざまな種類の制御信号を処理し、オブジェクトのコンテンツとレイアウト特性を正確に説明します。
要素間の相互作用については、ユーザー定義の関係に基づいてマルチ要素の相互作用と閉塞を正確に処理する要素間コントローラーを導入します。
広範な評価により、DC-Controlnetは、マルチコンディショナル制御における制御の柔軟性と精度の観点から、既存のコントロールネットモデルとレイアウトから画像間モデルを大幅に上回ることが示されています。

要約(オリジナル)

In this paper, we introduce DC (Decouple)-ControlNet, a highly flexible and precisely controllable framework for multi-condition image generation. The core idea behind DC-ControlNet is to decouple control conditions, transforming global control into a hierarchical system that integrates distinct elements, contents, and layouts. This enables users to mix these individual conditions with greater flexibility, leading to more efficient and accurate image generation control. Previous ControlNet-based models rely solely on global conditions, which affect the entire image and lack the ability of element- or region-specific control. This limitation reduces flexibility and can cause condition misunderstandings in multi-conditional image generation. To address these challenges, we propose both intra-element and Inter-element Controllers in DC-ControlNet. The Intra-Element Controller handles different types of control signals within individual elements, accurately describing the content and layout characteristics of the object. For interactions between elements, we introduce the Inter-Element Controller, which accurately handles multi-element interactions and occlusion based on user-defined relationships. Extensive evaluations show that DC-ControlNet significantly outperforms existing ControlNet models and Layout-to-Image generative models in terms of control flexibility and precision in multi-condition control.

arxiv情報

著者 Hongji Yang,Wencheng Han,Yucheng Zhou,Jianbing Shen
発行日 2025-02-20 18:01:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DC-ControlNet: Decoupling Inter- and Intra-Element Conditions in Image Generation with Diffusion Models はコメントを受け付けていません

ReVision: A Dataset and Baseline VLM for Privacy-Preserving Task-Oriented Visual Instruction Rewriting

要約

AR、VR、および強力なカメラを備えた最新のスマートフォンが人間コンピューターコミュニケーションのための主要なインターフェイスになるため、効率的かつプライバシーを提供するマルチモーダル相互作用は不可欠です。
既存の強力な大型ビジョン言語モデル(VLMS)マルチモーダル相互作用を可能にすることができることが多いことが多く、クラウドベースの処理に依存し、(1)機密性ビジョンデータをサーバーに送信することによる視覚的プライバシー、および(2)限られたリアルタイムでオンになります。
デバイスの使いやすさ。
このペーパーでは、マルチモーダル命令をテキストのみのコマンドに変換する新しいアプローチである視覚命令の書き換えを調査し、軽量のオンデバイス命令ライターVLMS(250mパラメーター)と既存の会話型AIシステムとのシームレスな統合を可能にし、ビジョンデータプライバシーを強化します。
これを実現するために、14のドメインにわたって39,000を超える例のデータセットを提示し、画像キャプションデータセットで事前に処理され、命令の書き換えのために微調整されたコンパクトなVLMを開発します。
BLEU、Meteor、RougeなどのNLGメトリックを介して評価された実験結果は、セマンティック解析分析とともに、モデルの量子化バージョン(<500MBストレージフットプリント)でさえ効果的な指導の書き換えを実現し、プライバシーに焦点を合わせたマルチモダルを有効にすることができることを示しています。 AIアプリケーション。

要約(オリジナル)

Efficient and privacy-preserving multimodal interaction is essential as AR, VR, and modern smartphones with powerful cameras become primary interfaces for human-computer communication. Existing powerful large vision-language models (VLMs) enabling multimodal interaction often rely on cloud-based processing, raising significant concerns about (1) visual privacy by transmitting sensitive vision data to servers, and (2) their limited real-time, on-device usability. This paper explores Visual Instruction Rewriting, a novel approach that transforms multimodal instructions into text-only commands, allowing seamless integration of lightweight on-device instruction rewriter VLMs (250M parameters) with existing conversational AI systems, enhancing vision data privacy. To achieve this, we present a dataset of over 39,000 examples across 14 domains and develop a compact VLM, pretrained on image captioning datasets and fine-tuned for instruction rewriting. Experimental results, evaluated through NLG metrics such as BLEU, METEOR, and ROUGE, along with semantic parsing analysis, demonstrate that even a quantized version of the model (<500MB storage footprint) can achieve effective instruction rewriting, thus enabling privacy-focused, multimodal AI applications.

arxiv情報

著者 Abhijit Mishra,Richard Noh,Hsiang Fu,Mingda Li,Minji Kim
発行日 2025-02-20 18:01:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | ReVision: A Dataset and Baseline VLM for Privacy-Preserving Task-Oriented Visual Instruction Rewriting はコメントを受け付けていません

Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning

要約

3D大手言語モデル(3DLLMS)の最近の進歩は、3D現実世界の汎用エージェントの構築における可能性を強調していますが、高品質の堅牢な命令学転換データがないため、課題は残っており、差別的な力と一般化が限られています
3dllmsの。
このホワイトペーパーでは、新しいデータエンジンであるRobust Instruction Generation(RIG)エンジンによって生成された大規模な命令に従うデータを訓練した強力な3DLLMであるRobin3Dを紹介します。
RIGは2つの重要な命令データを生成します。1)敵対的な命令に従うデータ。これには、モデルの識別的理解を高めるためのネガティブとポジティブの混合サンプルが特徴です。
2)モデルの一般化を強化するためのさまざまな命令スタイルを含む多様な命令に従うデータ。
その結果、344Kの逆境サンプル、508K多様なサンプル、165Kベンチマークトレーニングセットのサンプルで構成される100万件の指導に従うデータを構築します。
これらの複雑な命令をより適切に処理するために、Robin3Dは最初に、空間的理解を強化するために関連性を高めるプロジェクターを組み込み、次にID-Featureボンディングを通じて参照と接地能力を強化します。
Robin3Dは、タスク固有の微調整を必要とせずに、5つの広く使用されている3Dマルチモーダル学習ベンチマークで以前のメソッドよりも一貫して優れています。
特に、接地タスクの7.8 \%の改善(Multi3Drefer)とキャプションタスクで6.9 \%の改善(SCAN2CAP)を達成します。

要約(オリジナル)

Recent advancements in 3D Large Language Models (3DLLMs) have highlighted their potential in building general-purpose agents in the 3D real world, yet challenges remain due to the lack of high-quality robust instruction-following data, leading to limited discriminative power and generalization of 3DLLMs. In this paper, we introduce Robin3D, a powerful 3DLLM trained on large-scale instruction-following data generated by our novel data engine, Robust Instruction Generation (RIG) engine. RIG generates two key instruction data: 1) the Adversarial Instruction-following data, which features mixed negative and positive samples to enhance the model’s discriminative understanding. 2) the Diverse Instruction-following data, which contains various instruction styles to enhance model’s generalization. As a result, we construct 1 million instruction-following data, consisting of 344K Adversarial samples, 508K Diverse samples, and 165K benchmark training set samples. To better handle these complex instructions, Robin3D first incorporates Relation-Augmented Projector to enhance spatial understanding, and then strengthens the object referring and grounding ability through ID-Feature Bonding. Robin3D consistently outperforms previous methods across five widely-used 3D multimodal learning benchmarks, without the need for task-specific fine-tuning. Notably, we achieve a 7.8\% improvement in the grounding task (Multi3DRefer) and a 6.9\% improvement in the captioning task (Scan2Cap).

arxiv情報

著者 Weitai Kang,Haifeng Huang,Yuzhang Shang,Mubarak Shah,Yan Yan
発行日 2025-02-20 18:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Robin3D: Improving 3D Large Language Model via Robust Instruction Tuning はコメントを受け付けていません

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

要約

元のSiglipの成功に基づいて構築された新しい多言語ビジョン言語エンコーダーのファミリーであるSiglip 2を紹介します。
この2回目の反復では、いくつかの事前の独立した開発技術を備えた元の画像テキストトレーニング目標を統一されたレシピに拡張します。これには、キャプションベースの事前削除、自己監視の損失(自己抵抗、マスクされた予測)、およびオンラインデータキュレーションが含まれます。

これらの変更により、Siglip 2モデルは、ビジョン言語モデル(VLM)の視覚表現を抽出する際のゼロショット分類、画像テキスト検索、転送パフォーマンスなど、コア機能のすべてのモデルスケールでSiglipのカウンターパートを上回ります。
さらに、新しいトレーニングレシピは、ローカリゼーションと密集した予測タスクの大幅な改善につながります。
また、複数の解像度をサポートし、入力のネイティブアスペクト比を保持するバリエーションをトレーニングします。
最後に、バイアシング技術を含む、より多様なデータミックスをトレーニングし、多言語の理解と公平性の向上につながります。
ユーザーがパフォーマンスで推論コストをトレードオフできるようにするために、VIT-B(86M)、L(30​​3M)、SO400M(400M)、およびG(1B)の4つのサイズでモデルチェックポイントをリリースします。

要約(オリジナル)

We introduce SigLIP 2, a family of new multilingual vision-language encoders that build on the success of the original SigLIP. In this second iteration, we extend the original image-text training objective with several prior, independently developed techniques into a unified recipe — this includes captioning-based pretraining, self-supervised losses (self-distillation, masked prediction) and online data curation. With these changes, SigLIP 2 models outperform their SigLIP counterparts at all model scales in core capabilities, including zero-shot classification, image-text retrieval, and transfer performance when extracting visual representations for Vision-Language Models (VLMs). Furthermore, the new training recipe leads to significant improvements on localization and dense prediction tasks. We also train variants which support multiple resolutions and preserve the input’s native aspect ratio. Finally, we train on a more diverse data-mixture that includes de-biasing techniques, leading to much better multilingual understanding and improved fairness. To allow users to trade off inference cost with performance, we release model checkpoints at four sizes: ViT-B (86M), L (303M), So400m (400M), and g (1B).

arxiv情報

著者 Michael Tschannen,Alexey Gritsenko,Xiao Wang,Muhammad Ferjad Naeem,Ibrahim Alabdulmohsin,Nikhil Parthasarathy,Talfan Evans,Lucas Beyer,Ye Xia,Basil Mustafa,Olivier Hénaff,Jeremiah Harmsen,Andreas Steiner,Xiaohua Zhai
発行日 2025-02-20 18:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features はコメントを受け付けていません

Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing

要約

最近の作業により、大規模な訓練を受けた2Dモデルを使用して得られた事前に訓練された2D機能を3D機能に活用または蒸留する機能が実証されており、2D監督のみを使用して印象的な3D編集と理解機能を可能にします。
印象的ですが、モデルは3D機能が単一の機能フィールドを使用してキャプチャされ、多くの場合、機能がビューに依存しないという単純化された仮定を作成することを想定しています。
この作業では、代わりに、ビュー依存性とビューに依存しないコンポーネントを含む3D機能のさまざまな構造コンポーネントをキャプチャする複数の解き込められた機能フィールドを使用して、2D機能の監督からのみ学習できる3D機能を使用して、3D機能をキャプチャすることを提案します。
その後、各要素を単独で制御し、セマンティックおよび構造の理解と編集機能を可能にします。
たとえば、ユーザーのクリックを使用すると、特定のオブジェクトに対応する3D機能をセグメント化し、ビュー依存(反射)プロパティをセグメント化、編集、または削除できます。
3Dセグメンテーションのタスクに関するアプローチを評価し、タスクの新しい理解と編集のセットを実証します。

要約(オリジナル)

Recent work has demonstrated the ability to leverage or distill pre-trained 2D features obtained using large pre-trained 2D models into 3D features, enabling impressive 3D editing and understanding capabilities using only 2D supervision. Although impressive, models assume that 3D features are captured using a single feature field and often make a simplifying assumption that features are view-independent. In this work, we propose instead to capture 3D features using multiple disentangled feature fields that capture different structural components of 3D features involving view-dependent and view-independent components, which can be learned from 2D feature supervision only. Subsequently, each element can be controlled in isolation, enabling semantic and structural understanding and editing capabilities. For instance, using a user click, one can segment 3D features corresponding to a given object and then segment, edit, or remove their view-dependent (reflective) properties. We evaluate our approach on the task of 3D segmentation and demonstrate a set of novel understanding and editing tasks.

arxiv情報

著者 Yoel Levy,David Shavin,Itai Lang,Sagie Benaim
発行日 2025-02-20 18:09:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Structurally Disentangled Feature Fields Distillation for 3D Understanding and Editing はコメントを受け付けていません

RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation

要約

Bird’s Eye View(BEV)セマンティックマップは最近、環境の有用な表現として多くの注目を集め、支援および自律的な運転タスクに取り組んでいます。
ただし、既存の作業のほとんどは、完全に監視されている設定、大規模な注釈付きデータセットのトレーニングネットワークに焦点を当てています。
この作業では、BEVセマンティックセグメンテーションネットワークの自己監視トレーニングの新しい方法であるRendBevを提示し、2Dセマンティックセグメンテーションモデルによって計算されたセマンティックの観点から監督を受けるための微分可能なボリュームレンダリングを活用します。
私たちの方法は、ゼロショットBEVセマンティックセグメンテーションを可能にし、すでにこの挑戦的な設定で競争力のある結果を提供しています。
その後、ラベル付きBEVグラウンドトゥルースで微調整するために事前に使用される場合、我々の方法は、低音符制度のパフォーマンスを大幅に向上させ、利用可能なすべてのラベルで微調整する際に新しい最新の最新を設定します。

要約(オリジナル)

Bird’s Eye View (BEV) semantic maps have recently garnered a lot of attention as a useful representation of the environment to tackle assisted and autonomous driving tasks. However, most of the existing work focuses on the fully supervised setting, training networks on large annotated datasets. In this work, we present RendBEV, a new method for the self-supervised training of BEV semantic segmentation networks, leveraging differentiable volumetric rendering to receive supervision from semantic perspective views computed by a 2D semantic segmentation model. Our method enables zero-shot BEV semantic segmentation, and already delivers competitive results in this challenging setting. When used as pretraining to then fine-tune on labeled BEV ground-truth, our method significantly boosts performance in low-annotation regimes, and sets a new state of the art when fine-tuning on all available labels.

arxiv情報

著者 Henrique Piñeiro Monteagudo,Leonardo Taccari,Aurel Pjetri,Francesco Sambo,Samuele Salti
発行日 2025-02-20 18:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RendBEV: Semantic Novel View Synthesis for Self-Supervised Bird’s Eye View Segmentation はコメントを受け付けていません

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

要約

このペーパーでは、現在のヒューマノイドロボット制御フレームワークの制限に対処します。これは、主に反応的なメカニズムに依存しており、データ不足による自律的な相互作用機能を欠いています。
言語の理解、エゴセントリックシーンの知覚、およびモーションコントロールを統合する新しいフレームワークであるヒューマノイドVLAを提案し、普遍的なヒューマノイド制御を可能にします。
ヒューマノイドVLAは、テキストの説明と組み合わせた非エコセントリックヒトモーションデータセットを使用して、言語モーションの事前調整から始まり、モデルが普遍的なモーションパターンとアクションセマンティクスを学習できるようにします。
次に、エゴセントリックの視覚コンテキストを、パラメーター効率的なビデオコンディショニングされた微調整、コンテキスト認識モーション生成を可能にします。
さらに、モーションデータから直接導出された擬似解決を自動的に生成する自己監視データ増強戦略を導入します。
このプロセスは、生のモーションシーケンスを有益な質問回答ペアに変換し、大規模な非標識ビデオデータの効果的な使用を促進します。
全身制御アーキテクチャの上に構築された広範な実験は、ヒューマノイドVLAがコンテキスト認識を高め、オブジェクトの相互作用と環境探査タスクを達成し、適応的でインテリジェントなエンゲージメントのためのより人間のような能力を実証することを示しています。

要約(オリジナル)

This paper addresses the limitations of current humanoid robot control frameworks, which primarily rely on reactive mechanisms and lack autonomous interaction capabilities due to data scarcity. We propose Humanoid-VLA, a novel framework that integrates language understanding, egocentric scene perception, and motion control, enabling universal humanoid control. Humanoid-VLA begins with language-motion pre-alignment using non-egocentric human motion datasets paired with textual descriptions, allowing the model to learn universal motion patterns and action semantics. We then incorporate egocentric visual context through a parameter efficient video-conditioned fine-tuning, enabling context-aware motion generation. Furthermore, we introduce a self-supervised data augmentation strategy that automatically generates pseudoannotations directly derived from motion data. This process converts raw motion sequences into informative question-answer pairs, facilitating the effective use of large-scale unlabeled video data. Built upon whole-body control architectures, extensive experiments show that Humanoid-VLA achieves object interaction and environment exploration tasks with enhanced contextual awareness, demonstrating a more human-like capacity for adaptive and intelligent engagement.

arxiv情報

著者 Pengxiang Ding,Jianfei Ma,Xinyang Tong,Binghong Zou,Xinxin Luo,Yiguo Fan,Ting Wang,Hongchao Lu,Panzhong Mo,Jinxin Liu,Yuefan Wang,Huaicheng Zhou,Wenshuo Feng,Jiacheng Liu,Siteng Huang,Donglin Wang
発行日 2025-02-20 18:17:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration はコメントを受け付けていません

A Survey on Text-Driven 360-Degree Panorama Generation

要約

テキスト駆動型の360度のパノラマ生成の出現は、テキストの説明から直接360度のパノラマ画像を合成できるようにし、没入型の視覚コンテンツの作成における変革的な進歩を示しています。
このイノベーションは、そのようなコンテンツを生産する伝統的に複雑なプロセスを大幅に簡素化します。
テキスト間拡散モデルの最近の進歩により、この新興分野の急速な発展が加速しています。
この調査では、テキスト駆動型の360度パノラマ生成の包括的なレビューを提示し、360度の3Dシーン生成における最先端のアルゴリズムとその拡大アプリケーションの詳細な分析を提供します。
さらに、現在の制限を批判的に調べ、将来の研究のための有望な方向性を提案します。
関連するリソースと研究論文を備えたキュレーションされたプロジェクトページは、https://littlewhitesea.github.io/text-driven-pano-gen/で入手できます。

要約(オリジナル)

The advent of text-driven 360-degree panorama generation, enabling the synthesis of 360-degree panoramic images directly from textual descriptions, marks a transformative advancement in immersive visual content creation. This innovation significantly simplifies the traditionally complex process of producing such content. Recent progress in text-to-image diffusion models has accelerated the rapid development in this emerging field. This survey presents a comprehensive review of text-driven 360-degree panorama generation, offering an in-depth analysis of state-of-the-art algorithms and their expanding applications in 360-degree 3D scene generation. Furthermore, we critically examine current limitations and propose promising directions for future research. A curated project page with relevant resources and research papers is available at https://littlewhitesea.github.io/Text-Driven-Pano-Gen/.

arxiv情報

著者 Hai Wang,Xiaoyu Xiang,Weihao Xia,Jing-Hao Xue
発行日 2025-02-20 18:19:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Survey on Text-Driven 360-Degree Panorama Generation はコメントを受け付けていません

AVD2: Accident Video Diffusion for Accident Video Description

要約

交通事故は、自律運転の複雑な課題を提示し、しばしば正確なシステムの解釈と応答を妨げる予測不可能なシナリオを特徴としています。それでも、事故の原因を解明し、事故シナリオに固有のトレーニングデータの不足のために予防策を提案することには不足しています。
この作業では、AVD2(事故ビデオの説明のための事故ビデオ拡散)を紹介します。これは、事故シーンの理解を高める新しいフレームワークです。
詳細な自然言語の説明と推論に沿った事故ビデオを生成し、その結果、貢献したEMM-AU(強化されたマルチモーダル事故ビデオ理解)データセットが貢献しました。
経験的な結果は、EMM-AUデータセットの統合が自動化されたメトリックと人間の評価の両方にわたって最先端のパフォーマンスを確立し、事故分析と予防の領域を著しく進めていることを明らかにしています。
プロジェクトリソースは、https://an-answer-tree.github.ioで入手できます

要約(オリジナル)

Traffic accidents present complex challenges for autonomous driving, often featuring unpredictable scenarios that hinder accurate system interpretation and responses.Nonetheless, prevailing methodologies fall short in elucidating the causes of accidents and proposing preventive measures due to the paucity of training data specific to accident scenarios.In this work, we introduce AVD2 (Accident Video Diffusion for Accident Video Description), a novel framework that enhances accident scene understanding by generating accident videos that aligned with detailed natural language descriptions and reasoning, resulting in the contributed EMM-AU (Enhanced Multi-Modal Accident Video Understanding) dataset. Empirical results reveal that the integration of the EMM-AU dataset establishes state-of-the-art performance across both automated metrics and human evaluations, markedly advancing the domains of accident analysis and prevention. Project resources are available at https://an-answer-tree.github.io

arxiv情報

著者 Cheng Li,Keyuan Zhou,Tong Liu,Yu Wang,Mingqiao Zhuang,Huan-ang Gao,Bu Jin,Hao Zhao
発行日 2025-02-20 18:22:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AVD2: Accident Video Diffusion for Accident Video Description はコメントを受け付けていません

FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis

要約

基礎モデルは、医療ドメインでますます効果的になりつつあり、下流のタスクに容易に適応できる大規模なデータセットで事前に訓練されたモデルを提供しています。
進歩にもかかわらず、胎児の超音波画像は、固有の複雑さのために基礎モデルの困難なドメインのままであり、多くの場合、ペアのマルチモーダルデータが不足しているため、かなりの追加トレーニングと限界に直面する必要があります。
これらの課題を克服するために、胎児超音波画像の普遍的な表現を生成できるビジョン言語基盤モデルであるFetalClipを紹介します。
FetalClipは、210,035の胎児超音波画像とテキストと組み合わせた多様なデータセットでマルチモーダル学習アプローチを使用して事前に訓練されました。
これは、これまでの基礎モデル開発に使用されるこの種の最大のペアデータセットを表しています。
このユニークなトレーニングアプローチにより、FetalClipは胎児超音波画像に存在する複雑な解剖学的特徴を効果的に学習することで、さまざまなダウンストリームアプリケーションに使用できる堅牢な表現をもたらすことができます。
分類、妊娠年齢推定、先天性心臓欠陥(CHD)検出、胎児構造のセグメンテーションなど、さまざまな胎児超音波アプリケーションにわたる広範なベンチマークでは、フェタルクリップはすべてのベースラインを上回り、限られたラベルデータを使用しても顕著な一般化性と強力なパフォーマンスを示しました。
より広範な科学コミュニティの利益のために、FetalClipモデルを公開する予定です。

要約(オリジナル)

Foundation models are becoming increasingly effective in the medical domain, offering pre-trained models on large datasets that can be readily adapted for downstream tasks. Despite progress, fetal ultrasound images remain a challenging domain for foundation models due to their inherent complexity, often requiring substantial additional training and facing limitations due to the scarcity of paired multimodal data. To overcome these challenges, here we introduce FetalCLIP, a vision-language foundation model capable of generating universal representation of fetal ultrasound images. FetalCLIP was pre-trained using a multimodal learning approach on a diverse dataset of 210,035 fetal ultrasound images paired with text. This represents the largest paired dataset of its kind used for foundation model development to date. This unique training approach allows FetalCLIP to effectively learn the intricate anatomical features present in fetal ultrasound images, resulting in robust representations that can be used for a variety of downstream applications. In extensive benchmarking across a range of key fetal ultrasound applications, including classification, gestational age estimation, congenital heart defect (CHD) detection, and fetal structure segmentation, FetalCLIP outperformed all baselines while demonstrating remarkable generalizability and strong performance even with limited labeled data. We plan to release the FetalCLIP model publicly for the benefit of the broader scientific community.

arxiv情報

著者 Fadillah Maani,Numan Saeed,Tausifa Saleem,Zaid Farooq,Hussain Alasmawi,Werner Diehl,Ameera Mohammad,Gareth Waring,Saudabi Valappi,Leanne Bricker,Mohammad Yaqub
発行日 2025-02-20 18:30:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | FetalCLIP: A Visual-Language Foundation Model for Fetal Ultrasound Image Analysis はコメントを受け付けていません