Meta ControlNet: Enhancing Task Adaptation via Meta Learning

要約

拡散ベースの画像合成は最近、広範囲にわたる注目を集めています。
特に、画像ベースのプロンプトを使用するControlNetは、Canny Edge Detectionなどの画像タスクに強力な機能を示し、これらのプロンプトと整合した画像を生成します。
ただし、Vanilla ControlNetは通常、単一のタスクに対して望ましい制御を実現するために、約5000ステップの広範なトレーニングが必要です。
最近のコンテキスト学習アプローチは、その適応性を改善しましたが、主にエッジベースのタスク用に、ペアの例に依存しています。
したがって、コントロールネットの可能性を最大限に発揮するために、2つの重要なオープンな問題にはまだ対処されていません:(i)特定のタスクのゼロショット制御と(ii)非エッジベースのタスクのより速い適応。
このホワイトペーパーでは、タスクに依存しないメタ学習手法を採用し、新しいレイヤーフリージングデザインを特徴とする新しいMeta Controlnetメソッドを紹介します。
メタコントロールネットは、5000から1000に制御能力を達成するための学習ステップを大幅に削減します。さらに、メタコントロールネットは、微調ューせずにエッジベースのタスクで直接ゼロショット適応性を示し、既存のすべての方法を上回る人間のポーズなどのより複雑な非エッジタスクで100個の微調整ステップでのみ制御を達成します。
コードはhttps://github.com/junjieyang97/meta-controlnetで入手できます。

要約(オリジナル)

Diffusion-based image synthesis has attracted extensive attention recently. In particular, ControlNet that uses image-based prompts exhibits powerful capability in image tasks such as canny edge detection and generates images well aligned with these prompts. However, vanilla ControlNet generally requires extensive training of around 5000 steps to achieve a desirable control for a single task. Recent context-learning approaches have improved its adaptability, but mainly for edge-based tasks, and rely on paired examples. Thus, two important open issues are yet to be addressed to reach the full potential of ControlNet: (i) zero-shot control for certain tasks and (ii) faster adaptation for non-edge-based tasks. In this paper, we introduce a novel Meta ControlNet method, which adopts the task-agnostic meta learning technique and features a new layer freezing design. Meta ControlNet significantly reduces learning steps to attain control ability from 5000 to 1000. Further, Meta ControlNet exhibits direct zero-shot adaptability in edge-based tasks without any finetuning, and achieves control within only 100 finetuning steps in more complex non-edge tasks such as Human Pose, outperforming all existing methods. The codes is available in https://github.com/JunjieYang97/Meta-ControlNet.

arxiv情報

著者 Junjie Yang,Jinze Zhao,Peihao Wang,Zhangyang Wang,Yingbin Liang
発行日 2025-04-02 16:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Meta ControlNet: Enhancing Task Adaptation via Meta Learning はコメントを受け付けていません

Is Temporal Prompting All We Need For Limited Labeled Action Recognition?

要約

ビデオの理解は、近年、顕著な改善を示しており、大規模な標識データセットの可用性に大きく依存しています。
視覚言語モデルの最近の進歩は、特に対照的な前oringに基づいて、ゼロショットタスクの顕著な一般化を示しており、ラベル付きデータセットへのこの依存を克服するのに役立ちます。
ビデオに対するこのようなモデルの適応は、通常、ビデオデータに応えるためにビジョン言語モデルのアーキテクチャを変更することを伴います。
ただし、このような適応はほとんど計算的に集中的であり、時間モデリングと闘っているため、これは些細なことではありません。
コアクリップアーキテクチャを変更せずに一時的な視覚プロンプトを活用するクリップの適応であるTP-Clipを提示します。
これにより、一般化能力が維持されます。
TP-Clipは、クリップアーキテクチャに効率的に統合され、ビデオデータの事前に訓練された機能を活用します。
さまざまなデータセットにわたる広範な実験は、ゼロショットと少数のショット学習での有効性を示し、パラメーターが少なく、計算効率を備えた既存のアプローチを上回ります。
特に、最近の最先端と比較して、1/3のGFLOPSと1/28の調整可能なパラメーターの数だけを使用し、タスクとデータセットに応じて最大15.8%上回ることがあります。

要約(オリジナル)

Video understanding has shown remarkable improvements in recent years, largely dependent on the availability of large scaled labeled datasets. Recent advancements in visual-language models, especially based on contrastive pretraining, have shown remarkable generalization in zero-shot tasks, helping to overcome this dependence on labeled datasets. Adaptations of such models for videos, typically involve modifying the architecture of vision-language models to cater to video data. However, this is not trivial, since such adaptations are mostly computationally intensive and struggle with temporal modeling. We present TP-CLIP, an adaptation of CLIP that leverages temporal visual prompting for temporal adaptation without modifying the core CLIP architecture. This preserves its generalization abilities. TP-CLIP efficiently integrates into the CLIP architecture, leveraging its pre-trained capabilities for video data. Extensive experiments across various datasets demonstrate its efficacy in zero-shot and few-shot learning, outperforming existing approaches with fewer parameters and computational efficiency. In particular, we use just 1/3 the GFLOPs and 1/28 the number of tuneable parameters in comparison to recent state-of-the-art and still outperform it by up to 15.8% depending on the task and dataset.

arxiv情報

著者 Shreyank N Gowda,Boyan Gao,Xiao Gu,Xiaobo Jin
発行日 2025-04-02 16:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Is Temporal Prompting All We Need For Limited Labeled Action Recognition? はコメントを受け付けていません

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness

要約

2D画像とビデオ用の大規模なマルチモーダルモデル(LMMS)の急速な開発により、これらのモデルを3Dシーンの解釈に適応させる努力が促進されました。
ただし、大規模な3Dビジョン言語データセットがないことは、重大な障害をもたらしました。
この問題に対処するために、典型的なアプローチは、3D入力レベルのシーン表現を設計することにより、3D認識を2D LMMに注入することに焦点を当てています。
この作業は新しい視点を提供します。
3D認識(Ross3D)を使用した再構築視覚命令の調整を紹介します。これは、3Dが認識している視覚的監督をトレーニング手順に統合します。
具体的には、クロスビューとグローバルビューの再構築が組み込まれています。
前者は、他のビューから重複した情報を集約することにより、マスクされたビューを再構築する必要があります。
後者の目的は、利用可能なすべてのビューから情報を集約して、鳥瞰図画像を回復し、シーン全体の包括的な概要に貢献することを目的としています。
経験的には、Ross3Dは、さまざまな3Dシーンの理解ベンチマークで最新のパフォーマンスを達成しています。
さらに重要なことは、私たちの半監督の実験は、大量の非標識3D視力のみのデータを活用する上で重要な可能性を示しています。

要約(オリジナル)

The rapid development of Large Multimodal Models (LMMs) for 2D images and videos has spurred efforts to adapt these models for interpreting 3D scenes. However, the absence of large-scale 3D vision-language datasets has posed a significant obstacle. To address this issue, typical approaches focus on injecting 3D awareness into 2D LMMs by designing 3D input-level scene representations. This work provides a new perspective. We introduce reconstructive visual instruction tuning with 3D-awareness (Ross3D), which integrates 3D-aware visual supervision into the training procedure. Specifically, it incorporates cross-view and global-view reconstruction. The former requires reconstructing masked views by aggregating overlapping information from other views. The latter aims to aggregate information from all available views to recover Bird’s-Eye-View images, contributing to a comprehensive overview of the entire scene. Empirically, Ross3D achieves state-of-the-art performance across various 3D scene understanding benchmarks. More importantly, our semi-supervised experiments demonstrate significant potential in leveraging large amounts of unlabeled 3D vision-only data.

arxiv情報

著者 Haochen Wang,Yucheng Zhao,Tiancai Wang,Haoqiang Fan,Xiangyu Zhang,Zhaoxiang Zhang
発行日 2025-04-02 16:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.RO | Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness はコメントを受け付けていません

Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

要約

物理的なAIシステムは、物理的な世界で複雑な行動を認識し、理解し、実行する必要があります。
この論文では、物理的な世界を理解し、長い考え方の推論プロセスを通じて自然言語で適切な具体化された決定(次のステップアクション)を生成できるCosmos-Reason1モデルを提示します。
まず、物理的常識と具体化された推論に焦点を当てて、物理的なAI推論の重要な機能を定義することから始めます。
物理的常識を表すために、空間、時間、物理学に関する基本的な知識を捉える階層的オントロジーを使用します。
具体化された推論のために、私たちは異なる物理的実施形態にわたって一般化する2次元オントロジーに依存しています。
これらの機能に基づいて、2つのマルチモーダル大型言語モデル、Cosmos-Reason1-8BとCosmos-Reason1-56Bを開発しています。
データをキュレートし、モデルを4つの段階で訓練します:視力前訓練、一般的な監視施設微調整(SFT)、物理的AI SFT、および物理AI補強学習(RL)。
モデルを評価するために、物理的常識のための包括的なベンチマークを構築し、オントロジーに従って推論を具体化します。
評価の結果は、物理的なAI SFTと強化学習が大幅に改善されることを示しています。
物理AIの開発を容易にするために、https://github.com/nvidia-cosmos/cosmos-reason1のNVIDIAオープンモデルライセンスの下で、コードと事前訓練を受けたモデルを利用可能にします。

要約(オリジナル)

Physical AI systems need to perceive, understand, and perform complex actions in the physical world. In this paper, we present the Cosmos-Reason1 models that can understand the physical world and generate appropriate embodied decisions (e.g., next step action) in natural language through long chain-of-thought reasoning processes. We begin by defining key capabilities for Physical AI reasoning, with a focus on physical common sense and embodied reasoning. To represent physical common sense, we use a hierarchical ontology that captures fundamental knowledge about space, time, and physics. For embodied reasoning, we rely on a two-dimensional ontology that generalizes across different physical embodiments. Building on these capabilities, we develop two multimodal large language models, Cosmos-Reason1-8B and Cosmos-Reason1-56B. We curate data and train our models in four stages: vision pre-training, general supervised fine-tuning (SFT), Physical AI SFT, and Physical AI reinforcement learning (RL) as the post-training. To evaluate our models, we build comprehensive benchmarks for physical common sense and embodied reasoning according to our ontologies. Evaluation results show that Physical AI SFT and reinforcement learning bring significant improvements. To facilitate the development of Physical AI, we will make our code and pre-trained models available under the NVIDIA Open Model License at https://github.com/nvidia-cosmos/cosmos-reason1.

arxiv情報

著者 NVIDIA,:,Alisson Azzolini,Hannah Brandon,Prithvijit Chattopadhyay,Huayu Chen,Jinju Chu,Yin Cui,Jenna Diamond,Yifan Ding,Francesco Ferroni,Rama Govindaraju,Jinwei Gu,Siddharth Gururani,Imad El Hanafi,Zekun Hao,Jacob Huffman,Jingyi Jin,Brendan Johnson,Rizwan Khan,George Kurian,Elena Lantz,Nayeon Lee,Zhaoshuo Li,Xuan Li,Tsung-Yi Lin,Yen-Chen Lin,Ming-Yu Liu,Alice Luo,Andrew Mathau,Yun Ni,Lindsey Pavao,Wei Ping,David W. Romero,Misha Smelyanskiy,Shuran Song,Lyne Tchapmi,Andrew Z. Wang,Boxin Wang,Haoxiang Wang,Fangyin Wei,Jiashu Xu,Yao Xu,Xiaodong Yang,Zhuolin Yang,Xiaohui Zeng,Zhe Zhang
発行日 2025-04-02 17:11:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning はコメントを受け付けていません

FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs

要約

先駆的なビジョン言語モデルとして、Clip(コントラスト言語イメージのプリトレーニング)は、さまざまなドメインと幅広い下流の視覚言語タスクで大幅に成功しています。
ただし、人気のあるクリップモデルのテキストエンコーダーは、77のテキストトークンのみの処理に限定されているため、詳細が豊富なキャプションが長く効果的に処理する能力が制約されます。
さらに、クリップモデルは、詳細な視覚情報とテキスト情報を効果的にキャプチャするのに苦労することがよくあります。これにより、細粒分析が必要なタスクでパフォーマンスが妨げられます。
これらの制限に対処するために、クリップの機能を拡張する新しいアプローチ\ textbf {finelip}を提示します。
Finelipは、\ textBf {fine} grainedアラインメントを組み込むことにより、クロスモーダルテキストイメージマッピングを強化します。
Finelipは、最初に位置埋め込みを拡張して長いテキストを処理し、その後、ローカル画像とテキストトークンの動的集約が続きます。
その後、集約された結果を使用して、細粒のトークンからトークンへのクロスモーダルアライメントを実施します。
データセット上のモデルを検証し、2つのタスクにわたって長く詳細なキャプションを使用します:ゼロショットクロスモーダル検索とテキストから画像の生成。
定量的および定性的な実験結果は、既存の最先端のアプローチを上回るFinelIPの有効性を示しています。
さらに、包括的なアブレーション研究は、FinelIP内の主要な設計要素の利点を検証します。

要約(オリジナル)

As a pioneering vision-language model, CLIP (Contrastive Language-Image Pre-training) has achieved significant success across various domains and a wide range of downstream vision-language tasks. However, the text encoders in popular CLIP models are limited to processing only 77 text tokens, which constrains their ability to effectively handle longer, detail-rich captions. Additionally, CLIP models often struggle to effectively capture detailed visual and textual information, which hampers their performance on tasks that require fine-grained analysis. To address these limitations, we present a novel approach, \textbf{FineLIP}, that extends the capabilities of CLIP. FineLIP enhances cross-modal text-image mapping by incorporating \textbf{Fine}-grained alignment with \textbf{L}onger text input within the CL\textbf{IP}-style framework. FineLIP first extends the positional embeddings to handle longer text, followed by the dynamic aggregation of local image and text tokens. The aggregated results are then used to enforce fine-grained token-to-token cross-modal alignment. We validate our model on datasets with long, detailed captions across two tasks: zero-shot cross-modal retrieval and text-to-image generation. Quantitative and qualitative experimental results demonstrate the effectiveness of FineLIP, outperforming existing state-of-the-art approaches. Furthermore, comprehensive ablation studies validate the benefits of key design elements within FineLIP.

arxiv情報

著者 Mothilal Asokan,Kebin Wu,Fatima Albreiki
発行日 2025-04-02 17:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | FineLIP: Extending CLIP’s Reach via Fine-Grained Alignment with Longer Text Inputs はコメントを受け付けていません

Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time

要約

拡散磁気共鳴イメージング(DMRI)を使用した脳微細構造の早期かつ正確な評価は、新生児の神経発達障害を特定するために重要ですが、低いシグナルと雑音比(SNR)、モーションアーティファクト、および継続的な髄膜形成のために困難なままです。
この研究では、新生児DMRIに合わせて調整された回転等式球状畳み込みニューラルネットワーク(SCNN)フレームワークを提案します。
グラデーション方向のセット(完全なプロトコルの30%)で取得されたマルチシェルDMRI信号からファイバー方向分布(FOD)を予測し、より速く、より費用対効果の高い取得を可能にします。
発展途上のHuman Connectomeプロジェクト(DHCP)が提供する43の新生児DMRIデータセットの実際のデータを使用して、SCNNのパフォーマンスをトレーニングおよび評価します。
我々の結果は、SCNNがマルチレイヤーパーセプトロン(MLP)ベースラインと比較して、平均二乗誤差(MSE)およびより高い角度相関係数(ACC)を達成することを示しており、FOD推定の精度が改善されたことを示しています。
さらに、SCNN予測FODに基づくトラクトグラフィーの結果では、MLPのものと比較して、解剖学的妥当性、カバレッジ、およびコヒーレンスが改善されています。
これらの調査結果は、SCNNが固有の回転等拡大により、正確で臨床的に効率的なDMRI分析のための有望なアプローチを提供し、診断能力の改善と初期の脳発達の特性評価のための道を開くことを強調しています。

要約(オリジナル)

Early and accurate assessment of brain microstructure using diffusion Magnetic Resonance Imaging (dMRI) is crucial for identifying neurodevelopmental disorders in neonates, but remains challenging due to low signal-to-noise ratio (SNR), motion artifacts, and ongoing myelination. In this study, we propose a rotationally equivariant Spherical Convolutional Neural Network (sCNN) framework tailored for neonatal dMRI. We predict the Fiber Orientation Distribution (FOD) from multi-shell dMRI signals acquired with a reduced set of gradient directions (30% of the full protocol), enabling faster and more cost-effective acquisitions. We train and evaluate the performance of our sCNN using real data from 43 neonatal dMRI datasets provided by the Developing Human Connectome Project (dHCP). Our results demonstrate that the sCNN achieves significantly lower mean squared error (MSE) and higher angular correlation coefficient (ACC) compared to a Multi-Layer Perceptron (MLP) baseline, indicating improved accuracy in FOD estimation. Furthermore, tractography results based on the sCNN-predicted FODs show improved anatomical plausibility, coverage, and coherence compared to those from the MLP. These findings highlight that sCNNs, with their inherent rotational equivariance, offer a promising approach for accurate and clinically efficient dMRI analysis, paving the way for improved diagnostic capabilities and characterization of early brain development.

arxiv情報

著者 Haykel Snoussi,Davood Karimi
発行日 2025-04-02 17:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Equivariant Spherical CNNs for Accurate Fiber Orientation Distribution Estimation in Neonatal Diffusion MRI with Reduced Acquisition Time はコメントを受け付けていません

ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement

要約

デュアルビジュアルトークン化と拡散デコーダーを活用して、深いセマンティック理解と高忠実度の画像生成の両方を改善するIllume+を提示します。
既存の統一モデルは、理解、生成、編集という統一モデルの3つの基本的な機能を同時に処理するのに苦労しています。
ChameleonやEMU3などのモデルは、深い意味論的相互作用がないため、画像離散化にVQGANを利用しているため、視覚的な理解タスクにLlavaのような専門モデルに遅れをとっています。
これを緩和するために、LavitとIllumeはトークン化にセマンティックエンコーダーを採用していますが、テクスチャの保存が不十分なため、画像編集に苦労しています。
一方、Janusシリーズは入力と出力の画像表現を分離し、インターリーブの画像テキストの理解と生成をシームレスに処理する能力を制限します。
対照的に、Illume+は、マルチモーダルの理解と生成のための粗からファインへの画像表現戦略を可能にしながら、きめ細かいテクスチャとテキスト整列セマンティクスの両方を保持する統一されたデュアル視覚トークナイザーDualvitokを導入します。
さらに、発電の品質と効率的な超解像度を高めるための画像デモン剤として拡散モデルを採用しています。
Illume+は、統一されたMLLM内の連続入力の離散出力スキームに従い、視力トークネザー、MLLM、および拡散デコーダー全体の動的解像度をサポートするプログレッシブトレーニング手順を採用します。
この設計により、柔軟で効率的なコンテキストを意識した画像編集と、多様なタスク全体の生成が可能になります。
Illume+(3B)は、マルチモーダルの理解、生成、および編集ベンチマーク全体で、既存の統一されたMLLMと特殊なモデルに対して競争力のあるパフォーマンスを示します。
Illume+は、その強力なパフォーマンスにより、将来のマルチモーダルアプリケーションのためのスケーラブルで多用途の基盤を提供します。
プロジェクトページ:https://illume-unified-mllm.github.io/。

要約(オリジナル)

We present ILLUME+ that leverages dual visual tokenization and a diffusion decoder to improve both deep semantic understanding and high-fidelity image generation. Existing unified models have struggled to simultaneously handle the three fundamental capabilities in a unified model: understanding, generation, and editing. Models like Chameleon and EMU3 utilize VQGAN for image discretization, due to the lack of deep semantic interaction, they lag behind specialist models like LLaVA in visual understanding tasks. To mitigate this, LaViT and ILLUME employ semantic encoders for tokenization, but they struggle with image editing due to poor texture preservation. Meanwhile, Janus series decouples the input and output image representation, limiting their abilities to seamlessly handle interleaved image-text understanding and generation. In contrast, ILLUME+ introduces a unified dual visual tokenizer, DualViTok, which preserves both fine-grained textures and text-aligned semantics while enabling a coarse-to-fine image representation strategy for multimodal understanding and generation. Additionally, we employ a diffusion model as the image detokenizer for enhanced generation quality and efficient super-resolution. ILLUME+ follows a continuous-input, discrete-output scheme within the unified MLLM and adopts a progressive training procedure that supports dynamic resolution across the vision tokenizer, MLLM, and diffusion decoder. This design allows for flexible and efficient context-aware image editing and generation across diverse tasks. ILLUME+ (3B) exhibits competitive performance against existing unified MLLMs and specialized models across multimodal understanding, generation, and editing benchmarks. With its strong performance, ILLUME+ provides a scalable and versatile foundation for future multimodal applications. Project Page: https://illume-unified-mllm.github.io/.

arxiv情報

著者 Runhui Huang,Chunwei Wang,Junwei Yang,Guansong Lu,Yunlong Yuan,Jianhua Han,Lu Hou,Wei Zhang,Lanqing Hong,Hengshuang Zhao,Hang Xu
発行日 2025-04-02 17:45:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement はコメントを受け付けていません

End-to-End Driving with Online Trajectory Evaluation via BEV World Model

要約

エンドツーエンドの自律運転は、認識、予測、および計画を完全に微分可能なフレームワークに統合することにより、顕著な進歩を達成しました。
しかし、その可能性を完全に実現するために、安全性を確保するために効果的なオンライン軌道評価は不可欠です。
特定の軌跡の将来の結果を予測することにより、軌道評価がはるかに効果的になります。
この目標は、環境ダイナミクスを捉え、将来の状態を予測するために世界モデルを採用することで達成できます。
したがって、軌道評価のために将来のBEV状態を予測するためにBEVの世界モデルを活用するエンドツーエンドの運転フレームワークWOTEを提案します。
提案されているBEVワールドモデルは、画像レベルの世界モデルと比較して遅延効率が高く、既製のBEVスペーストラフィックシミュレーターを使用してシームレスに監視できます。
NAVSIMベンチマークとCarla Simulatorに基づいた閉ループベンチ2Driveベンチマークの両方でフレームワークを検証し、最先端のパフォーマンスを実現します。
コードはhttps://github.com/liyyanucas/woteでリリースされます。

要約(オリジナル)

End-to-end autonomous driving has achieved remarkable progress by integrating perception, prediction, and planning into a fully differentiable framework. Yet, to fully realize its potential, an effective online trajectory evaluation is indispensable to ensure safety. By forecasting the future outcomes of a given trajectory, trajectory evaluation becomes much more effective. This goal can be achieved by employing a world model to capture environmental dynamics and predict future states. Therefore, we propose an end-to-end driving framework WoTE, which leverages a BEV World model to predict future BEV states for Trajectory Evaluation. The proposed BEV world model is latency-efficient compared to image-level world models and can be seamlessly supervised using off-the-shelf BEV-space traffic simulators. We validate our framework on both the NAVSIM benchmark and the closed-loop Bench2Drive benchmark based on the CARLA simulator, achieving state-of-the-art performance. Code is released at https://github.com/liyingyanUCAS/WoTE.

arxiv情報

著者 Yingyan Li,Yuqi Wang,Yang Liu,Jiawei He,Lue Fan,Zhaoxiang Zhang
発行日 2025-04-02 17:47:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | End-to-End Driving with Online Trajectory Evaluation via BEV World Model はコメントを受け付けていません

Image Difference Grounding with Natural Language

要約

視覚的接地(VG)は通常、自然言語を使用して画像内の関心領域を見つけることに焦点を当てており、ほとんどの既存のVGメソッドは単一イメージの解釈に限定されています。
これにより、複数の画像間で微妙でありながら意味のある視覚的な違いを検出することが非常に重要である自動監視など、実際のシナリオでの適用性が制限されます。
その上、画像の違い理解に関する以前の研究(IDU)は、モーダルのテキストガイダンスなしですべての変更領域を検出するか、違いの粗粒の説明を提供することに焦点を当てています。
したがって、より細かい粒度のビジョン言語知覚に向けて、ユーザーの指示に基づいて視覚的な違いを正確にローカライズするように設計されたタスクである画像差グラウンド(IDG)を提案します。
IDG用の大規模で高品質のデータセットであるDiffgroundを紹介します。これは、さまざまな視覚的変動を備えた画像ペアを含み、微調整された違いをクエリする手順を紹介します。
また、IDGのベースラインモデルであるDifftrackerを提示します。これは、特徴の微分強化と共通の抑制を効果的に統合して、違いを正確に見つけます。
Diffgroundデータセットでの実験では、細かい粒子のIDUを有効にする際のIDGデータセットの重要性を強調しています。
将来の研究を促進するために、DiffgroundデータとDifftrackerモデルの両方が公開されます。

要約(オリジナル)

Visual grounding (VG) typically focuses on locating regions of interest within an image using natural language, and most existing VG methods are limited to single-image interpretations. This limits their applicability in real-world scenarios like automatic surveillance, where detecting subtle but meaningful visual differences across multiple images is crucial. Besides, previous work on image difference understanding (IDU) has either focused on detecting all change regions without cross-modal text guidance, or on providing coarse-grained descriptions of differences. Therefore, to push towards finer-grained vision-language perception, we propose Image Difference Grounding (IDG), a task designed to precisely localize visual differences based on user instructions. We introduce DiffGround, a large-scale and high-quality dataset for IDG, containing image pairs with diverse visual variations along with instructions querying fine-grained differences. Besides, we present a baseline model for IDG, DiffTracker, which effectively integrates feature differential enhancement and common suppression to precisely locate differences. Experiments on the DiffGround dataset highlight the importance of our IDG dataset in enabling finer-grained IDU. To foster future research, both DiffGround data and DiffTracker model will be publicly released.

arxiv情報

著者 Wenxuan Wang,Zijia Zhao,Yisi Zhang,Yepeng Tang,Erdong Hu,Xinlong Wang,Jing Liu
発行日 2025-04-02 17:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Image Difference Grounding with Natural Language はコメントを受け付けていません

Deep Representation Learning for Unsupervised Clustering of Myocardial Fiber Trajectories in Cardiac Diffusion Tensor Imaging

要約

複雑な心筋アーキテクチャを理解することは、心臓病の診断と治療に不可欠です。
ただし、既存の方法は、特にグラウンドトゥルースラベルの欠如と繊維の軌跡の曖昧で絡み合った性質のために、拡散テンソルイメージング(DTI)データからこの複雑な構造を正確にキャプチャするのに苦労しています。
心筋繊維の監視なしクラスタリングのための新しい深い学習フレームワークを提示し、異なる繊維バンドルを識別するためのデータ駆動型アプローチを提供します。
双方向の長期メモリネットワークを独自に組み合わせて、繊維に沿ったローカルシーケンシャル情報をキャプチャし、変圧器の自動エンコーダーをキャプチャしてグローバルな形状の特徴を学習し、本質的な解剖学的コンテキストをポイントごとに組み込みます。
密度ベースのアルゴリズムを使用してこれらの表現をクラスタリングすると、33〜62の堅牢なクラスターが識別され、さまざまなレベルの粒度を持つ繊維軌道の微妙な区別を正常にキャプチャします。
私たちのフレームワークは、心筋構造を分析するための新しい柔軟で定量的な方法を提供し、私たちの知る限り、以前に達成されていないレベルの描写を実現し、外科的計画の改善、疾患関連のリモデリングの特徴、そして最終的にはパーソナライズされた心臓ケアを前進させる潜在的なアプリケーションを提供します。

要約(オリジナル)

Understanding the complex myocardial architecture is critical for diagnosing and treating heart disease. However, existing methods often struggle to accurately capture this intricate structure from Diffusion Tensor Imaging (DTI) data, particularly due to the lack of ground truth labels and the ambiguous, intertwined nature of fiber trajectories. We present a novel deep learning framework for unsupervised clustering of myocardial fibers, providing a data-driven approach to identifying distinct fiber bundles. We uniquely combine a Bidirectional Long Short-Term Memory network to capture local sequential information along fibers, with a Transformer autoencoder to learn global shape features, with pointwise incorporation of essential anatomical context. Clustering these representations using a density-based algorithm identifies 33 to 62 robust clusters, successfully capturing the subtle distinctions in fiber trajectories with varying levels of granularity. Our framework offers a new, flexible, and quantitative way to analyze myocardial structure, achieving a level of delineation that, to our knowledge, has not been previously achieved, with potential applications in improving surgical planning, characterizing disease-related remodeling, and ultimately, advancing personalized cardiac care.

arxiv情報

著者 Mohini Anand,Xavier Tricoche
発行日 2025-04-02 17:56:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Deep Representation Learning for Unsupervised Clustering of Myocardial Fiber Trajectories in Cardiac Diffusion Tensor Imaging はコメントを受け付けていません