Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization

要約

高密度ローカリゼーションの視聴覚イベント(Dave)は、イベントがさまざまな期間を採用して示す可能性のある長いビデオで聞こえると見えるイベントの時間境界と対応するカテゴリを特定することを目的としています。
ただし、複雑な視聴覚シーンには、多くの場合、モダリティ間の非同期化が含まれ、正確なローカリゼーションが困難になります。
既存のDave Solutionsは、Unimodalエンコーダーを介してオーディオと視覚の機能を抽出し、密なクロスモーダル相互作用を介してそれらを融合します。
ただし、独立した単峰性エンコーディングは、モーダルのガイダンスなしでモダリティ間の共有セマンティクスを強調するのに苦労していますが、密集したクロスモーダルの注意は、意味的に無関係な視聴覚機能に過剰に加入する可能性があります。
これらの問題に対処するために、Daveの地域に対応するクロスモーダル通信学習フレームワークであるLocoを提示します。
Locoは、視聴覚イベントの局所的な時間的連続性を、無関係なクロスモーダル信号をフィルタリングし、非モーダルエンコーディング段階とクロスモーダルエンコーディング段階の両方でクロスモーダルアライメントを強化するための重要なガイダンスとして活用します。
i)具体的には、Locoはローカル対応機能(LCF)変調を適用して、ローカルクロスモーダルコヒーレンスに基づいてオーディオと視覚機能の間の一致を変調することにより、モダリティ共有セマンティクスに焦点を当てるためにユニモーダルエンコーダを実施します。
ii)クロスモーダルに関連する機能を改善するために、データ駆動型の方法で注意領域を動的に調整するローカルアダプティブクロスモーダル(LAC)インタラクションをさらにカスタマイズします。
この適応メカニズムは、地元のイベントの境界に注意を向け、さまざまなイベントの持続時間に対応します。
LCFとLACを組み込むことにより、Locoは堅実なパフォーマンスの向上を提供し、既存のDaveメソッドを上回ります。

要約(オリジナル)

Dense-localization Audio-Visual Events (DAVE) aims to identify time boundaries and corresponding categories for events that are both audible and visible in a long video, where events may co-occur and exhibit varying durations. However, complex audio-visual scenes often involve asynchronization between modalities, making accurate localization challenging. Existing DAVE solutions extract audio and visual features through unimodal encoders, and fuse them via dense cross-modal interaction. However, independent unimodal encoding struggles to emphasize shared semantics between modalities without cross-modal guidance, while dense cross-modal attention may over-attend to semantically unrelated audio-visual features. To address these problems, we present LoCo, a Locality-aware cross-modal Correspondence learning framework for DAVE. LoCo leverages the local temporal continuity of audio-visual events as important guidance to filter irrelevant cross-modal signals and enhance cross-modal alignment throughout both unimodal and cross-modal encoding stages. i) Specifically, LoCo applies Local Correspondence Feature (LCF) Modulation to enforce unimodal encoders to focus on modality-shared semantics by modulating agreement between audio and visual features based on local cross-modal coherence. ii) To better aggregate cross-modal relevant features, we further customize Local Adaptive Cross-modal (LAC) Interaction, which dynamically adjusts attention regions in a data-driven manner. This adaptive mechanism focuses attention on local event boundaries and accommodates varying event durations. By incorporating LCF and LAC, LoCo provides solid performance gains and outperforms existing DAVE methods.

arxiv情報

著者 Ling Xing,Hongyu Qu,Rui Yan,Xiangbo Shu,Jinhui Tang
発行日 2025-05-09 12:14:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization はコメントを受け付けていません

Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition

要約

大規模な事前に訓練されたモデルは、言語および画像タスクで顕著な成功を収めており、少数のショットアクション認識(FSAR)のドメインでのクリップなどの事前に訓練された画像モデルの適用を調査するために、ますます多くの研究を導きます。
ただし、現在の方法は一般にいくつかの問題に悩まされています。1)直接的な微調整は、多くの場合、事前に訓練されたモデルの一般化能力を損なうことがよくあります。
2)視覚タスクでは、タスク固有の情報の調査には不十分です。
3)セマンティック注文情報は、通常、テキストモデリング中に見落とされがちです。
4)既存のクロスモーダルアライメント手法は、マルチモーダル情報の時間的結合を無視します。
これらに対処するために、画像エンコーダーとテキストエンコーダーの両方のパラメーター効率の高いデュアル適応方法であるタスクアダプター++を提案します。
具体的には、さまざまな少ないショット学習タスクでバリエーションを最大限に活用するために、機能抽出中に最も差別的な情報がよく見られるように、画像エンコーダーのタスク固有の適応を設計します。
さらに、大規模な言語モデル(LLMS)を活用して、各アクションクラスの詳細なシーケンシャルサブアクション説明を生成し、セマンティックオーダーアダプターをテキストエンコーダに導入して、これらのサブアクション間の順次関係を効果的にモデル化します。
最後に、セマンティックな説明と同じ時間段階に存在するように視覚的な機能を積極的にマップする革新的な微調整されたクロスモーダルアライメント戦略を開発します。
広範な実験は、提案された方法の有効性と優位性を完全に実証し、5つのベンチマークで一貫して最先端のパフォーマンスを達成します。
このコードは、https://github.com/jaulin-bage/task-adapter-ppでオープンソーシングされています。

要約(オリジナル)

Large-scale pre-trained models have achieved remarkable success in language and image tasks, leading an increasing number of studies to explore the application of pre-trained image models, such as CLIP, in the domain of few-shot action recognition (FSAR). However, current methods generally suffer from several problems: 1) Direct fine-tuning often undermines the generalization capability of the pre-trained model; 2) The exploration of task-specific information is insufficient in the visual tasks; 3) The semantic order information is typically overlooked during text modeling; 4) Existing cross-modal alignment techniques ignore the temporal coupling of multimodal information. To address these, we propose Task-Adapter++, a parameter-efficient dual adaptation method for both image and text encoders. Specifically, to make full use of the variations across different few-shot learning tasks, we design a task-specific adaptation for the image encoder so that the most discriminative information can be well noticed during feature extraction. Furthermore, we leverage large language models (LLMs) to generate detailed sequential sub-action descriptions for each action class, and introduce semantic order adapters into the text encoder to effectively model the sequential relationships between these sub-actions. Finally, we develop an innovative fine-grained cross-modal alignment strategy that actively maps visual features to reside in the same temporal stage as semantic descriptions. Extensive experiments fully demonstrate the effectiveness and superiority of the proposed method, which achieves state-of-the-art performance on 5 benchmarks consistently. The code is open-sourced at https://github.com/Jaulin-Bage/Task-Adapter-pp.

arxiv情報

著者 Congqi Cao,Peiheng Han,Yueran zhang,Yating Yu,Qinyi Lv,Lingtong Min,Yanning zhang
発行日 2025-05-09 12:34:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Task-Adapter++: Task-specific Adaptation with Order-aware Alignment for Few-shot Action Recognition はコメントを受け付けていません

From Pixels to Perception: Interpretable Predictions via Instance-wise Grouped Feature Selection

要約

機械学習モデルの意思決定プロセスを理解することで、モデルの障害の背後にあるタスク、データ、および理由に関する貴重な洞察が得られます。
この作業では、入力画像のインスタンスごとのスパース化を通じて本質的に解釈可能な予測を実行する方法を提案します。
人間の知覚とスパース化を揃えるために、ピクセルレベルではなく、意味的に意味のあるピクセル領域の空間でマスキングを学びます。
さらに、各インスタンスに必要なスパース性を動的に決定する明示的な方法を紹介します。
私たちは、本質的に解釈可能な分類器が最先端のベンチマークよりも有意義で人間的に理解しやすい予測を生成することを、半合成および自然な画像データセットについて経験的に示します。

要約(オリジナル)

Understanding the decision-making process of machine learning models provides valuable insights into the task, the data, and the reasons behind a model’s failures. In this work, we propose a method that performs inherently interpretable predictions through the instance-wise sparsification of input images. To align the sparsification with human perception, we learn the masking in the space of semantically meaningful pixel regions rather than on pixel-level. Additionally, we introduce an explicit way to dynamically determine the required level of sparsity for each instance. We show empirically on semi-synthetic and natural image datasets that our inherently interpretable classifier produces more meaningful, human-understandable predictions than state-of-the-art benchmarks.

arxiv情報

著者 Moritz Vandenhirtz,Julia E. Vogt
発行日 2025-05-09 12:34:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | From Pixels to Perception: Interpretable Predictions via Instance-wise Grouped Feature Selection はコメントを受け付けていません

ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding

要約

視覚芸術を理解するには、文化的、歴史的、文体的な文化的、文体的な認識を超えて、複数の視点にわたる推論が必要です。
最近のマルチモーダル大手言語モデル(MLLM)は一般的な画像キャプションでうまく機能しますが、多くの場合、ファインアートが要求する微妙な解釈をキャプチャできません。
構造化された知識と検索された生成(RAG)を複数のアートワークの説明と組み合わせた斬新でトレーニングフリーのフレームワークであるArtRagを提案します。
ARTRAGは、ドメイン固有のテキストソースからアートコンテキストナレッジグラフ(ACKG)を自動的に構築し、アーティスト、動き、テーマ、歴史的イベントなどのエンティティを豊かで解釈可能なグラフに組織します。
推論時に、多粒構造レトリバーは、生成を導くために意味的かつトポロジー的に関連するサブグラフを選択します。
これにより、MLLMは文脈的に根拠のある文化的に情報に基づいた芸術の説明を作成できます。
SemartおよびArtpediaデータセットの実験では、Artragがいくつかの重く訓練されたベースラインを上回ることが示されています。
人間の評価は、アートラグが一貫性のある、洞察力に富み、文化的に豊かな解釈を生成することをさらに確認します。

要約(オリジナル)

Understanding visual art requires reasoning across multiple perspectives — cultural, historical, and stylistic — beyond mere object recognition. While recent multimodal large language models (MLLMs) perform well on general image captioning, they often fail to capture the nuanced interpretations that fine art demands. We propose ArtRAG, a novel, training-free framework that combines structured knowledge with retrieval-augmented generation (RAG) for multi-perspective artwork explanation. ArtRAG automatically constructs an Art Context Knowledge Graph (ACKG) from domain-specific textual sources, organizing entities such as artists, movements, themes, and historical events into a rich, interpretable graph. At inference time, a multi-granular structured retriever selects semantically and topologically relevant subgraphs to guide generation. This enables MLLMs to produce contextually grounded, culturally informed art descriptions. Experiments on the SemArt and Artpedia datasets show that ArtRAG outperforms several heavily trained baselines. Human evaluations further confirm that ArtRAG generates coherent, insightful, and culturally enriched interpretations.

arxiv情報

著者 Shuai Wang,Ivona Najdenkoska,Hongyi Zhu,Stevan Rudinac,Monika Kackovic,Nachoem Wijnberg,Marcel Worring
発行日 2025-05-09 13:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding はコメントを受け付けていません

Why Are You Wrong? Counterfactual Explanations for Language Grounding with 3D Objects

要約

自然言語と幾何学的形状を組み合わせることは、ロボット工学と言語支援設計に複数のアプリケーションを備えた新興の研究分野です。
このドメインの重要なタスクは、ターゲットのテキストの説明が与えられた3Dオブジェクトの選択を含むオブジェクト参照識別です。
言語の説明と3Dオブジェクトの空間的関係の変動は、これを複雑なタスクにし、このドメインのニューラルネットワークモデルの挙動をよりよく理解する必要性を高めます。
ただし、この分野では限られた研究が行われています。
具体的には、モデルが一見正しいオブジェクトの説明を提供されているにもかかわらず、誤った予測を行うと、実践者は「なぜモデルが間違っているのか」と疑問に思っています。
この作業では、反事実的な例を生成することにより、この質問に答える方法を提示します。
私たちの方法は、2つのオブジェクトとテキストの説明を含む誤分類サンプルを採用し、モデルによる正しい予測をもたらす代替であるが同様の定式化を生成します。
3つの異なるモデルとともに、Shapetalkデータセットのデータを使用してアプローチを評価しました。
私たちの反事実的な例は、元の説明の構造を維持し、意味的に似ており、意味があります。
それらは、説明、モデルバイアスの弱点を明らかにし、モデルの動作の理解を高めます。
これらの洞察は、開業医がシステムやエンジニアとの対話をよりよくやり取りするのに役立ち、モデルを改善します。

要約(オリジナル)

Combining natural language and geometric shapes is an emerging research area with multiple applications in robotics and language-assisted design. A crucial task in this domain is object referent identification, which involves selecting a 3D object given a textual description of the target. Variability in language descriptions and spatial relationships of 3D objects makes this a complex task, increasing the need to better understand the behavior of neural network models in this domain. However, limited research has been conducted in this area. Specifically, when a model makes an incorrect prediction despite being provided with a seemingly correct object description, practitioners are left wondering: ‘Why is the model wrong?’. In this work, we present a method answering this question by generating counterfactual examples. Our method takes a misclassified sample, which includes two objects and a text description, and generates an alternative yet similar formulation that would have resulted in a correct prediction by the model. We have evaluated our approach with data from the ShapeTalk dataset along with three distinct models. Our counterfactual examples maintain the structure of the original description, are semantically similar and meaningful. They reveal weaknesses in the description, model bias and enhance the understanding of the models behavior. Theses insights help practitioners to better interact with systems as well as engineers to improve models.

arxiv情報

著者 Tobias Preintner,Weixuan Yuan,Qi Huang,Adrian König,Thomas Bäck,Elena Raponi,Niki van Stein
発行日 2025-05-09 13:24:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Why Are You Wrong? Counterfactual Explanations for Language Grounding with 3D Objects はコメントを受け付けていません

Structure-preserving contrastive learning for spatial time series

要約

ニューラルネットワークモデルの有効性は、情報から有意義な潜在パターンを学習することに大きく依存しています。そこでは、有益な表現の自己監視学習がモデルのパフォーマンスと一般化可能性を高めることができます。
しかし、輸送ドメインで遍在する空間的に特徴付けられた時系列の自己監視表現学習は、潜在的な空間的類似性を維持する必要性のために独自の課題を提起します。
この研究では、空間時系列の対照的な学習のために2つの構造を提供する正規の常連客を紹介します。1つの正規の統一者は、インスタンス間の類似性のトポロジーを保持し、もう1つは空間的および時間的次元間の類似性のグラフジオメトリを保持します。
対照的な学習目標と構造保存の必要性のバランスをとるために、このトレードオフを適応的に管理し、トレーニングを安定させる動的な重み付けメカニズムを提案します。
多変量時系列分類を含む広範な実験を通じて提案された方法を検証し、その一般的な適用性を実証するだけでなく、巨視的および微視的なトラフィック予測を実証して、トラフィックの相互作用をエンコードする際の特定の有用性を強調します。
すべてのタスクにわたって、当社のメソッドは類似性構造をより効果的に保存し、最先端のタスクパフォ​​ーマンスを向上させます。
この方法は、任意のニューラルネットワークモデルと統合でき、空間的または地理的特徴を備えた時系列データに特に有益です。
さらに、我々の調査結果は、潜在空間のよく保存された類似性構造が、より有益で有用な表現を示すことを示唆しています。
これは、データ駆動型の輸送研究のためのより効果的なニューラルネットワークを設計するための洞察を提供します。
私たちのコードは、https://github.com/yiru-jiao/spcltで結果のすべてのデータで公然とアクセス可能になります

要約(オリジナル)

The effectiveness of neural network models largely relies on learning meaningful latent patterns from data, where self-supervised learning of informative representations can enhance model performance and generalisability. However, self-supervised representation learning for spatially characterised time series, which are ubiquitous in transportation domain, poses unique challenges due to the necessity of maintaining fine-grained spatio-temporal similarities in the latent space. In this study, we introduce two structure-preserving regularisers for the contrastive learning of spatial time series: one regulariser preserves the topology of similarities between instances, and the other preserves the graph geometry of similarities across spatial and temporal dimensions. To balance the contrastive learning objective and the need for structure preservation, we propose a dynamic weighting mechanism that adaptively manages this trade-off and stabilises training. We validate the proposed method through extensive experiments, including multivariate time series classification to demonstrate its general applicability, as well as macroscopic and microscopic traffic prediction to highlight its particular usefulness in encoding traffic interactions. Across all tasks, our method preserves the similarity structures more effectively and improves state-of-the-art task performances. This method can be integrated with an arbitrary neural network model and is particularly beneficial for time series data with spatial or geographical features. Furthermore, our findings suggest that well-preserved similarity structures in the latent space indicate more informative and useful representations. This provides insights to design more effective neural networks for data-driven transportation research. Our code is made openly accessible with all resulting data at https://github.com/yiru-jiao/spclt

arxiv情報

著者 Yiru Jiao,Sander van Cranenburgh,Simeon Calvert,Hans van Lint
発行日 2025-05-09 13:26:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Structure-preserving contrastive learning for spatial time series はコメントを受け付けていません

Document Image Rectification Bases on Self-Adaptive Multitask Fusion

要約

変形したドキュメント画像修正は、レイアウト分析やテキスト認識などの現実世界のドキュメントを理解するために不可欠です。
ただし、バックグラウンド削除、3D座標予測、テキストラインセグメンテーションなどの現在のマルチタスクメソッドは、タスクとその相互作用の間の補完的な機能を見落としていることがよくあります。
このギャップに対処するために、SalmRecという名前の自己適応可能な学習可能なマルチタスク融合整流ネットワークを提案します。
このネットワークには、幾何学的歪みの認識を適応的に改善し、特徴の相補性を高め、負の干渉を減らすためのタスク間の特徴集約モジュールが組み込まれています。
また、グローバルタスク内とローカルタスク間の両方の機能を効果的にバランスさせるためのゲーティングメカニズムを導入します。
2つの英語のベンチマーク(DIR300とDocunet)と1つの中国のベンチマーク(DoCreal)での実験結果は、この方法が修正性能を大幅に改善することを示しています。
アブレーション研究では、さまざまなタスクが脱水することと、提案されたモジュールの有効性を強調しています。

要約(オリジナル)

Deformed document image rectification is essential for real-world document understanding tasks, such as layout analysis and text recognition. However, current multi-task methods — such as background removal, 3D coordinate prediction, and text line segmentation — often overlook the complementary features between tasks and their interactions. To address this gap, we propose a self-adaptive learnable multi-task fusion rectification network named SalmRec. This network incorporates an inter-task feature aggregation module that adaptively improves the perception of geometric distortions, enhances feature complementarity, and reduces negative interference. We also introduce a gating mechanism to balance features both within global tasks and between local tasks effectively. Experimental results on two English benchmarks (DIR300 and DocUNet) and one Chinese benchmark (DocReal) demonstrate that our method significantly improves rectification performance. Ablation studies further highlight the positive impact of different tasks on dewarping and the effectiveness of our proposed module.

arxiv情報

著者 Heng Li,Xiangping Wu,Qingcai Chen
発行日 2025-05-09 13:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Document Image Rectification Bases on Self-Adaptive Multitask Fusion はコメントを受け付けていません

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

要約

マルチモーダル報酬モデル(MRMS)は、マルチモーダル大手言語モデル(MLLM)のパフォーマンスを向上させる上で重要な役割を果たします。
最近の進歩は主にMRMSのモデル構造とトレーニングデータの改善に焦点を当てていますが、報酬モデリングの長期的な推論能力の有効性とMRMSのこれらの機能をアクティブ化する方法についての調査は限られています。
この論文では、報酬モデリングを改善するために強化学習(RL)を使用する方法を探ります。
具体的には、ルールベースのRLタスクとして報酬モデリングの問題を再定式化します。
ただし、補強++などの既存のRLアルゴリズムを直接適用して、モデリングに報酬を与えることは、これらのアルゴリズムの固有の制限により、トレーニングの不安定性や崩壊にさえつながることが多いことを観察します。
この問題に対処するために、既存のRLメソッドのトレーニング損失、アドバンテージ推定戦略、報酬設計を改良するStableReInforceアルゴリズムを提案します。
これらの改良により、より安定したトレーニングダイナミクスと優れたパフォーマンスが発生します。
MRMトレーニングを容易にするために、多様なデータセットから200K優先データを収集します。
このデータセットでStablereInforceアルゴリズムを使用してトレーニングされた報酬モデルであるR1-Rewardは、マルチモーダル報酬モデリングベンチマークのパフォーマンスを大幅に向上させます。
以前のSOTAモデルと比較して、R1-RewardはVL Reward-Benchで$ 8.4 \%$の改善と、マルチモーダル報酬ベンチで14.3%\%$の改善を達成します。
さらに、より推論計算により、R1-Rewardのパフォーマンスがさらに強化され、MRMSを最適化するRLアルゴリズムの可能性を強調します。

要約(オリジナル)

Multimodal Reward Models (MRMs) play a crucial role in enhancing the performance of Multimodal Large Language Models (MLLMs). While recent advancements have primarily focused on improving the model structure and training data of MRMs, there has been limited exploration into the effectiveness of long-term reasoning capabilities for reward modeling and how to activate these capabilities in MRMs. In this paper, we explore how Reinforcement Learning (RL) can be used to improve reward modeling. Specifically, we reformulate the reward modeling problem as a rule-based RL task. However, we observe that directly applying existing RL algorithms, such as Reinforce++, to reward modeling often leads to training instability or even collapse due to the inherent limitations of these algorithms. To address this issue, we propose the StableReinforce algorithm, which refines the training loss, advantage estimation strategy, and reward design of existing RL methods. These refinements result in more stable training dynamics and superior performance. To facilitate MRM training, we collect 200K preference data from diverse datasets. Our reward model, R1-Reward, trained using the StableReinforce algorithm on this dataset, significantly improves performance on multimodal reward modeling benchmarks. Compared to previous SOTA models, R1-Reward achieves a $8.4\%$ improvement on the VL Reward-Bench and a $14.3\%$ improvement on the Multimodal Reward Bench. Moreover, with more inference compute, R1-Reward’s performance is further enhanced, highlighting the potential of RL algorithms in optimizing MRMs.

arxiv情報

著者 Yi-Fan Zhang,Xingyu Lu,Xiao Hu,Chaoyou Fu,Bin Wen,Tianke Zhang,Changyi Liu,Kaiyu Jiang,Kaibing Chen,Kaiyu Tang,Haojie Ding,Jiankang Chen,Fan Yang,Zhang Zhang,Tingting Gao,Liang Wang
発行日 2025-05-09 13:39:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning はコメントを受け付けていません

Towards Better Cephalometric Landmark Detection with Diffusion Data Generation

要約

矯正診断と治療計画には、頭測定のランドマーク検出が不可欠です。
それにもかかわらず、データ収集におけるサンプルの不足と手動注釈に必要な広範な努力により、多様なデータセットの可用性が大幅に妨げられています。
この制限により、特に大規模なビジョンモデルに基づくものに基づく深い学習ベースの検出方法の有効性が制限されています。
これらの課題に対処するために、私たちは、人間の介入なしに対応する注釈とともに、多様な頭部計測X線画像を生成できる革新的なデータ生成方法を開発しました。
これを達成するために、私たちのアプローチは、解剖学的前層を使用して新しい頭位測定のランドマークアノテーションを構築することにより開始されます。
次に、拡散ベースのジェネレーターを使用して、これらの注釈に密接に対応する現実的なX線画像を作成します。
さまざまな属性を持つサンプルを生成する際に正確な制御を実現するために、新しい迅速なセファロメトリックX線画像データセットを導入します。
このデータセットには、実際の頭位測定X線画像と、画像を説明する詳細な医療テキストプロンプトが含​​まれています。
これらの詳細なプロンプトを活用することにより、私たちの方法は、さまざまなスタイルと属性を制御するための生成プロセスを改善します。
大規模で多様な生成されたデータによって促進され、精度を向上させるために、大規模な視覚検出モデルをセファロメトリックランドマーク検出タスクに導入します。
実験結果は、生成されたデータを使用したトレーニングがパフォーマンスを大幅に向上させることを示しています。
生成されたデータを使用せずに方法と比較して、当社のアプローチは成功検知率(SDR)を6.5%改善し、顕著な82.2%を達成します。
すべてのコードとデータは、https://um-lab.github.io/cepha-generationで入手できます

要約(オリジナル)

Cephalometric landmark detection is essential for orthodontic diagnostics and treatment planning. Nevertheless, the scarcity of samples in data collection and the extensive effort required for manual annotation have significantly impeded the availability of diverse datasets. This limitation has restricted the effectiveness of deep learning-based detection methods, particularly those based on large-scale vision models. To address these challenges, we have developed an innovative data generation method capable of producing diverse cephalometric X-ray images along with corresponding annotations without human intervention. To achieve this, our approach initiates by constructing new cephalometric landmark annotations using anatomical priors. Then, we employ a diffusion-based generator to create realistic X-ray images that correspond closely with these annotations. To achieve precise control in producing samples with different attributes, we introduce a novel prompt cephalometric X-ray image dataset. This dataset includes real cephalometric X-ray images and detailed medical text prompts describing the images. By leveraging these detailed prompts, our method improves the generation process to control different styles and attributes. Facilitated by the large, diverse generated data, we introduce large-scale vision detection models into the cephalometric landmark detection task to improve accuracy. Experimental results demonstrate that training with the generated data substantially enhances the performance. Compared to methods without using the generated data, our approach improves the Success Detection Rate (SDR) by 6.5%, attaining a notable 82.2%. All code and data are available at: https://um-lab.github.io/cepha-generation

arxiv情報

著者 Dongqian Guo,Wencheng Han,Pang Lyu,Yuxi Zhou,Jianbing Shen
発行日 2025-05-09 13:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Better Cephalometric Landmark Detection with Diffusion Data Generation はコメントを受け付けていません

Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation

要約

ディープラーニングは、医療イメージのセグメンテーションに革命をもたらしましたが、注釈付きのデータセットの不足によってその潜在能力が抑制されたままです。
拡散モデルは、これらのデータセットを強化するために合成画像マスクペアを生成するための有望なアプローチとして浮上していますが、緩和することを目指しているのと同じデータ不足の課題に逆説的に苦しんでいます。
従来のマスクのみのモデルは、形態学的複雑さを適切にキャプチャできないため、忠実度の低い画像を頻繁に生成します。これは、セグメンテーションモデルの堅牢性と信頼性を大幅に損なう可能性があります。
この制限を軽減するために、マスク拡散と画像拡散を含む新しいデュアルコンポーネントモデルであるシャム拡散を紹介します。
トレーニング中に、これらのコンポーネント間にノイズの一貫性の損失が導入され、パラメーター空間でのマスク拡散の形態学的忠実性が向上します。
サンプリング中、マスク拡散のみが使用され、多様性とスケーラビリティが確保されます。
包括的な実験は、私たちの方法の優位性を示しています。
シャム拡散は、SanetのMdiceとMiouをポリープで3.6%および4.4%増加させ、UNETはISIC2018で1.52%および1.64%改善します。
コードはGitHubで入手できます。

要約(オリジナル)

Deep learning has revolutionized medical image segmentation, yet its full potential remains constrained by the paucity of annotated datasets. While diffusion models have emerged as a promising approach for generating synthetic image-mask pairs to augment these datasets, they paradoxically suffer from the same data scarcity challenges they aim to mitigate. Traditional mask-only models frequently yield low-fidelity images due to their inability to adequately capture morphological intricacies, which can critically compromise the robustness and reliability of segmentation models. To alleviate this limitation, we introduce Siamese-Diffusion, a novel dual-component model comprising Mask-Diffusion and Image-Diffusion. During training, a Noise Consistency Loss is introduced between these components to enhance the morphological fidelity of Mask-Diffusion in the parameter space. During sampling, only Mask-Diffusion is used, ensuring diversity and scalability. Comprehensive experiments demonstrate the superiority of our method. Siamese-Diffusion boosts SANet’s mDice and mIoU by 3.6% and 4.4% on the Polyps, while UNet improves by 1.52% and 1.64% on the ISIC2018. Code is available at GitHub.

arxiv情報

著者 Kunpeng Qiu,Zhiqiang Gao,Zhiying Zhou,Mingjie Sun,Yongxin Guo
発行日 2025-05-09 14:07:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Noise-Consistent Siamese-Diffusion for Medical Image Synthesis and Segmentation はコメントを受け付けていません