A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches

要約

視覚的なオブジェクトカウントは最近、任意のカテゴリ全体でオブジェクトをカウントするという課題に対処するクラスに依存しないカウント(CAC)にシフトしました。これは、柔軟で一般化可能なカウントシステムの重要な機能です。
事前知識のない多様なカテゴリからオブジェクトを簡単に特定してカウントする人間とは異なり、ほとんどの既存のカウント方法は、既知のクラスのインスタンスの列挙されたインスタンスに制限されており、オープンボキャブリ設定でのトレーニングと苦労のために広範なラベル付けされたデータセットが必要です。
対照的に、CACは、トレーニング中に見られなかったクラスに属するオブジェクトを数え、いくつかのショット設定で動作することを目指しています。
この論文では、CAC方法論の最初の包括的なレビューを紹介します。
ターゲットオブジェクトクラスの指定方法に基づいて、CACアプローチを3つのパラダイムに分類するための分類を提案します:参照ベース、参照なし、およびオープンワールドテキストガイド。
参照ベースのアプローチは、模範的な誘導メカニズムに依存することにより、最先端のパフォーマンスを実現します。
参照のない方法は、固有の画像パターンを活用することにより、模範的な依存関係を排除します。
最後に、Open-World Text-Guided MethodはVision-Language Modelsを使用して、テキストプロンプトを介してオブジェクトクラスの説明を有効にし、柔軟で有望なソリューションを提供します。
この分類法に基づいて、29のCACアプローチのアーキテクチャの概要を提供し、ゴールドスタンダードのベンチマークで結果を報告します。
私たちは彼らのパフォーマンスを比較し、彼らの強みと限界について議論します。
具体的には、FSC-147データセットで結果を提示し、ゴールドスタンダードメトリックを使用してリーダーボードを設定し、CARPKデータセットに一般化機能を評価します。
最後に、将来の方向とともに、注釈の依存や一般化などの永続的な課題についての重要な議論を提供します。
この調査は、CACの進歩を紹介し、将来の研究を導く貴重なリソースになると考えています。

要約(オリジナル)

Visual object counting has recently shifted towards class-agnostic counting (CAC), which addresses the challenge of counting objects across arbitrary categories — a crucial capability for flexible and generalizable counting systems. Unlike humans, who effortlessly identify and count objects from diverse categories without prior knowledge, most existing counting methods are restricted to enumerating instances of known classes, requiring extensive labeled datasets for training and struggling in open-vocabulary settings. In contrast, CAC aims to count objects belonging to classes never seen during training, operating in a few-shot setting. In this paper, we present the first comprehensive review of CAC methodologies. We propose a taxonomy to categorize CAC approaches into three paradigms based on how target object classes can be specified: reference-based, reference-less, and open-world text-guided. Reference-based approaches achieve state-of-the-art performance by relying on exemplar-guided mechanisms. Reference-less methods eliminate exemplar dependency by leveraging inherent image patterns. Finally, open-world text-guided methods use vision-language models, enabling object class descriptions via textual prompts, offering a flexible and promising solution. Based on this taxonomy, we provide an overview of the architectures of 29 CAC approaches and report their results on gold-standard benchmarks. We compare their performance and discuss their strengths and limitations. Specifically, we present results on the FSC-147 dataset, setting a leaderboard using gold-standard metrics, and on the CARPK dataset to assess generalization capabilities. Finally, we offer a critical discussion of persistent challenges, such as annotation dependency and generalization, alongside future directions. We believe this survey will be a valuable resource, showcasing CAC advancements and guiding future research.

arxiv情報

著者 Luca Ciampi,Ali Azmoudeh,Elif Ecem Akbaba,Erdi Sarıtaş,Ziya Ata Yazıcı,Hazım Kemal Ekenel,Giuseppe Amato,Fabrizio Falchi
発行日 2025-02-10 15:47:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Survey on Class-Agnostic Counting: Advancements from Reference-Based to Open-World Text-Guided Approaches はコメントを受け付けていません

A Survey on Video Analytics in Cloud-Edge-Terminal Collaborative Systems

要約

ビデオデータの爆発的な成長により、クラウドエッジターミナルコラボレーティブ(CETC)システムにおける分散ビデオ分析の開発が促進され、効率的なビデオ処理、リアルタイム推論、プライバシー推定分析が可能になりました。
複数の利点の中には、CETCシステムはビデオ処理タスクを配布し、クラウド、エッジ、および端末デバイス全体で適応的な分析を可能にし、ビデオ監視、自律運転、スマートシティのブレークスルーにつながります。
この調査では、エッジコンピューティングプラットフォームとリソース管理メカニズムとともに、階層、分散、ハイブリッドフレームワークを含む基本的なアーキテクチャコンポーネントを最初に分析します。
これらの基礎に基づいて、エッジ中心のアプローチは、オンデバイス処理、エッジアシストオフロード、およびエッジインテリジェンスを強調し、クラウド中心の方法は複雑なビデオ理解とモデルトレーニングのための強力な計算機能を活用します。
また、私たちの調査では、システム全体でパフォーマンスを最適化するリソースを意識するスケジューリング手法を組み込んだ適応タスクを組み込んだハイブリッドビデオ分析もカバーしています。
従来のアプローチを超えて、最近の大規模な言語モデルとマルチモーダル統合の進歩により、プラットフォームのスケーラビリティ、データ保護、システムの信頼性における機会と課題の両方が明らかになりました。
将来の方向には、説明可能なシステム、効率的な処理メカニズム、高度なビデオ分析も含まれ、この動的分野で研究者と実践者に貴重な洞察を提供します。

要約(オリジナル)

The explosive growth of video data has driven the development of distributed video analytics in cloud-edge-terminal collaborative (CETC) systems, enabling efficient video processing, real-time inference, and privacy-preserving analysis. Among multiple advantages, CETC systems can distribute video processing tasks and enable adaptive analytics across cloud, edge, and terminal devices, leading to breakthroughs in video surveillance, autonomous driving, and smart cities. In this survey, we first analyze fundamental architectural components, including hierarchical, distributed, and hybrid frameworks, alongside edge computing platforms and resource management mechanisms. Building upon these foundations, edge-centric approaches emphasize on-device processing, edge-assisted offloading, and edge intelligence, while cloud-centric methods leverage powerful computational capabilities for complex video understanding and model training. Our investigation also covers hybrid video analytics incorporating adaptive task offloading and resource-aware scheduling techniques that optimize performance across the entire system. Beyond conventional approaches, recent advances in large language models and multimodal integration reveal both opportunities and challenges in platform scalability, data protection, and system reliability. Future directions also encompass explainable systems, efficient processing mechanisms, and advanced video analytics, offering valuable insights for researchers and practitioners in this dynamic field.

arxiv情報

著者 Linxiao Gong,Hao Yang,Gaoyun Fang,Bobo Ju,Juncen Guo,Xiaoguang Zhu,Yan Wang,Xiping Hu,Peng Sun,Azzedine Boukerche
発行日 2025-02-10 15:48:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NI | A Survey on Video Analytics in Cloud-Edge-Terminal Collaborative Systems はコメントを受け付けていません

Adaptive Perception for Unified Visual Multi-modal Object Tracking

要約

最近、多くのマルチモーダルトラッカーがRGBを支配的なモダリティとして優先し、他のモダリティを補助として扱い、さまざまなマルチモーダルタスクを個別に微調整します。
モダリティ依存性におけるこの不均衡は、複雑なシナリオで各モダリティから補完的な情報を動的に利用する方法の能力を制限し、マルチモーダルの利点を完全に知覚することが困難になります。
その結果、統一されたパラメーターモデルは、さまざまなマルチモーダル追跡タスクでしばしばパフォーマンスを低下させます。
この問題に対処するために、マルチモーダル適応認識向けに設計された新しい統一トラッカーであるAptrackを提案します。
以前の方法とは異なり、Aptrackは、平等なモデリング戦略を通じて統一された表現を調査します。
この戦略により、モデルは、異なるタスク間の追加の微調整を必要とせずに、さまざまなモダリティやタスクに動的に適応することができます。
さらに、トラッカーは、学習可能なトークンを生成することでクロスモダリティインタラクションを効率的に橋渡しする適応型モダリティインタラクション(AMI)モジュールを統合します。
5つの多様なマルチモーダルデータセット(RGBT234、ラッシャー、ヴィセベント、深さトラック、およびLot-RGBD2022)で実施された実験は、Aptrackが既存の最先端の統合マルチモーダルトラッカーを上回っているだけでなく、特定のマルチのために設計されたマルチのために設計されたトラッカーよりも優れていることを示しています。
– モーダルタスク。

要約(オリジナル)

Recently, many multi-modal trackers prioritize RGB as the dominant modality, treating other modalities as auxiliary, and fine-tuning separately various multi-modal tasks. This imbalance in modality dependence limits the ability of methods to dynamically utilize complementary information from each modality in complex scenarios, making it challenging to fully perceive the advantages of multi-modal. As a result, a unified parameter model often underperforms in various multi-modal tracking tasks. To address this issue, we propose APTrack, a novel unified tracker designed for multi-modal adaptive perception. Unlike previous methods, APTrack explores a unified representation through an equal modeling strategy. This strategy allows the model to dynamically adapt to various modalities and tasks without requiring additional fine-tuning between different tasks. Moreover, our tracker integrates an adaptive modality interaction (AMI) module that efficiently bridges cross-modality interactions by generating learnable tokens. Experiments conducted on five diverse multi-modal datasets (RGBT234, LasHeR, VisEvent, DepthTrack, and VOT-RGBD2022) demonstrate that APTrack not only surpasses existing state-of-the-art unified multi-modal trackers but also outperforms trackers designed for specific multi-modal tasks.

arxiv情報

著者 Xiantao Hu,Bineng Zhong,Qihua Liang,Zhiyi Mo,Liangtao Shi,Ying Tai,Jian Yang
発行日 2025-02-10 15:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Adaptive Perception for Unified Visual Multi-modal Object Tracking はコメントを受け付けていません

evclust: Python library for evidential clustering

要約

クラスタリングの最近の開発傾向は、データ内のクラスターを識別するだけでなく、クラスターメンバーシップの不確実性を表現およびキャプチャするアルゴリズムの進歩です。
証拠クラスタリングは、不確実性を管理および表現するために設計されたフレームワークであるDempster-Shaferの信念関数の理論を使用して、これに対処します。
このアプローチは、各オブジェクトの潜在的なグループへの不確実な割り当てを定量化する構造化された質量関数セットである信用分割をもたらします。
このペーパーで提示されているPythonフレームワークEVClustは、クレジットパーティションを視覚化、評価、分析するためのツールと同様に、クラスタリングアルゴリズムをクラスタリングする効率的な証拠スイートを提供します。

要約(オリジナル)

A recent developing trend in clustering is the advancement of algorithms that not only identify clusters within data, but also express and capture the uncertainty of cluster membership. Evidential clustering addresses this by using the Dempster-Shafer theory of belief functions, a framework designed to manage and represent uncertainty. This approach results in a credal partition, a structured set of mass functions that quantify the uncertain assignment of each object to potential groups. The Python framework evclust, presented in this paper, offers a suite of efficient evidence clustering algorithms as well as tools for visualizing, evaluating and analyzing credal partitions.

arxiv情報

著者 Armel Soubeiga,Violaine Antoine
発行日 2025-02-10 15:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.MS, cs.SE | evclust: Python library for evidential clustering はコメントを受け付けていません

A Large-scale AI-generated Image Inpainting Benchmark

要約

生成モデルの最近の進歩により、非常に現実的な画像操作が可能になり、堅牢な偽造検出方法が緊急に必要になります。
これらの方法をトレーニングおよび評価するための現在のデータセットの規模と多様性は限られています。
これに対処するために、高品質の入力データセットを作成するための方法論を提案し、MS-Coco、Raise、およびOpenImagesから供給された78,000個のオリジナル画像から生成された95,000を超えるインペイントされた画像を含むfiquidを作成するために適用します。
私たちの方法論は、3つのコンポーネントで構成されています:(1)インスタンスセグメンテーションを通じて適切なオブジェクトを識別し、コンテキストに適切なプロンプトを生成する意味的に整列したオブジェクト置換(SAOR)、(2)さまざまな最先端の最先端を採用する複数のモデル画像インペインティング(MMII)
主に拡散モデルに基づいてパイプラインを開始して、多様な操作を作成し、(3)オリジナルとの比較分析を通じて画像リアリズムを評価する不確実性ガイド付き欺ceptivensive評価(UGDA)。
結果のデータセットは、多様性、審美的な品質、技術的な品質の既存のデータセットを上回ります。
最先端の偽造検出方法を使用して包括的なベンチマーク結果を提供し、検出アルゴリズムの評価と改善におけるデータセットの有効性を実証します。
1,000枚の画像で42人の参加者がいる人間の研究を通じて、人間は私たちの方法論によって欺くと分類された画像に苦労しているが、データセットで訓練されたモデルはこれらの困難なケースで高性能を維持していることを示しています。
コードとデータセットはhttps://github.com/mever-team/diquidで入手できます。

要約(オリジナル)

Recent advances in generative models enable highly realistic image manipulations, creating an urgent need for robust forgery detection methods. Current datasets for training and evaluating these methods are limited in scale and diversity. To address this, we propose a methodology for creating high-quality inpainting datasets and apply it to create DiQuID, comprising over 95,000 inpainted images generated from 78,000 original images sourced from MS-COCO, RAISE, and OpenImages. Our methodology consists of three components: (1) Semantically Aligned Object Replacement (SAOR) that identifies suitable objects through instance segmentation and generates contextually appropriate prompts, (2) Multiple Model Image Inpainting (MMII) that employs various state-of-the-art inpainting pipelines primarily based on diffusion models to create diverse manipulations, and (3) Uncertainty-Guided Deceptiveness Assessment (UGDA) that evaluates image realism through comparative analysis with originals. The resulting dataset surpasses existing ones in diversity, aesthetic quality, and technical quality. We provide comprehensive benchmarking results using state-of-the-art forgery detection methods, demonstrating the dataset’s effectiveness in evaluating and improving detection algorithms. Through a human study with 42 participants on 1,000 images, we show that while humans struggle with images classified as deceiving by our methodology, models trained on our dataset maintain high performance on these challenging cases. Code and dataset are available at https://github.com/mever-team/DiQuID.

arxiv情報

著者 Paschalis Giakoumoglou,Dimitrios Karageorgiou,Symeon Papadopoulos,Panagiotis C. Petrantonakis
発行日 2025-02-10 15:56:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | A Large-scale AI-generated Image Inpainting Benchmark はコメントを受け付けていません

MaterialFusion: High-Quality, Zero-Shot, and Controllable Material Transfer with Diffusion Models

要約

画像内のオブジェクトの物質的な外観を操作することは、拡張現実、仮想プロトタイピング、デジタルコンテンツの作成などのアプリケーションにとって重要です。
ユーザーが新しい材料特性とオブジェクトの元の機能との間の最適なバランスをとることができる高品質の材料転送の新しいフレームワークであるMaterialSfusionを提示します。
MaterialFusionは、バックグラウンドの一貫性を維持し、境界アーティファクトを緩和することにより、変更されたオブジェクトをシーンにシームレスに統合します。
アプローチを徹底的に評価するために、実際の材料転送例のデータセットをまとめて、複雑な比較分析を実施しました。
包括的な定量的評価とユーザー調査を通じて、MaterialFusionは、品質、ユーザー制御、およびバックグラウンドの保存の点で既存の方法を大幅に上回ることを実証します。
コードはhttps://github.com/kzgarifullin/materialFusionで入手できます。

要約(オリジナル)

Manipulating the material appearance of objects in images is critical for applications like augmented reality, virtual prototyping, and digital content creation. We present MaterialFusion, a novel framework for high-quality material transfer that allows users to adjust the degree of material application, achieving an optimal balance between new material properties and the object’s original features. MaterialFusion seamlessly integrates the modified object into the scene by maintaining background consistency and mitigating boundary artifacts. To thoroughly evaluate our approach, we have compiled a dataset of real-world material transfer examples and conducted complex comparative analyses. Through comprehensive quantitative evaluations and user studies, we demonstrate that MaterialFusion significantly outperforms existing methods in terms of quality, user control, and background preservation. Code is available at https://github.com/kzGarifullin/MaterialFusion.

arxiv情報

著者 Kamil Garifullin,Maxim Nikolaev,Andrey Kuznetsov,Aibek Alanov
発行日 2025-02-10 16:04:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MaterialFusion: High-Quality, Zero-Shot, and Controllable Material Transfer with Diffusion Models はコメントを受け付けていません

Illegal Waste Detection in Remote Sensing Images: A Case Study

要約

環境犯罪は現在、世界で3番目に大きい犯罪行為を表し、生態系と人間の健康を脅かしています。
この活動に関連する犯罪の中で、不適切な廃棄物管理は、違法な埋め立て地を求めて半自動領土スキャンを可能にする非常に高解像度のリモートセンシング画像の利用可能性とコストの削減により、現在、より簡単に対抗することができます。
このペーパーでは、地元の環境機関の専門家と協力して開発されたパイプラインを提案し、候補者がリモートセンシング画像の分類子を活用する違法な投棄サイトを検出しました。
このような分類器に最適な構成を識別するために、広範な一連の実験が実施され、多様な画像特性とトレーニング設定の影響が徹底的に分析されました。
その後、地元の環境機関は、開発された分類器からの出力が専門家の日常業務に統合された実験演習に関与し、手動の写真解釈に関して時間の節約をもたらしました。
最終的に分類器は、トレーニングエリアの外側の場所で貴重な結果で実行され、提案されたパイプラインの国境を越えた適用可能性の可能性を強調しました。

要約(オリジナル)

Environmental crime currently represents the third largest criminal activity worldwide while threatening ecosystems as well as human health. Among the crimes related to this activity, improper waste management can nowadays be countered more easily thanks to the increasing availability and decreasing cost of Very-High-Resolution Remote Sensing images, which enable semi-automatic territory scanning in search of illegal landfills. This paper proposes a pipeline, developed in collaboration with professionals from a local environmental agency, for detecting candidate illegal dumping sites leveraging a classifier of Remote Sensing images. To identify the best configuration for such classifier, an extensive set of experiments was conducted and the impact of diverse image characteristics and training settings was thoroughly analyzed. The local environmental agency was then involved in an experimental exercise where outputs from the developed classifier were integrated in the experts’ everyday work, resulting in time savings with respect to manual photo-interpretation. The classifier was eventually run with valuable results on a location outside of the training area, highlighting potential for cross-border applicability of the proposed pipeline.

arxiv情報

著者 Federico Gibellini,Piero Fraternali,Giacomo Boracchi,Luca Morandini,Andrea Diecidue,Simona Malegori
発行日 2025-02-10 16:04:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Illegal Waste Detection in Remote Sensing Images: A Case Study はコメントを受け付けていません

TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

要約

拡散技術における最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進し、生成AIの展開と適用を大幅に促進しました。
ただし、3Dデータスケールの制限、3Dデータプロセスの複雑さ、および3Dドメインの高度な技術の不十分な調査に制約されている3Dシェイプ生成テクノロジーは、これまで遅れています。
3D形状生成への現在のアプローチは、出力の品質、一般化能力、および入力条件との整合に関して、大きな課題に直面しています。
入力画像に正確に対応する高忠実度3Dメッシュを生成できる新しい合理化された形状拡散パラダイムであるTriposgを提示します。
具体的には、次の提案を提案します。1)3D形状生成のための大規模な修正フロートランス。
2)3D VAEのSDF、正常、およびエイコナル損失を組み合わせたハイブリッドの監視されたトレーニング戦略と、高品質の3D再構成パフォーマンスを達成します。
3)200万台の高品質の3Dサンプルを生成するためのデータ処理パイプライン。3Dジェネレーティブモデルのトレーニングにおけるデータ品質と数量の重要なルールを強調します。
包括的な経験を通じて、新しいフレームワークの各コンポーネントの有効性を検証しました。
これらの部品のシームレスな統合により、Triposgは3D形状生成で最先端のパフォーマンスを実現することができました。
結果として得られる3D形状は、高解像度の機能のために詳細を示し、入力するための例外的な忠実度を示します。
さらに、TRIPOSGは、多様な画像スタイルと内容から3Dモデルを生成する際の汎用性の向上を示し、強力な源泉徴収能力を示しています。
3D世代の分野での進歩と革新を促進するために、モデルを公開します。

要約(オリジナル)

Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.

arxiv情報

著者 Yangguang Li,Zi-Xin Zou,Zexiang Liu,Dehu Wang,Yuan Liang,Zhipeng Yu,Xingchao Liu,Yuan-Chen Guo,Ding Liang,Wanli Ouyang,Yan-Pei Cao
発行日 2025-02-10 16:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models はコメントを受け付けていません

Multi-Scale Feature Fusion with Image-Driven Spatial Integration for Left Atrium Segmentation from Cardiac MRI Images

要約

後期ガドリニウム強化磁気共鳴画像診断からの左心房(LA)の正確なセグメンテーションは、病気の心房構造を視覚化し、心血管疾患の診断と管理を可能にする上で重要な役割を果たします。
心房細動(AF)の重要な介入であるアブレーション療法による治療を計画するために特に不可欠です。
ただし、手動のセグメンテーションは時間型であり、観察者間の変動を起こしやすく、自動化されたソリューションの必要性を強調しています。
DINOV2のようなクラスに依存しない基礎モデルは、視覚タスクにおける顕著な特徴抽出機能を実証しています。
ただし、ドメインの特異性の欠如とタスク固有の適応は、特徴抽出中の空間分解能を減らし、医療画像における細かい解剖学的詳細のキャプチャに影響を与える可能性があります。
この制限に対処するために、DinoV2をUNETスタイルのデコーダーとエンコーダーとして統合するセグメンテーションフレームワークを提案し、マルチスケールの特徴融合と入力画像統合を組み込んでセグメンテーションの精度を強化します。
学習可能な重み付けメカニズムは、ファンデーションモデルのさまざまなエンコーダーブロックからの階層的特徴を動的に優先し、タスク関連の機能選択を最適化します。
さらに、入力画像はデコード段階で再導入され、高解像度の空間的詳細を維持し、エンコーダーのダウンサンプリングの制限に対処します。
LASCARQS 2022データセットでのアプローチを検証し、NNNUNETベースラインモデルと比較して、92.3%のサイコロと84.1%のIOUスコアでパフォーマンスの改善を示します。
これらの発見は、心臓MRIからの自動化された左心房セグメンテーションの分野を進める際のアプローチの有効性を強調しています。

要約(オリジナル)

Accurate segmentation of the left atrium (LA) from late gadolinium-enhanced magnetic resonance imaging plays a vital role in visualizing diseased atrial structures, enabling the diagnosis and management of cardiovascular diseases. It is particularly essential for planning treatment with ablation therapy, a key intervention for atrial fibrillation (AF). However, manual segmentation is time-intensive and prone to inter-observer variability, underscoring the need for automated solutions. Class-agnostic foundation models like DINOv2 have demonstrated remarkable feature extraction capabilities in vision tasks. However, their lack of domain specificity and task-specific adaptation can reduce spatial resolution during feature extraction, impacting the capture of fine anatomical detail in medical imaging. To address this limitation, we propose a segmentation framework that integrates DINOv2 as an encoder with a UNet-style decoder, incorporating multi-scale feature fusion and input image integration to enhance segmentation accuracy. The learnable weighting mechanism dynamically prioritizes hierarchical features from different encoder blocks of the foundation model, optimizing feature selection for task relevance. Additionally, the input image is reintroduced during the decoding stage to preserve high-resolution spatial details, addressing limitations of downsampling in the encoder. We validate our approach on the LAScarQS 2022 dataset and demonstrate improved performance with a 92.3% Dice and 84.1% IoU score for giant architecture compared to the nnUNet baseline model. These findings emphasize the efficacy of our approach in advancing the field of automated left atrium segmentation from cardiac MRI.

arxiv情報

著者 Bipasha Kundu,Zixin Yang,Richard Simon,Cristian Linte
発行日 2025-02-10 16:12:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Multi-Scale Feature Fusion with Image-Driven Spatial Integration for Left Atrium Segmentation from Cardiac MRI Images はコメントを受け付けていません

Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification

要約

Domain-Generalizable Redification(DG Reid)は、1つ以上のソースドメインでモデルをトレーニングし、目に見えないターゲットドメインでのパフォーマンスを評価することを目指しています。
多数の方法が提案されていますが、ほとんどが差別的または対照的な学習フレームワークに依存して、一般化可能な機能表現を学習しています。
ただし、これらのアプローチは、ショートカット学習を軽減できず、最適ではないパフォーマンスにつながることがよくあります。
この作業では、DG Reidを強化するために、相関認識条件付けスキーム(DCAC)を使用した拡散モデル支援表現学習と呼ばれる新しい方法を提案します。
私たちの方法は、相関認識条件付けスキームを通じて、識別と対照的なReidモデルと事前に訓練された拡散モデルを統合します。
REIDモデルから生成されたID分類確率を、学習可能なIDワイズプロンプトのセットで組み込むことにより、コンディショニングスキームは、拡散プロセスをガイドするためにID相関をキャプチャする暗い知識を注入します。
同時に、拡散モデルからのフィードバックは、コンディショニングスキームを通じてREIDモデルに戻り、REID機能の一般化能力を効果的に改善します。
シングルソースとマルチソースの両方のDG Reidタスクの両方の広範な実験は、この方法が最先端のパフォーマンスを達成することを示しています。
包括的なアブレーション研究は、提案されたアプローチの有効性をさらに検証し、その堅牢性に関する洞察を提供します。
コードはhttps://github.com/rikoli/dcacで入手できます。

要約(オリジナル)

Domain-generalizable re-identification (DG Re-ID) aims to train a model on one or more source domains and evaluate its performance on unseen target domains, a task that has attracted growing attention due to its practical relevance. While numerous methods have been proposed, most rely on discriminative or contrastive learning frameworks to learn generalizable feature representations. However, these approaches often fail to mitigate shortcut learning, leading to suboptimal performance. In this work, we propose a novel method called diffusion model-assisted representation learning with a correlation-aware conditioning scheme (DCAC) to enhance DG Re-ID. Our method integrates a discriminative and contrastive Re-ID model with a pre-trained diffusion model through a correlation-aware conditioning scheme. By incorporating ID classification probabilities generated from the Re-ID model with a set of learnable ID-wise prompts, the conditioning scheme injects dark knowledge that captures ID correlations to guide the diffusion process. Simultaneously, feedback from the diffusion model is back-propagated through the conditioning scheme to the Re-ID model, effectively improving the generalization capability of Re-ID features. Extensive experiments on both single-source and multi-source DG Re-ID tasks demonstrate that our method achieves state-of-the-art performance. Comprehensive ablation studies further validate the effectiveness of the proposed approach, providing insights into its robustness. Codes will be available at https://github.com/RikoLi/DCAC.

arxiv情報

著者 Jiachen Li,Xiaojin Gong
発行日 2025-02-10 16:16:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Unleashing the Potential of Pre-Trained Diffusion Models for Generalizable Person Re-Identification はコメントを受け付けていません