SAM2MOT: A Novel Paradigm of Multi-Object Tracking by Segmentation

要約

Segment Anything 2 (SAM2)は、セグメンテーションを用いたロバストな単一物体追跡を可能にする。これをマルチオブジェクトトラッキング(MOT)に拡張するために、我々はSAM2MOTを提案し、新しいセグメンテーションによるトラッキングパラダイムを導入する。検出によるトラッキングやクエリによるトラッキングとは異なり、SAM2MOTはセグメンテーションマスクからトラッキングボックスを直接生成し、検出精度への依存を減らします。SAM2MOTには2つの重要な利点がある:ゼロショット汎化により、微調整なしにデータセット間で動作することが可能であることと、SAM2から継承された強力なオブジェクト関連付けである。さらにパフォーマンスを向上させるために、オブジェクトの正確な追加と削除のための軌跡マネージャシステムと、オクルージョンを処理するためのクロスオブジェクト相互作用モジュールを統合した。DanceTrack、UAVDT、BDD100Kを用いた実験では、最先端の結果が得られた。特に、SAM2MOTは、DanceTrackにおいて既存手法を+2.1 HOTAと+4.5 IDF1上回り、MOTにおける有効性を強調している。コードはhttps://github.com/TripleJoy/SAM2MOT。

要約(オリジナル)

Segment Anything 2 (SAM2) enables robust single-object tracking using segmentation. To extend this to multi-object tracking (MOT), we propose SAM2MOT, introducing a novel Tracking by Segmentation paradigm. Unlike Tracking by Detection or Tracking by Query, SAM2MOT directly generates tracking boxes from segmentation masks, reducing reliance on detection accuracy. SAM2MOT has two key advantages: zero-shot generalization, allowing it to work across datasets without fine-tuning, and strong object association, inherited from SAM2. To further improve performance, we integrate a trajectory manager system for precise object addition and removal, and a cross-object interaction module to handle occlusions. Experiments on DanceTrack, UAVDT, and BDD100K show state-of-the-art results. Notably, SAM2MOT outperforms existing methods on DanceTrack by +2.1 HOTA and +4.5 IDF1, highlighting its effectiveness in MOT. Code is available at https://github.com/TripleJoy/SAM2MOT.

arxiv情報

著者 Junjie Jiang,Zelin Wang,Manqi Zhao,Yin Li,DongSheng Jiang
発行日 2025-05-05 15:24:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | SAM2MOT: A Novel Paradigm of Multi-Object Tracking by Segmentation はコメントを受け付けていません

CHOSEN: Contrastive Hypothesis Selection for Multi-View Depth Refinement

要約

我々はCHOSENを提案する。CHOSENはシンプルでありながら柔軟性があり、ロバストで効果的なマルチビューデプス精密化フレームワークである。既存のマルチビューステレオパイプラインに採用することができ、カメラの相対位置やレンズなど、さまざまなマルチビューキャプチャシステムに対応する汎用性を備えている。初期の奥行き推定が与えられた場合、CHOSENは繰り返し再サンプリングして最良の仮説を選択し、キャプチャシステムによって決定される異なるメトリックまたは固有スケールに自動的に適応します。私たちのアプローチの鍵は、適切な解空間における対比学習と、慎重に設計された仮説特徴量の適用であり、これに基づいて、肯定的仮説と否定的仮説を効果的に区別することができる。シンプルなベースラインのマルチビューステレオパイプラインに統合されたCHOSENは、現在の多くのディープラーニングベースのマルチビューステレオパイプラインと比較して、深度と法線精度の面で印象的な品質を提供します。

要約(オリジナル)

We propose CHOSEN, a simple yet flexible, robust and effective multi-view depth refinement framework. It can be employed in any existing multi-view stereo pipeline, with straightforward generalization capability for different multi-view capture systems such as camera relative positioning and lenses. Given an initial depth estimation, CHOSEN iteratively re-samples and selects the best hypotheses, and automatically adapts to different metric or intrinsic scales determined by the capture system. The key to our approach is the application of contrastive learning in an appropriate solution space and a carefully designed hypothesis feature, based on which positive and negative hypotheses can be effectively distinguished. Integrated in a simple baseline multi-view stereo pipeline, CHOSEN delivers impressive quality in terms of depth and normal accuracy compared to many current deep learning based multi-view stereo pipelines.

arxiv情報

著者 Di Qiu,Yinda Zhang,Thabo Beeler,Vladimir Tankovich,Christian Häne,Sean Fanello,Christoph Rhemann,Sergio Orts Escolano
発行日 2025-05-05 15:35:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | CHOSEN: Contrastive Hypothesis Selection for Multi-View Depth Refinement はコメントを受け付けていません

landmarker: a Toolkit for Anatomical Landmark Localization in 2D/3D Images

要約

2D/3D画像における解剖学的ランドマークのローカライゼーションは、医用画像処理における重要なタスクである。ポーズ推定のような古典的なコンピュータビジョンのタスクにおけるランドマークのローカライゼーションのための汎用ツールは数多く存在するが、それらは医療領域における解剖学的ランドマークのローカライゼーションアプリケーションに必要な特化した機能とモジュール性を欠いている。そこで、PyTorch上で構築されたPythonパッケージであるlandmarkerを紹介する。landmarkerはランドマーク同定の精度を高め、研究開発プロセスを効率化し、様々な画像フォーマットや前処理パイプラインをサポートします。そのモジュール設計により、ユーザーは特定のデータセットやアプリケーション用にツールキットをカスタマイズしたり拡張したりすることができ、医用画像のイノベーションを加速します。landmarkerは、既存の汎用ポーズ推定ツールでは十分に満たされない、ランドマークのローカライズタスクにおける精度とカスタマイズの重要なニーズに対応します。

要約(オリジナル)

Anatomical landmark localization in 2D/3D images is a critical task in medical imaging. Although many general-purpose tools exist for landmark localization in classical computer vision tasks, such as pose estimation, they lack the specialized features and modularity necessary for anatomical landmark localization applications in the medical domain. Therefore, we introduce landmarker, a Python package built on PyTorch. The package provides a comprehensive, flexible toolkit for developing and evaluating landmark localization algorithms, supporting a range of methodologies, including static and adaptive heatmap regression. landmarker enhances the accuracy of landmark identification, streamlines research and development processes, and supports various image formats and preprocessing pipelines. Its modular design allows users to customize and extend the toolkit for specific datasets and applications, accelerating innovation in medical imaging. landmarker addresses a critical need for precision and customization in landmark localization tasks not adequately met by existing general-purpose pose estimation tools.

arxiv情報

著者 Jef Jonkers,Luc Duchateau,Glenn Van Wallendael,Sofie Van Hoecke
発行日 2025-05-05 15:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | landmarker: a Toolkit for Anatomical Landmark Localization in 2D/3D Images はコメントを受け付けていません

Context-Aware Input Orchestration for Video Inpainting

要約

従来のニューラルネットワーク駆動のインペインティング手法は、モバイルデバイスの処理能力とメモリの制約の中で高品質の結果を提供するのに苦労している。我々の研究は、入力データの構成を変更することでメモリ使用量を最適化する革新的なアプローチを導入している。通常、ビデオのインペインティングは、近傍フレームや参照フレームなど、あらかじめ決められた入力フレームセットに依存しており、多くの場合、5フレームセットに制限されている。我々の焦点は、これらの入力フレームの割合を変化させることで、インペイントされたビデオの品質にどのような影響を与えるかを調べることである。オプティカルフローとマスクの変化に基づいて入力フレームの構成を動的に調整することで、急速な視覚的コンテキストの変化を含む様々なコンテンツにおいて改善が観察された。

要約(オリジナル)

Traditional neural network-driven inpainting methods struggle to deliver high-quality results within the constraints of mobile device processing power and memory. Our research introduces an innovative approach to optimize memory usage by altering the composition of input data. Typically, video inpainting relies on a predetermined set of input frames, such as neighboring and reference frames, often limited to five-frame sets. Our focus is to examine how varying the proportion of these input frames impacts the quality of the inpainted video. By dynamically adjusting the input frame composition based on optical flow and changes of the mask, we have observed an improvement in various contents including rapid visual context changes.

arxiv情報

著者 Hoyoung Kim,Azimbek Khudoyberdiev,Seonghwan Jeong,Jihoon Ryoo
発行日 2025-05-05 15:42:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Context-Aware Input Orchestration for Video Inpainting はコメントを受け付けていません

Using Knowledge Graphs to harvest datasets for efficient CLIP model training

要約

高品質のCLIPモデルをトレーニングするには、一般的に膨大なデータセットが必要であり、特に最大規模のCLIPモデルでさえ十分にカバーできない領域では、領域固有のモデルの開発が制限され、トレーニングコストが上昇する。このことは、CLIPモデルの学習手順をきめ細かく制御する必要がある科学研究にとって課題となる。本研究では、知識グラフで強化されたスマートなウェブ検索戦略を採用することで、ロバストなCLIPモデルを、かなり少ないデータでゼロから訓練できることを示す。具体的には、わずか10M枚の画像を用いて、生物の専門家基礎モデルを構築できることを実証する。さらに、33Mの画像と46Mのテキスト記述からなるデータセットであるEntityNetを紹介する。

要約(オリジナル)

Training high-quality CLIP models typically requires enormous datasets, which limits the development of domain-specific models — especially in areas that even the largest CLIP models do not cover well — and drives up training costs. This poses challenges for scientific research that needs fine-grained control over the training procedure of CLIP models. In this work, we show that by employing smart web search strategies enhanced with knowledge graphs, a robust CLIP model can be trained from scratch with considerably less data. Specifically, we demonstrate that an expert foundation model for living organisms can be built using just 10M images. Moreover, we introduce EntityNet, a dataset comprising 33M images paired with 46M text descriptions, which enables the training of a generic CLIP model in significantly reduced time.

arxiv情報

著者 Simon Ging,Sebastian Walter,Jelena Bratulić,Johannes Dienert,Hannah Bast,Thomas Brox
発行日 2025-05-05 15:56:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.IR, cs.LG | Using Knowledge Graphs to harvest datasets for efficient CLIP model training はコメントを受け付けていません

Platelet enumeration in dense aggregates

要約

赤血球、様々な種類の白血球、血小板などの血液成分の識別と計数は、医療従事者にとって重要なタスクである。ディープラーニングアプローチ、特に教師あり学習ストラテジーを用いた畳み込みニューラルネットワーク(CNN)は、このようなタスクにおいてかなりの成功を示している。しかし、U-NetのようなCNNベースのアーキテクチャでは、血小板の大きさや特徴のばらつきが大きいため、血小板を正確に識別するのに苦労することが多い。このような課題に対処するため、研究者は一般的にクラス重み付き損失関数のような戦略を採用しており、一定の成功を示している。しかし、これでは、血小板の大きさのばらつきや、凝集体を形成する傾向や他の血液成分との関連性という、より重大な課題に対処できない。本研究では、これらの問題を軽減するための畳み込みカーネルの役割を調べることによって、別のアプローチを探った。また、特異的な血小板と血小板凝集体に別々のクラスを割り当て、血小板を識別するために様々なU-Netアーキテクチャを用いてセマンティック・セグメンテーションを行った。次に、血小板をカウントするための2つの一般的な方法(ピクセル面積法と連結成分分析)を評価・比較し、単一血小板と血小板凝集体に特化した代替アプローチを提案した。実験の結果、血小板の識別において有意な改善が見られ、畳み込み演算とクラス指定の最適化の重要性が強調された。画素面積に基づく一般的な計数法では、血小板数を過剰に推定することが多いのに対し、本研究で提案する手法では大幅に改善されることを示す。これらの方法について、セグメンテーションマスクから詳細に議論する。

要約(オリジナル)

Identifying and counting blood components such as red blood cells, various types of white blood cells, and platelets is a critical task for healthcare practitioners. Deep learning approaches, particularly convolutional neural networks (CNNs) using supervised learning strategies, have shown considerable success for such tasks. However, CNN based architectures such as U-Net, often struggles to accurately identify platelets due to their sizes and high variability of features. To address these challenges, researchers have commonly employed strategies such as class weighted loss functions, which have demonstrated some success. However, this does not address the more significant challenge of platelet variability in size and tendency to form aggregates and associations with other blood components. In this study, we explored an alternative approach by investigating the role of convolutional kernels in mitigating these issues. We also assigned separate classes to singular platelets and platelet aggregates and performed semantic segmentation using various U-Net architectures for identifying platelets. We then evaluated and compared two common methods (pixel area method and connected component analysis) for counting platelets and proposed an alternative approach specialized for single platelets and platelet aggregates. Our experiments provided results that showed significant improvements in the identification of platelets, highlighting the importance of optimizing convolutional operations and class designations. We show that the common practice of pixel area-based counting often over estimate platelet counts, whereas the proposed method presented in this work offers significant improvements. We discuss in detail about these methods from segmentation masks.

arxiv情報

著者 H. Martin Gillis,Yogeshwar Shendye,Paul Hollensen,Alan Fine,Thomas Trappenberg
発行日 2025-05-05 16:05:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Platelet enumeration in dense aggregates はコメントを受け付けていません

Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion Models

要約

我々は、多様な解剖学的領域にわたるゼロショット腫瘍セグメンテーションのための単一のモデルを訓練することを目的とし、一般化可能な腫瘍セグメンテーションを探求する。既存の手法は、セグメンテーションの質、スケーラビリティ、適用可能な画像モダリティの範囲に関する制限に直面している。本論文では、DiffuGTSと名付けられた新しいフレームワークを導入することで、腫瘍セグメンテーションのための非常に効率的なゼロショット学習法として、凍結医療基盤拡散モデル内の内部表現の可能性を明らかにする。DiffuGTSは、事前に定義された学習カテゴリーリストに制限されることなく、汎化可能な異常セグメンテーションを可能にするために、テキストプロンプトに基づいて異常を認識するオープンボキャブラリーアテンションマップを作成する。異常セグメンテーションマスクの更なる改善と改良のために、DiffuGTS は拡散モデルを活用し、潜在空間インペインティングにより病的領域を高品質な擬似健康領域に変換し、画素レベルと特徴レベルの新しい残差学習アプローチを適用することで、品質と汎化性が大幅に向上したセグメンテーションマスクを実現する。4つのデータセットと7つの腫瘍カテゴリーを用いた包括的な実験により、本手法の優れた性能が実証され、複数のゼロショット設定において現在の最先端モデルを凌駕している。コードはhttps://github.com/Yankai96/DiffuGTS。

要約(オリジナル)

We explore Generalizable Tumor Segmentation, aiming to train a single model for zero-shot tumor segmentation across diverse anatomical regions. Existing methods face limitations related to segmentation quality, scalability, and the range of applicable imaging modalities. In this paper, we uncover the potential of the internal representations within frozen medical foundation diffusion models as highly efficient zero-shot learners for tumor segmentation by introducing a novel framework named DiffuGTS. DiffuGTS creates anomaly-aware open-vocabulary attention maps based on text prompts to enable generalizable anomaly segmentation without being restricted by a predefined training category list. To further improve and refine anomaly segmentation masks, DiffuGTS leverages the diffusion model, transforming pathological regions into high-quality pseudo-healthy counterparts through latent space inpainting, and applies a novel pixel-level and feature-level residual learning approach, resulting in segmentation masks with significantly enhanced quality and generalization. Comprehensive experiments on four datasets and seven tumor categories demonstrate the superior performance of our method, surpassing current state-of-the-art models across multiple zero-shot settings. Codes are available at https://github.com/Yankai96/DiffuGTS.

arxiv情報

著者 Yankai Jiang,Peng Zhang,Donglin Yang,Yuan Tian,Hai Lin,Xiaosong Wang
発行日 2025-05-05 16:05:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Advancing Generalizable Tumor Segmentation with Anomaly-Aware Open-Vocabulary Attention Maps and Frozen Foundation Diffusion Models はコメントを受け付けていません

LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs

要約

生成的人工知能の急速な進歩により、メディア制作、バーチャルリアリティ、セキュリティ、ヘルスケア、ゲーム開発などの用途で3D人間の顔(HF)の作成が可能になった。しかし、人間の知覚の主観的な性質と顔の特徴に対する生得的な知覚感度のために、これらのAIが生成した3D人間の顔の品質とリアリズムを評価することは、依然として重要な課題である。このため、我々はAIが生成した3D人間の顔の品質評価に関する包括的な研究を行う。まず、Gen3DHFを紹介する。Gen3DHFは、AIが生成した3D人間の顔の2,000のビデオと、品質と真正性という2つの次元にわたって収集された4,000の平均意見スコア(MOS)、2,000の歪みを考慮した顕著性マップと歪み記述からなる大規模ベンチマークである。Gen3DHFに基づき、我々はLMME3DHFを提案する。LMME3DHFはLarge Multimodal Model (LMM)に基づく3DHF評価指標であり、品質と真正性のスコア予測、歪みを考慮した視覚的質問応答、歪みを考慮した顕著性予測が可能である。実験の結果、LMME3DHFは、AIが生成した3D人間の顔の品質スコアを正確に予測し、歪みを考慮した顕著な領域と歪みのタイプを効果的に識別することで、人間の知覚判断との強い整合性を維持しながら、既存の手法を凌駕する最先端の性能を達成した。Gen3DHFデータベースとLMME3DHFは、発表と同時に公開される予定です。

要約(オリジナル)

The rapid advancement in generative artificial intelligence have enabled the creation of 3D human faces (HFs) for applications including media production, virtual reality, security, healthcare, and game development, etc. However, assessing the quality and realism of these AI-generated 3D human faces remains a significant challenge due to the subjective nature of human perception and innate perceptual sensitivity to facial features. To this end, we conduct a comprehensive study on the quality assessment of AI-generated 3D human faces. We first introduce Gen3DHF, a large-scale benchmark comprising 2,000 videos of AI-Generated 3D Human Faces along with 4,000 Mean Opinion Scores (MOS) collected across two dimensions, i.e., quality and authenticity, 2,000 distortion-aware saliency maps and distortion descriptions. Based on Gen3DHF, we propose LMME3DHF, a Large Multimodal Model (LMM)-based metric for Evaluating 3DHF capable of quality and authenticity score prediction, distortion-aware visual question answering, and distortion-aware saliency prediction. Experimental results show that LMME3DHF achieves state-of-the-art performance, surpassing existing methods in both accurately predicting quality scores for AI-generated 3D human faces and effectively identifying distortion-aware salient regions and distortion types, while maintaining strong alignment with human perceptual judgments. Both the Gen3DHF database and the LMME3DHF will be released upon the publication.

arxiv情報

著者 Woo Yi Yang,Jiarui Wang,Sijing Wu,Huiyu Duan,Yuxin Zhu,Liu Yang,Kang Fu,Guangtao Zhai,Xiongkuo Min
発行日 2025-05-05 16:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | LMME3DHF: Benchmarking and Evaluating Multimodal 3D Human Face Generation with LMMs はコメントを受け付けていません

BrushEdit: All-In-One Image Inpainting and Editing

要約

画像編集は、インバージョンベースとインストラクションベースの両方の手法を用いた拡散モデルの開発により、大きく進歩した。しかし、現在の反転ベースの手法は、反転ノイズの構造的な性質が大幅な変更を妨げているため、大きな変更(オブジェクトの追加や削除など)に苦戦している。一方、インストラクションベースの手法は、しばしばユーザをブラックボックス操作に拘束し、編集領域や強度を指定するための直接的なインタラクションを制限する。これらの限界に対処するために、我々は、マルチモーダル大規模言語モデル(MLLM)と画像インペインティングモデルを活用し、自律的で、ユーザーフレンドリーで、インタラクティブな自由形式の指示編集を可能にする、新しいインペインティングベースの指示誘導型画像編集パラダイムであるBrushEditを提案する。具体的には、MLLMとデュアルブランチ画像インペインティングモデルをエージェント協調フレームワークで統合し、編集カテゴリ分類、メインオブジェクト識別、マスク取得、編集領域インペインティングを行うことで、自由形式の指示編集を可能にするシステムを考案する。広範な実験により、我々のフレームワークがMLLMとインペインティングモデルを効果的に組み合わせ、マスク領域の保存と編集効果の一貫性を含む7つのメトリクスにおいて優れた性能を達成することが示された。

要約(オリジナル)

Image editing has advanced significantly with the development of diffusion models using both inversion-based and instruction-based methods. However, current inversion-based approaches struggle with big modifications (e.g., adding or removing objects) due to the structured nature of inversion noise, which hinders substantial changes. Meanwhile, instruction-based methods often constrain users to black-box operations, limiting direct interaction for specifying editing regions and intensity. To address these limitations, we propose BrushEdit, a novel inpainting-based instruction-guided image editing paradigm, which leverages multimodal large language models (MLLMs) and image inpainting models to enable autonomous, user-friendly, and interactive free-form instruction editing. Specifically, we devise a system enabling free-form instruction editing by integrating MLLMs and a dual-branch image inpainting model in an agent-cooperative framework to perform editing category classification, main object identification, mask acquisition, and editing area inpainting. Extensive experiments show that our framework effectively combines MLLMs and inpainting models, achieving superior performance across seven metrics including mask region preservation and editing effect coherence.

arxiv情報

著者 Yaowei Li,Yuxuan Bian,Xuan Ju,Zhaoyang Zhang,Junhao Zhuang,Ying Shan,Yuexian Zou,Qiang Xu
発行日 2025-05-05 16:31:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV | BrushEdit: All-In-One Image Inpainting and Editing はコメントを受け付けていません

Unsupervised Deep Learning-based Keypoint Localization Estimating Descriptor Matching Performance

要約

網膜画像のレジストレーション、特にカラー眼底画像のレジストレーションは、様々な臨床応用が可能な、困難でありながら不可欠なタスクである。カラー眼底画像に対する既存のレジストレーション手法は、一般的に、位置合わせのためにキーポイントと記述子に依存している。しかし、重大な限界は、ラベル付けされたデータに依存していることであり、ラベル付けされたデータは医療領域では特に少ない。 この研究では、ラベル付けされたデータの必要性を完全に排除する、新しい教師なしレジストレーションパイプラインを提示する。我々のアプローチは、特徴的な記述子を持つ位置が信頼できるキーポイントを構成するという原理に基づいている。これは、従来の最先端のアプローチを完全に逆転させるものであり、検出器を記述子に条件付けるのではなく、むしろその逆を行う。 まず、キーポイント検出やラベルなしで動作する革新的な記述子学習法を提案し、網膜画像中の任意の位置の記述子を生成する。次に、入力画像から直接記述子の性能を推定することにより動作する、新しいラベルフリーのキーポイント検出ネットワークを導入する。 4つのホールドアウトデータセットを用いた包括的な評価により、我々の手法を検証し、我々の教師なし記述子が最新の教師あり記述子を凌駕すること、また、我々の教師なし検出器が既存の教師なし検出手法を大幅に凌駕することを実証する。最後に、我々の完全なレジストレーションパイプラインは、ラベル付きデータを使用しない一方で、主要な教師あり手法に匹敵する性能を達成した。さらに、我々の手法のラベルフリーの性質と設計は、他のドメインやモダリティへの直接適応を可能にする。

要約(オリジナル)

Retinal image registration, particularly for color fundus images, is a challenging yet essential task with diverse clinical applications. Existing registration methods for color fundus images typically rely on keypoints and descriptors for alignment; however, a significant limitation is their reliance on labeled data, which is particularly scarce in the medical domain. In this work, we present a novel unsupervised registration pipeline that entirely eliminates the need for labeled data. Our approach is based on the principle that locations with distinctive descriptors constitute reliable keypoints. This fully inverts the conventional state-of-the-art approach, conditioning the detector on the descriptor rather than the opposite. First, we propose an innovative descriptor learning method that operates without keypoint detection or any labels, generating descriptors for arbitrary locations in retinal images. Next, we introduce a novel, label-free keypoint detector network which works by estimating descriptor performance directly from the input image. We validate our method through a comprehensive evaluation on four hold-out datasets, demonstrating that our unsupervised descriptor outperforms state-of-the-art supervised descriptors and that our unsupervised detector significantly outperforms existing unsupervised detection methods. Finally, our full registration pipeline achieves performance comparable to the leading supervised methods, while not employing any labeled data. Additionally, the label-free nature and design of our method enable direct adaptation to other domains and modalities.

arxiv情報

著者 David Rivas-Villar,Álvaro S. Hervella,José Rouco,Jorge Novo
発行日 2025-05-05 16:46:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Unsupervised Deep Learning-based Keypoint Localization Estimating Descriptor Matching Performance はコメントを受け付けていません