Transformer-based assignment decision network for multiple object tracking

要約

Data Associationは、追跡によるパラダイムに続く複数のオブジェクト追跡(MOT)メソッドの重要なコンポーネントです。
完全な軌跡を生成するために、そのような方法は、データ関連プロセスを使用して、各タイムステップ中に検出と既存のターゲットの間の割り当てを確立します。
最近のデータ関連アプローチは、多次元線形割り当てタスクまたはネットワークフロー最小化問題のいずれかを解決しようとするか、複数の仮説トラッキングを介してそれに取り組むことを試みます。
ただし、推論中に、特定のソリューションに追加の複雑さを誘導するすべてのシーケンスフレームに最適な割り当てを計算する最適化ステップが必要です。
この目的のために、この作業のコンテキストでは、推論中に明示的な最適化を必要とせずにデータ関連に取り組むトランスベースの割り当て決定ネットワーク(TADN)を導入します。
特に、TADNは、ネットワークの単一のフォワードパスで、検出とアクティブなターゲット間の割り当てペアを直接推測できます。
TADNをかなりシンプルなMOTフレームワークに統合し、効率的なエンドツーエンドトレーニングのための新しいトレーニング戦略を設計し、いくつかの一般的なベンチマーク、つまりMOT17、MOT20、UA-Detracでオンライン視覚追跡MOTのアプローチの高い可能性を実証しました。
提案されたアプローチは、閉塞処理や再識別などの重要な補助コンポーネントを欠くトラッカーとしての単純な性質にもかかわらず、ほとんどの評価メトリックで強力なパフォーマンスを示しています。
この方法の実装は、https://github.com/psaltaath/tadn-motで公開されています。

要約(オリジナル)

Data association is a crucial component for any multiple object tracking (MOT) method that follows the tracking-by-detection paradigm. To generate complete trajectories such methods employ a data association process to establish assignments between detections and existing targets during each timestep. Recent data association approaches try to solve either a multi-dimensional linear assignment task or a network flow minimization problem or tackle it via multiple hypotheses tracking. However, during inference an optimization step that computes optimal assignments is required for every sequence frame inducing additional complexity to any given solution. To this end, in the context of this work we introduce Transformer-based Assignment Decision Network (TADN) that tackles data association without the need of any explicit optimization during inference. In particular, TADN can directly infer assignment pairs between detections and active targets in a single forward pass of the network. We have integrated TADN in a rather simple MOT framework, designed a novel training strategy for efficient end-to-end training and demonstrated the high potential of our approach for online visual tracking-by-detection MOT on several popular benchmarks, i.e. MOT17, MOT20 and UA-DETRAC. Our proposed approach demonstrates strong performance in most evaluation metrics despite its simple nature as a tracker lacking significant auxiliary components such as occlusion handling or re-identification. The implementation of our method is publicly available at https://github.com/psaltaath/tadn-mot.

arxiv情報

著者 Athena Psalta,Vasileios Tsironis,Konstantinos Karantzalos
発行日 2025-05-08 13:30:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Transformer-based assignment decision network for multiple object tracking はコメントを受け付けていません

Evaluating Deep Learning Models for Breast Cancer Classification: A Comparative Study

要約

この研究では、乳がんの早期かつ正確な検出のための組織病理学的画像を分類する際の深い学習モデルの有効性を評価します。
ResNet-50、Densenet-121、ResNext-50、Vision Transfransformer(VIT)、GoogleNet(Inception V3)、EfficientNet、MobileNet、およびSqeezenetを含む8つの高度なモデルを、277,524画像パッチのデータセットを使用して比較しました。
視覚変圧器(VIT)モデルは、その注意ベースのメカニズムを備えた、94%の最高の検証精度を達成し、従来のCNNを上回りました。
この研究は、臨床環境での乳がん診断の精度と効率を高めるための高度な機械学習方法の可能性を示しています。

要約(オリジナル)

This study evaluates the effectiveness of deep learning models in classifying histopathological images for early and accurate detection of breast cancer. Eight advanced models, including ResNet-50, DenseNet-121, ResNeXt-50, Vision Transformer (ViT), GoogLeNet (Inception v3), EfficientNet, MobileNet, and SqueezeNet, were compared using a dataset of 277,524 image patches. The Vision Transformer (ViT) model, with its attention-based mechanisms, achieved the highest validation accuracy of 94%, outperforming conventional CNNs. The study demonstrates the potential of advanced machine learning methods to enhance precision and efficiency in breast cancer diagnosis in clinical settings.

arxiv情報

著者 Sania Eskandari,Ali Eslamian,Nusrat Munia,Amjad Alqarni,Qiang Cheng
発行日 2025-05-08 13:34:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Evaluating Deep Learning Models for Breast Cancer Classification: A Comparative Study はコメントを受け付けていません

PADriver: Towards Personalized Autonomous Driving

要約

この論文では、パーソナライズされた自律運転(PAD)のための新しい閉ループフレームワークであるPadriverを提案します。
マルチモーダル大手言語モデル(MLLM)に基づいて構築されたPadriverは、ストリーミングフレームとパーソナライズされたテキストプロンプトを入力として取得します。
シーンの理解、危険レベルの推定、および行動の決定を自動的に実行します。
予測される危険レベルは、潜在的なアクションのリスクを反映しており、プリセットのパーソナライズされたプロンプトに対応する最終アクションの明示的な参照を提供します。
さらに、ハイウェイ-ENVシミュレーターに基づいてパッドハイウェイという名前の閉ループベンチマークを構築して、トラフィックルールの下での決定パフォーマンスを包括的に評価します。
データセットには、PADの動作分析の開発を容易にするために、高品質の注釈付きの250時間のビデオが含まれています。
構築されたベンチマークでの実験結果は、パドリバーがさまざまな評価メトリックに関する最先端のアプローチを上回り、さまざまな運転モードを有効にすることを示しています。

要約(オリジナル)

In this paper, we propose PADriver, a novel closed-loop framework for personalized autonomous driving (PAD). Built upon Multi-modal Large Language Model (MLLM), PADriver takes streaming frames and personalized textual prompts as inputs. It autoaggressively performs scene understanding, danger level estimation and action decision. The predicted danger level reflects the risk of the potential action and provides an explicit reference for the final action, which corresponds to the preset personalized prompt. Moreover, we construct a closed-loop benchmark named PAD-Highway based on Highway-Env simulator to comprehensively evaluate the decision performance under traffic rules. The dataset contains 250 hours videos with high-quality annotation to facilitate the development of PAD behavior analysis. Experimental results on the constructed benchmark show that PADriver outperforms state-of-the-art approaches on different evaluation metrics, and enables various driving modes.

arxiv情報

著者 Genghua Kou,Fan Jia,Weixin Mao,Yingfei Liu,Yucheng Zhao,Ziheng Zhang,Osamu Yoshie,Tiancai Wang,Ying Li,Xiangyu Zhang
発行日 2025-05-08 13:36:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PADriver: Towards Personalized Autonomous Driving はコメントを受け付けていません

Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency

要約

複数の3Dポーズが同じ2D表現に対応できるため、単一の2D画像から3Dヒューマンポーズを推定することは本質的に挑戦的です。
3Dデータはこのポーズのあいまいさを解決できますが、記録するのに費用がかかり、制御されたラボ環境に制限されることが多い複雑なセットアップが必要です。
トレーニング中にのみマルチビューデータを使用して、推論中ではなく、深い学習ベースの単眼3Dヒトポーズ推定モデルのパフォーマンスを改善する方法を提案します。
2つの同期ビューで動作する新しい損失関数、一貫性の損失を導入します。
このアプローチは、3Dグラウンドトゥルースまたは内因性および外因性のカメラパラメーターを必要とする以前のモデルよりも簡単です。
一貫性の損失は、剛性アラインメント後の2つのポーズシーケンスの差をペナルティします。
また、一貫性の損失が、3Dデータを必要とせずに微調整のパフォーマンスを大幅に改善することを実証します。
さらに、一貫性の損失を使用することで、モデルをゼロからトレーニングするときに、半監視された方法でモデルをトレーニングすると、最先端のパフォーマンスが得られることがわかります。
私たちの調査結果は、新しいドメインなどの新しいデータをキャプチャする簡単な方法を提供します。
このデータは、キャリブレーション要件のない既製のカメラを使用して追加できます。
すべてのコードとデータを公開しています。

要約(オリジナル)

Deducing a 3D human pose from a single 2D image is inherently challenging because multiple 3D poses can correspond to the same 2D representation. 3D data can resolve this pose ambiguity, but it is expensive to record and requires an intricate setup that is often restricted to controlled lab environments. We propose a method that improves the performance of deep learning-based monocular 3D human pose estimation models by using multiview data only during training, but not during inference. We introduce a novel loss function, consistency loss, which operates on two synchronized views. This approach is simpler than previous models that require 3D ground truth or intrinsic and extrinsic camera parameters. Our consistency loss penalizes differences in two pose sequences after rigid alignment. We also demonstrate that our consistency loss substantially improves performance for fine-tuning without requiring 3D data. Furthermore, we show that using our consistency loss can yield state-of-the-art performance when training models from scratch in a semi-supervised manner. Our findings provide a simple way to capture new data, e.g in a new domain. This data can be added using off-the-shelf cameras with no calibration requirements. We make all our code and data publicly available.

arxiv情報

著者 Christian Keilstrup Ingwersen,Rasmus Tirsgaard,Rasmus Nylander,Janus Nørtoft Jensen,Anders Bjorholm Dahl,Morten Rieger Hannemose
発行日 2025-05-08 13:39:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Two Views Are Better than One: Monocular 3D Pose Estimation with Multiview Consistency はコメントを受け付けていません

White Light Specular Reflection Data Augmentation for Deep Learning Polyp Detection

要約

結腸直腸癌は今日の最も致命的な癌の1つですが、主に大腸内視鏡検査を介して、結腸内の悪性ポリープの早期発見を通じて予防できます。
この方法は多くの命を救いましたが、ポリープを欠くことは患者に致命的な結果をもたらす可能性があるため、ヒューマンエラーは依然として重要な課題です。
ディープラーニング(DL)ポリープ検出器は、有望なソリューションを提供します。
しかし、既存のDLポリープ検出器は、多くの場合、ポリープの内視鏡からの白い光の反射を誤解します。これは誤検知につながる可能性があります。この課題に対処するために、この論文では、より多くの白い光の反射を追加してより難しいトレーニングシナリオを作成する新しいデータ増強アプローチを提案します。
具体的には、最初にトレーニングデータセットを使用して人工照明のバンクを生成します。
次に、これらの人工照明を追加すべきではないトレーニング画像の領域を見つけます。
最後に、トレーニング画像に適合する領域に人工光を追加するためのスライドウィンドウメソッドを提案し、画像が増強されます。
モデルに間違いを犯す機会を増やすことで、これらの間違いから学ぶ機会が増え、最終的にPolyp検出のパフォーマンスが向上する可能性があると仮定します。
実験結果は、新しいデータ増強法の有効性を示しています。

要約(オリジナル)

Colorectal cancer is one of the deadliest cancers today, but it can be prevented through early detection of malignant polyps in the colon, primarily via colonoscopies. While this method has saved many lives, human error remains a significant challenge, as missing a polyp could have fatal consequences for the patient. Deep learning (DL) polyp detectors offer a promising solution. However, existing DL polyp detectors often mistake white light reflections from the endoscope for polyps, which can lead to false positives.To address this challenge, in this paper, we propose a novel data augmentation approach that artificially adds more white light reflections to create harder training scenarios. Specifically, we first generate a bank of artificial lights using the training dataset. Then we find the regions of the training images that we should not add these artificial lights on. Finally, we propose a sliding window method to add the artificial light to the areas that fit of the training images, resulting in augmented images. By providing the model with more opportunities to make mistakes, we hypothesize that it will also have more chances to learn from those mistakes, ultimately improving its performance in polyp detection. Experimental results demonstrate the effectiveness of our new data augmentation method.

arxiv情報

著者 Jose Angel Nuñez,Fabian Vazquez,Diego Adame,Xiaoyan Fu,Pengfei Gu,Bin Fu
発行日 2025-05-08 13:51:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | White Light Specular Reflection Data Augmentation for Deep Learning Polyp Detection はコメントを受け付けていません

Label-Efficient Deep Learning in Medical Image Analysis: Challenges and Future Directions

要約

ディープラーニングは、多様な臨床タスク全体で最先端のパフォーマンスを達成し、大幅に高度な医療イメージング分析(MIA)を持っています。
ただし、その成功は、大規模で高品質のラベル付きデータセットに大きく依存します。これは、専門家の注釈が必要なため、費用がかかり、時間がかかります。
この制限を緩和するために、ラベル、非標識、および弱いラベル付きデータを活用することにより、限られた監督の下でモデルのパフォーマンスを改善するために、ラベル効率の良い深い学習方法が浮上しています。
この調査では、350を超えるピアレビューされた研究を体系的にレビューし、MIAのラベル効率の高い学習方法の包括的な分類法を提示します。
これらの方法は、4つのラベルパラダイムに分類されます。ラベルなし、ラベル不足、不正ラベル、ラベルの洗練です。
各カテゴリについて、イメージングのモダリティと臨床アプリケーション全体の代表的な手法を分析し、共有された方法論的原則とタスク固有の適応を強調します。
また、大規模なトレーニング前および転送学習を通じてラベル効率の高い学習を可能にし、下流タスクでの限られた注釈の使用を強化することを可能にするヘルスファンデーションモデル(HFMS)の役割の高まりを調べます。
最後に、研究の約束から日常の臨床ケアへのラベル効率の高い学習の翻訳を促進するために、現在の課題と将来の方向性を特定します。

要約(オリジナル)

Deep learning has significantly advanced medical imaging analysis (MIA), achieving state-of-the-art performance across diverse clinical tasks. However, its success largely depends on large-scale, high-quality labeled datasets, which are costly and time-consuming to obtain due to the need for expert annotation. To mitigate this limitation, label-efficient deep learning methods have emerged to improve model performance under limited supervision by leveraging labeled, unlabeled, and weakly labeled data. In this survey, we systematically review over 350 peer-reviewed studies and present a comprehensive taxonomy of label-efficient learning methods in MIA. These methods are categorized into four labeling paradigms: no label, insufficient label, inexact label, and label refinement. For each category, we analyze representative techniques across imaging modalities and clinical applications, highlighting shared methodological principles and task-specific adaptations. We also examine the growing role of health foundation models (HFMs) in enabling label-efficient learning through large-scale pre-training and transfer learning, enhancing the use of limited annotations in downstream tasks. Finally, we identify current challenges and future directions to facilitate the translation of label-efficient learning from research promise to everyday clinical care.

arxiv情報

著者 Cheng Jin,Zhengrui Guo,Yi Lin,Luyang Luo,Hao Chen
発行日 2025-05-08 13:51:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Label-Efficient Deep Learning in Medical Image Analysis: Challenges and Future Directions はコメントを受け付けていません

AirMorph: Topology-Preserving Deep Learning for Pulmonary Airway Analysis

要約

肺構造の正確な解剖学的標識と分析と、胸部CTからの周囲の解剖学は、異常のエチロジーを理解したり、標的療法と早期介入を支持したりするためにますます重要になっています。
肺と気道の細胞アトラーゼが試みられていますが、臨床的に展開可能な細粒の形態学的アトラーゼが不足しています。
この作業では、肺のデジタルアトラーゼを作成するために使用できるロバー、セグメント、およびサブセグメント解像度で、完全に自動で包括的な気道の解剖学的ラベル付けを可能にする、堅牢でエンドツーエンドの深い学習パイプラインであるAirMorphを紹介します。
多様な肺条件で構成される大規模なマルチセンターデータセットで評価されたエアモーフは、精度、トポロジーの一貫性、および完全性の観点から、既存のセグメンテーションおよびラベル付け方法を一貫して上回りました。
臨床的解釈を簡素化するために、狭窄、外部、拷問、発散、長さ、複雑さなど、重要な形態学的気道の特徴を定量化するコンパクトな解剖学的署名をさらに導入します。
肺線維症、肺気腫、消滅、統合、網状網状の不透明度などのさまざまな肺疾患に適用されると、強い識別力を示し、高い解釈性と説明可能性を備えた疾患固有の形態学的パターンを明らかにします。
さらに、AirMorphは、効率的な自動化された分岐パターン分析をサポートし、気管支鏡視鏡の航法計画と手続き上の安全性を高める可能性があり、診断の改善、標的治療、およびパーソナライズされた患者ケアのための貴重な臨床ツールを提供します。

要約(オリジナル)

Accurate anatomical labeling and analysis of the pulmonary structure and its surrounding anatomy from thoracic CT is getting increasingly important for understanding the etilogy of abnormalities or supporting targetted therapy and early interventions. Whilst lung and airway cell atlases have been attempted, there is a lack of fine-grained morphological atlases that are clinically deployable. In this work, we introduce AirMorph, a robust, end-to-end deep learning pipeline enabling fully automatic and comprehensive airway anatomical labeling at lobar, segmental, and subsegmental resolutions that can be used to create digital atlases of the lung. Evaluated across large-scale multi-center datasets comprising diverse pulmonary conditions, the AirMorph consistently outperformed existing segmentation and labeling methods in terms of accuracy, topological consistency, and completeness. To simplify clinical interpretation, we further introduce a compact anatomical signature quantifying critical morphological airway features, including stenosis, ectasia, tortuosity, divergence, length, and complexity. When applied to various pulmonary diseases such as pulmonary fibrosis, emphysema, atelectasis, consolidation, and reticular opacities, it demonstrates strong discriminative power, revealing disease-specific morphological patterns with high interpretability and explainability. Additionally, AirMorph supports efficient automated branching pattern analysis, potentially enhancing bronchoscopic navigation planning and procedural safety, offering a valuable clinical tool for improved diagnosis, targeted treatment, and personalized patient care.

arxiv情報

著者 Minghui Zhang,Chenyu Li,Fangfang Xie,Yaoyu Liu,Hanxiao Zhang,Junyang Wu,Chunxi Zhang,Jie Yang,Jiayuan Sun,Guang-Zhong Yang,Yun Gu
発行日 2025-05-08 14:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | AirMorph: Topology-Preserving Deep Learning for Pulmonary Airway Analysis はコメントを受け付けていません

MTL-UE: Learning to Learn Nothing for Multi-Task Learning

要約

既存の既存の不等の戦略のほとんどは、個人データで不正なユーザーがシングルタスク学習(STL)モデルをトレーニングするのを防ぐことに焦点を当てています。
それにもかかわらず、このパラダイムは最近、複数のタスクを同時に処理できるジェネラリストと基礎モデルをターゲットにしたマルチタスクデータとマルチタスク学習(MTL)にシフトしました。
その重要性の高まりにもかかわらず、MTLデータとモデルは、達成できない戦略を追求している間、ほとんど無視されてきました。
このホワイトペーパーでは、マルチタスクデータとMTLモデルの不可能な例を生成するための最初の統一フレームワークであるMTL-UEを紹介します。
各サンプルの摂動を最適化する代わりに、ラベルプライアーとクラスごとの特徴を導入するジェネレーターベースの構造を設計し、攻撃パフォーマンスがはるかに優れています。
さらに、MTL-UEには、タスク内およびタスク間埋め込みの正規化が組み込まれており、クラス間分離を増やし、クラス内の分散を抑制して攻撃の堅牢性を大幅に向上させます。
さらに、MTL-UEは多用途性であり、MTLの密集した予測タスクに対する優れたサポートがあります。
また、プラグアンドプレイであり、既存のサロゲート依存性のない方法を統合して、ほとんど適応しません。
広範な実験では、MTL-UEが4つのMTLデータセット、3つのベースUEメソッド、5つのモデルバックボーン、および5つのMTLタスク重視戦略で一貫して優れた攻撃パフォーマンスを達成することが示されています。

要約(オリジナル)

Most existing unlearnable strategies focus on preventing unauthorized users from training single-task learning (STL) models with personal data. Nevertheless, the paradigm has recently shifted towards multi-task data and multi-task learning (MTL), targeting generalist and foundation models that can handle multiple tasks simultaneously. Despite their growing importance, MTL data and models have been largely neglected while pursuing unlearnable strategies. This paper presents MTL-UE, the first unified framework for generating unlearnable examples for multi-task data and MTL models. Instead of optimizing perturbations for each sample, we design a generator-based structure that introduces label priors and class-wise feature embeddings which leads to much better attacking performance. In addition, MTL-UE incorporates intra-task and inter-task embedding regularization to increase inter-class separation and suppress intra-class variance which enhances the attack robustness greatly. Furthermore, MTL-UE is versatile with good supports for dense prediction tasks in MTL. It is also plug-and-play allowing integrating existing surrogate-dependent unlearnable methods with little adaptation. Extensive experiments show that MTL-UE achieves superior attacking performance consistently across 4 MTL datasets, 3 base UE methods, 5 model backbones, and 5 MTL task-weighting strategies.

arxiv情報

著者 Yi Yu,Song Xia,Siyuan Yang,Chenqi Kong,Wenhan Yang,Shijian Lu,Yap-Peng Tan,Alex C. Kot
発行日 2025-05-08 14:26:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV, cs.LG | MTL-UE: Learning to Learn Nothing for Multi-Task Learning はコメントを受け付けていません

PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes

要約

実際の3Dシーンで言語誘導オブジェクト配置の新しいタスクを紹介します。
私たちのモデルには、3Dシーンのポイントクラウド、3Dアセット、3Dアセットの配置場所を広く説明するテキストプロンプトが与えられます。
ここでのタスクは、プロンプトを尊重する3Dアセットの有効な配置を見つけることです。
接地などの3Dシーンの他の言語誘導ローカリゼーションタスクと比較して、このタスクには特定の課題があります。複数の有効なソリューションがあるため、曖昧であり、3D幾何学的関係と自由空間に関する推論が必要です。
新しいベンチマークと評価プロトコルを提案することにより、このタスクを開始します。
また、このタスクに関する3D LLMSをトレーニングするための新しいデータセットと、非自明のベースラインとして最初に機能する方法も紹介します。
この挑戦的なタスクと私たちの新しいベンチマークは、ジェネラリスト3D LLMモデルを評価および比較するために使用される一連のベンチマークの一部になる可能性があると考えています。

要約(オリジナル)

We introduce the novel task of Language-Guided Object Placement in Real 3D Scenes. Our model is given a 3D scene’s point cloud, a 3D asset, and a textual prompt broadly describing where the 3D asset should be placed. The task here is to find a valid placement for the 3D asset that respects the prompt. Compared with other language-guided localization tasks in 3D scenes such as grounding, this task has specific challenges: it is ambiguous because it has multiple valid solutions, and it requires reasoning about 3D geometric relationships and free space. We inaugurate this task by proposing a new benchmark and evaluation protocol. We also introduce a new dataset for training 3D LLMs on this task, as well as the first method to serve as a non-trivial baseline. We believe that this challenging task and our new benchmark could become part of the suite of benchmarks used to evaluate and compare generalist 3D LLM models.

arxiv情報

著者 Ahmed Abdelreheem,Filippo Aleotti,Jamie Watson,Zawar Qureshi,Abdelrahman Eldesokey,Peter Wonka,Gabriel Brostow,Sara Vicente,Guillermo Garcia-Hernando
発行日 2025-05-08 14:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | PlaceIt3D: Language-Guided Object Placement in Real 3D Scenes はコメントを受け付けていません

Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection

要約

自己学習学習(SSL)により、ビジョントランス(VITS)が大規模な自然画像データセットから堅牢な表現を学習し、ドメイン全体で一般化を強化しました。
網膜イメージングでは、自然または眼科データのいずれかで前処理された基礎モデルが有望であることが示されていますが、ドメイン内の前orainingの利点は不確実なままです。
これを調査するために、中程度から下位の年齢に関連した黄斑変性(AMD)識別のタスクのために、合計70,000の専門家解決画像の70,000個のデジタル眼底画像(DFI)データセットに6つのSSL定められたVITSをベンチマークします。
我々の結果は、自然画像で前処理されたIBOTは、0.80-0.97のAurocsがドメイン固有のモデルを上回る最高の分散式の一般化を達成することを示しています。
これらの調査結果は、AMDの識別を改善する際の基礎モデルの価値を強調し、ドメイン内の前orainingが必要であるという仮定に挑戦します。
さらに、ブラジルのAMDラベルを備えたDFIのオープンアクセスデータセット(n = 587)であるBramdをリリースします。

要約(オリジナル)

Self-supervised learning (SSL) has enabled Vision Transformers (ViTs) to learn robust representations from large-scale natural image datasets, enhancing their generalization across domains. In retinal imaging, foundation models pretrained on either natural or ophthalmic data have shown promise, but the benefits of in-domain pretraining remain uncertain. To investigate this, we benchmark six SSL-pretrained ViTs on seven digital fundus image (DFI) datasets totaling 70,000 expert-annotated images for the task of moderate-to-late age-related macular degeneration (AMD) identification. Our results show that iBOT pretrained on natural images achieves the highest out-of-distribution generalization, with AUROCs of 0.80-0.97, outperforming domain-specific models, which achieved AUROCs of 0.78-0.96 and a baseline ViT-L with no pretraining, which achieved AUROCs of 0.68-0.91. These findings highlight the value of foundation models in improving AMD identification and challenge the assumption that in-domain pretraining is necessary. Furthermore, we release BRAMD, an open-access dataset (n=587) of DFIs with AMD labels from Brazil.

arxiv情報

著者 Benjamin A. Cohen,Jonathan Fhima,Meishar Meisel,Baskin Meital,Luis Filipe Nakayama,Eran Berkowitz,Joachim A. Behar
発行日 2025-05-08 14:31:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV, q-bio.TO | Benchmarking Ophthalmology Foundation Models for Clinically Significant Age Macular Degeneration Detection はコメントを受け付けていません