Developing a PET/CT Foundation Model for Cross-Modal Anatomical and Functional Imaging

要約

腫瘍学では、CTからの解剖学的詳細とPETからの分子マーカー発現情報との解剖学的詳細を組み合わせているため、陽性断層型断層撮影断層撮影(PET/CT)は、がん診断、病期分類、および治療モニタリングに広く使用されています。
ただし、既存の人工知能駆動型PET/CT分析は、主にゼロまたは限られたデータセットで訓練されたタスク固有のモデルに依存しており、一般化と堅牢性を制限しています。
これに対処するために、マルチモーダルPET/CTイメージング専用に設計された基礎モデルアプローチを提案します。
全身の解剖学的および機能的または分子的情報を効果的に統合する新しいフレームワークである、兄弟のツインマスクされた自動エンコーダー(Fratmae)を紹介します。
FRATMAEは、マスクされた自動エンコーダートレーニング中のモダリティ間の相乗的相互作用を可能にするクロスアテンションデコーダーとともに、PETおよびCTスキャン用に個別の視覚変圧器(VIT)エンコーダーを採用しています。
さらに、ペットの表現学習を強化するために、テキストメタデータが組み込まれています。
PET/CTデータセットの事前トレーニングにより、Fratmaeは複雑なクロスモーダル関係とグローバルな取り込みパターンを捉え、下流タスクで優れたパフォーマンスを達成し、一般化可能な基盤モデルとしての可能性を実証します。

要約(オリジナル)

In oncology, Positron Emission Tomography-Computed Tomography (PET/CT) is widely used in cancer diagnosis, staging, and treatment monitoring, as it combines anatomical details from CT with functional metabolic activity and molecular marker expression information from PET. However, existing artificial intelligence-driven PET/CT analyses rely predominantly on task-specific models trained from scratch or on limited datasets, limiting their generalizability and robustness. To address this, we propose a foundation model approach specifically designed for multimodal PET/CT imaging. We introduce the Cross-Fraternal Twin Masked Autoencoder (FratMAE), a novel framework that effectively integrates whole-body anatomical and functional or molecular information. FratMAE employs separate Vision Transformer (ViT) encoders for PET and CT scans, along with cross-attention decoders that enable synergistic interactions between modalities during masked autoencoder training. Additionally, it incorporates textual metadata to enhance PET representation learning. By pre-training on PET/CT datasets, FratMAE captures intricate cross-modal relationships and global uptake patterns, achieving superior performance on downstream tasks and demonstrating its potential as a generalizable foundation model.

arxiv情報

著者 Yujin Oh,Robert Seifert,Yihan Cao,Christoph Clement,Justin Ferdinandus,Constantin Lapa,Alessandro Liebich,Michelle Amon,Johanna Enke,Sifan Song,Runqi Meng,Fang Zeng,Ning Guo,Xiang Li,Pedram Heidari,Axel Rominger,Kuangyu Shi,Quanzheng Li
発行日 2025-03-04 17:49:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Developing a PET/CT Foundation Model for Cross-Modal Anatomical and Functional Imaging はコメントを受け付けていません

CalibRefine: Deep Learning-Based Online Automatic Targetless LiDAR-Camera Calibration with Iterative and Attention-Driven Post-Refinement

要約

正確なマルチセンサーキャリブレーションは、自律運転、ロボット工学、インテリジェントな輸送などのアプリケーションに堅牢な知覚システムを展開するために不可欠です。
既存のLidar-Cameraキャリブレーション方法は、多くの場合、手動で配置されたターゲット、予備的なパラメーターの推定値、または集中的なデータの前処理に依存しており、実際の設定でのスケーラビリティと適応性を制限します。
この作業では、生のライダーポイントクラウドとカメラ画像を直接処理する完全に自動、ターゲットレス、オンラインキャリブレーションフレームワーク、Calibrefineを提案します。
私たちのアプローチは4つの段階に分かれています。(1)相対的な位置、外観の埋め込み、セマンティッククラスを使用して自動的に検出されたオブジェクトをトレーニングする一般的な特徴識別器 – 信頼できるLidar-Cameraの対応を生成するために、(2)粗いホモグラフィベースのキャリブレーションを生成します。
視力変圧器と分散メカニズムを活用することによる歪み。
2つの都市交通データセットでの広範な実験を通じて、Calibrefineが最小限の人間の関与を伴う高精度のキャリブレーション結果を提供し、最先端の目標のない方法を上回り、競争力を維持するか、または競争力のあるベースラインを上回ることを示します。
私たちの調査結果は、反復的および自己監視された注意ベースの調整とともに、堅牢なオブジェクトレベルのフィーチャーマッチングとともに、グラウンドトゥルースキャリブレーションマトリックスを必要とせずに、複雑で実世界の条件で一貫したセンサー融合を可能にすることを強調しています。

要約(オリジナル)

Accurate multi-sensor calibration is essential for deploying robust perception systems in applications such as autonomous driving, robotics, and intelligent transportation. Existing LiDAR-camera calibration methods often rely on manually placed targets, preliminary parameter estimates, or intensive data preprocessing, limiting their scalability and adaptability in real-world settings. In this work, we propose a fully automatic, targetless, and online calibration framework, CalibRefine, which directly processes raw LiDAR point clouds and camera images. Our approach is divided into four stages: (1) a Common Feature Discriminator that trains on automatically detected objects–using relative positions, appearance embeddings, and semantic classes–to generate reliable LiDAR-camera correspondences, (2) a coarse homography-based calibration, (3) an iterative refinement to incrementally improve alignment as additional data frames become available, and (4) an attention-based refinement that addresses non-planar distortions by leveraging a Vision Transformer and cross-attention mechanisms. Through extensive experiments on two urban traffic datasets, we show that CalibRefine delivers high-precision calibration results with minimal human involvement, outperforming state-of-the-art targetless methods and remaining competitive with, or surpassing, manually tuned baselines. Our findings highlight how robust object-level feature matching, together with iterative and self-supervised attention-based adjustments, enables consistent sensor fusion in complex, real-world conditions without requiring ground-truth calibration matrices or elaborate data preprocessing.

arxiv情報

著者 Lei Cheng,Lihao Guo,Tianya Zhang,Tam Bang,Austin Harris,Mustafa Hajij,Mina Sartipi,Siyang Cao
発行日 2025-03-04 17:54:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | CalibRefine: Deep Learning-Based Online Automatic Targetless LiDAR-Camera Calibration with Iterative and Attention-Driven Post-Refinement はコメントを受け付けていません

In-Depth Analysis of Automated Acne Disease Recognition and Classification

要約

顔のにきびは、特に青少年の間で一般的な病気であり、身体的および心理的に悪影響を及ぼします。
にきびの分類は、適切な治療を提供するために不可欠です。
従来の目視検査または専門家スキャンは時間がかかり、にきびの種類を区別するのが困難です。
このペーパーでは、にきびの認識と分類のための自動エキスパートシステムを紹介します。
提案された方法では、機械学習ベースの技術を採用して、6種類のにきび疾患を分類および評価して、皮膚科医の診断を促進します。
前処理フェーズには、コントラストの改善、スムージングフィルター、およびRGBからL*a*b色変換が含まれ、ノイズを排除し、分類精度を向上させます。
次に、クラスタリングベースのセグメンテーション法であるK-meansクラスタリングが、特徴抽出ステップを通過する疾患の影響を受けた領域のセグメント化に適用されます。
これらの病気の影響を受けた領域の特性は、グレーレベルの共起マトリックス(GLCM)と統計的特徴の組み合わせに基づいて抽出されます。
最後に、にきび疾患を分類するために5つの異なる機械学習分類器が採用されています。
実験結果は、ランダムフォレスト(RF)が98.50%の最高精度を達成することを示しており、これは最先端の方法と比較して有望です。

要約(オリジナル)

Facial acne is a common disease, especially among adolescents, negatively affecting both physically and psychologically. Classifying acne is vital to providing the appropriate treatment. Traditional visual inspection or expert scanning is time-consuming and difficult to differentiate acne types. This paper introduces an automated expert system for acne recognition and classification. The proposed method employs a machine learning-based technique to classify and evaluate six types of acne diseases to facilitate the diagnosis of dermatologists. The pre-processing phase includes contrast improvement, smoothing filter, and RGB to L*a*b color conversion to eliminate noise and improve the classification accuracy. Then, a clustering-based segmentation method, k-means clustering, is applied for segmenting the disease-affected regions that pass through the feature extraction step. Characteristics of these disease-affected regions are extracted based on a combination of gray-level co-occurrence matrix (GLCM) and Statistical features. Finally, five different machine learning classifiers are employed to classify acne diseases. Experimental results show that the Random Forest (RF) achieves the highest accuracy of 98.50%, which is promising compared to the state-of-the-art methods.

arxiv情報

著者 Afsana Ahsan Jeny,Masum Shah Junayed,Md Robel Mia,Md Baharul Islam
発行日 2025-03-04 17:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | In-Depth Analysis of Automated Acne Disease Recognition and Classification はコメントを受け付けていません

Boltzmann Attention Sampling for Image Analysis with Small Objects

要約

肺結節や腫瘍病変などの小さなオブジェクトの検出とセグメント化は、画像分析における重要な課題のままです。
これらのオブジェクトは、多くの場合、画像の0.1%未満を占めているため、従来の変圧器アーキテクチャは、無関係な領域での冗長な注意計算により、パフォーマンスの低下になりやすくなります。
既存のまばらな注意メカニズムは、小さな、可変、不確実なオブジェクトの位置を検出するのに不十分な剛性階層構造に依存しています。
このペーパーでは、動的なまばらな注意を通じてこれらの課題に対処するために設計された新しい変圧器ベースのアーキテクチャであるBoltzformerを提案します。
Boltzformerは、アニーリングスケジュールでBoltzmann分布を使用して不確実性をモデル化することにより、関連領域に注意を払って焦点を当てます。
当初、温度が高いほど、オブジェクトの位置の不確実性が最大である場合、初期層でのより広いエリアサンプリングが可能になります。
後の層で温度が低下すると、注意が集中し、効率と精度が向上します。
Boltzformerは、モジュラーボルツマンの注意サンプリングメカニズムを介して既存のトランスアーキテクチャにシームレスに統合されます。
ベンチマークデータセットでの包括的な評価は、ボルツファーダーが小さなオブジェクトのセグメンテーションパフォーマンスを大幅に改善しながら、以前の最先端の方法と比較して数桁の注意計算を削減することを示しています。

要約(オリジナル)

Detecting and segmenting small objects, such as lung nodules and tumor lesions, remains a critical challenge in image analysis. These objects often occupy less than 0.1% of an image, making traditional transformer architectures inefficient and prone to performance degradation due to redundant attention computations on irrelevant regions. Existing sparse attention mechanisms rely on rigid hierarchical structures, which are poorly suited for detecting small, variable, and uncertain object locations. In this paper, we propose BoltzFormer, a novel transformer-based architecture designed to address these challenges through dynamic sparse attention. BoltzFormer identifies and focuses attention on relevant areas by modeling uncertainty using a Boltzmann distribution with an annealing schedule. Initially, a higher temperature allows broader area sampling in early layers, when object location uncertainty is greatest. As the temperature decreases in later layers, attention becomes more focused, enhancing efficiency and accuracy. BoltzFormer seamlessly integrates into existing transformer architectures via a modular Boltzmann attention sampling mechanism. Comprehensive evaluations on benchmark datasets demonstrate that BoltzFormer significantly improves segmentation performance for small objects while reducing attention computation by an order of magnitude compared to previous state-of-the-art methods.

arxiv情報

著者 Theodore Zhao,Sid Kiblawi,Naoto Usuyama,Ho Hin Lee,Sam Preston,Hoifung Poon,Mu Wei
発行日 2025-03-04 18:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Boltzmann Attention Sampling for Image Analysis with Small Objects はコメントを受け付けていません

Multimodal Deep Learning for Subtype Classification in Breast Cancer Using Histopathological Images and Gene Expression Data

要約

乳がんの分子サブタイピングは、個別化された治療と予後に不可欠です。
従来の分類アプローチは、組織病理学的画像または遺伝子発現プロファイリングのいずれかに依存しており、予測力を制限しています。
この研究では、組織病理学的画像と遺伝子発現データを統合して乳がんをbrca.luminalおよびbrca.basal / her2サブタイプに分類する深いマルチモーダル学習フレームワークを提案します。
私たちのアプローチでは、モダリティ相互作用を強化するための交差融合融合メカニズムを備えた、画像機能抽出のためのResNet-50モデルと遺伝子発現処理のための完全に接続された層を採用しています。
5倍の交差検証を使用して広範な実験を実施し、マルチモーダル統合が分類精度、精密回復AUC、およびF1スコアの観点から単型アプローチよりも優れていることを示しています。
私たちの調査結果は、堅牢で解釈可能な乳がんサブタイプ分類のための深い学習の可能性を強調し、臨床的意思決定の改善への道を開いています。

要約(オリジナル)

Molecular subtyping of breast cancer is crucial for personalized treatment and prognosis. Traditional classification approaches rely on either histopathological images or gene expression profiling, limiting their predictive power. In this study, we propose a deep multimodal learning framework that integrates histopathological images and gene expression data to classify breast cancer into BRCA.Luminal and BRCA.Basal / Her2 subtypes. Our approach employs a ResNet-50 model for image feature extraction and fully connected layers for gene expression processing, with a cross-attention fusion mechanism to enhance modality interaction. We conduct extensive experiments using five-fold cross-validation, demonstrating that our multimodal integration outperforms unimodal approaches in terms of classification accuracy, precision-recall AUC, and F1-score. Our findings highlight the potential of deep learning for robust and interpretable breast cancer subtype classification, paving the way for improved clinical decision-making.

arxiv情報

著者 Amin Honarmandi Shandiz
発行日 2025-03-04 18:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Multimodal Deep Learning for Subtype Classification in Breast Cancer Using Histopathological Images and Gene Expression Data はコメントを受け付けていません

CADDI: An in-Class Activity Detection Dataset using IMU data from low-cost sensors

要約

クラス内の学生活動の監視と予測は、エンゲージメントの理解と教育的有効性の向上にとって最も重要です。
これらの活動を正確に検出することで、教育者はレッスンをリアルタイムで変更し、それによりネガティブな感情状態を減らし、全体的な学習体験を向上させることができます。
この目的のために、スマートウォッチに埋め込まれた慣性測定単位(IMU)などの非侵入デバイスの使用は、実行可能なソリューションを表します。
信頼できる予測システムの開発は、教育における大規模なラベルの付いたデータセットの欠如により制限されています。
このギャップを埋めるために、手頃な価格のIMUセンサーを使用してクラス内アクティビティ検出のための新しいデータセットを提示します。
データセットは、典型的な教室シナリオの12人の参加者によって実行される、瞬時および連続的な両方の両方の多様なアクティビティで構成されています。
加速度計、ジャイロスコープ、回転ベクトルデータ、同期されたステレオ画像が含まれており、センサーと視覚データを使用してマルチモーダルアルゴリズムを開発するための包括的なリソースを提供します。
このデータセットは、教育環境でのアクティビティ認識のためのスケーラブルなソリューションへの重要なステップを表しています。

要約(オリジナル)

The monitoring and prediction of in-class student activities is of paramount importance for the comprehension of engagement and the enhancement of pedagogical efficacy. The accurate detection of these activities enables educators to modify their lessons in real time, thereby reducing negative emotional states and enhancing the overall learning experience. To this end, the use of non-intrusive devices, such as inertial measurement units (IMUs) embedded in smartwatches, represents a viable solution. The development of reliable predictive systems has been limited by the lack of large, labeled datasets in education. To bridge this gap, we present a novel dataset for in-class activity detection using affordable IMU sensors. The dataset comprises 19 diverse activities, both instantaneous and continuous, performed by 12 participants in typical classroom scenarios. It includes accelerometer, gyroscope, rotation vector data, and synchronized stereo images, offering a comprehensive resource for developing multimodal algorithms using sensor and visual data. This dataset represents a key step toward scalable solutions for activity recognition in educational settings.

arxiv情報

著者 Luis Marquez-Carpintero,Sergio Suescun-Ferrandiz,Monica Pina-Navarro,Miguel Cazorla,Francisco Gomez-Donoso
発行日 2025-03-04 18:29:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC | CADDI: An in-Class Activity Detection Dataset using IMU data from low-cost sensors はコメントを受け付けていません

Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024

要約

ますます現実的に生成されるAIの時代には、詐欺と偽情報を緩和するためには、堅牢なディープファーク検出が不可欠です。
多くのDeepfake検出器は、アカデミックデータセットの高精度を報告していますが、これらのアカデミックベンチマークは時代遅れであり、最近のディープフェイクの代表ではないことを示しています。
2024年にソーシャルメディアとディープファーク検出プラットフォームユーザーから収集されたワイルドなディープフェイクで構成される新しいディープフェイク検出ベンチマークであるDeepfake-Eval-2024を紹介します。ディープファーク-Eval-2024は、44時間のビデオ、56.5時間のオーディオ、および1,975の画像で構成されています。
ベンチマークには、52の異なる言語の88の異なるWebサイトからの多様なメディアコンテンツが含まれています。
Deepfake-Eval-2024で評価されると、オープンソースの最先端のディープファーセクションモデルのパフォーマンスは、ビデオで50%、オーディオで48%、前のベンチマークと比較して画像モデルで45%減少すると、急激に低下します。
また、Deepfake-Eval-2024で微調整された商業ディープファーク検出モデルとモデルを評価し、既製のオープンソースモデルよりも優れたパフォーマンスを持っていることがわかりますが、まだ人間のディープフェイクフォレンジックアナリストの精度に達していません。
データセットはhttps://github.com/nuriachandra/deepfake-eval-2024で入手できます。

要約(オリジナル)

In the age of increasingly realistic generative AI, robust deepfake detection is essential for mitigating fraud and disinformation. While many deepfake detectors report high accuracy on academic datasets, we show that these academic benchmarks are out of date and not representative of recent deepfakes. We introduce Deepfake-Eval-2024, a new deepfake detection benchmark consisting of in-the-wild deepfakes collected from social media and deepfake detection platform users in 2024. Deepfake-Eval-2024 consists of 44 hours of videos, 56.5 hours of audio, and 1,975 images, encompassing the latest manipulation technologies. The benchmark contains diverse media content from 88 different websites in 52 different languages. We find that the performance of open-source state-of-the-art deepfake detection models drops precipitously when evaluated on Deepfake-Eval-2024, with AUC decreasing by 50% for video, 48% for audio, and 45% for image models compared to previous benchmarks. We also evaluate commercial deepfake detection models and models finetuned on Deepfake-Eval-2024, and find that they have superior performance to off-the-shelf open-source models, but they do not yet reach the accuracy of human deepfake forensic analysts. The dataset is available at https://github.com/nuriachandra/Deepfake-Eval-2024.

arxiv情報

著者 Nuria Alina Chandra,Ryan Murtfeldt,Lin Qiu,Arnab Karmakar,Hannah Lee,Emmanuel Tanumihardja,Kevin Farhat,Ben Caffee,Sejin Paik,Changyeon Lee,Jongwook Choi,Aerin Kim,Oren Etzioni
発行日 2025-03-04 18:33:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024 はコメントを受け付けていません

VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning

要約

マルチモーダル大手言語モデル(MLLM)は、視覚情報とテキスト情報を統合するための強力なツールになりました。
視覚的理解ベンチマークに関する並外れたパフォーマンスにもかかわらず、複数の画像を抽象的に推論する能力を測定する能力は依然として重要な課題です。
これに対処するために、MLLMの知覚的理解と抽象的なリレーショナル推論を評価するために設計された大規模でオープンエンドの動的なベンチマークであるVoilaを紹介します。
Voilaは、視覚ドメインで類似のマッピングアプローチを採用しており、事前定義された選択に依存することなく、指定された2つの画像ペア、参照、アプリケーションの類似性を完了する画像を生成するモデルを必要とします。
私たちの実験は、Voilaの類似の推論タスクがMLLMSに課題をもたらすことを示しています。
マルチステップ分析を通じて、現在のMLLMがイメージ間の関係を理解するのに苦労し、高レベルの関係推論に限られた能力を示すことを明らかにします。
特に、パフォーマンスは、最も少ないプロンプトのマルチステップ戦略に従うときに改善されることを観察します。
オープンソースモデルとGPT-4Oの包括的な評価は、テキストベースの回答では、挑戦的なシナリオの最良の精度は13%(Llama 3.2)であり、より単純なタスクでも29%(GPT-4O)であることを示していますが、人間のパフォーマンスは両方の難易度で70%で有意に高いことを示しています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have become a powerful tool for integrating visual and textual information. Despite their exceptional performance on visual understanding benchmarks, measuring their ability to reason abstractly across multiple images remains a significant challenge. To address this, we introduce VOILA, a large-scale, open-ended, dynamic benchmark designed to evaluate MLLMs’ perceptual understanding and abstract relational reasoning. VOILA employs an analogical mapping approach in the visual domain, requiring models to generate an image that completes an analogy between two given image pairs, reference and application, without relying on predefined choices. Our experiments demonstrate that the analogical reasoning tasks in VOILA present a challenge to MLLMs. Through multi-step analysis, we reveal that current MLLMs struggle to comprehend inter-image relationships and exhibit limited capabilities in high-level relational reasoning. Notably, we observe that performance improves when following a multi-step strategy of least-to-most prompting. Comprehensive evaluations on open-source models and GPT-4o show that on text-based answers, the best accuracy for challenging scenarios is 13% (LLaMa 3.2) and even for simpler tasks is only 29% (GPT-4o), while human performance is significantly higher at 70% across both difficulty levels.

arxiv情報

著者 Nilay Yilmaz,Maitreya Patel,Yiran Lawrence Luo,Tejas Gokhale,Chitta Baral,Suren Jayasuriya,Yezhou Yang
発行日 2025-03-04 18:47:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning はコメントを受け付けていません

VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge

要約

Generalist Vision Language Models(VLMS)はコンピュータービジョンに大きな進歩を遂げていますが、専門知識が不可欠なヘルスケアのような専門分野では不足しています。
従来のコンピュータービジョンタスクでは、創造的または近似的な回答が受け入れられる場合がありますが、ヘルスケアでは、精度が最重要です。ジェミニやGPT-4Oなどの大規模なマルチモーダルモデルは、ヘルスケアで必要な微妙なインターネット知識に依存するため、医療タスクには不十分です。
VLMは通常、3段階でトレーニングされます。ビジョン前トレーニング、ビジョン言語のトレーニング、および指導微調整(IFT)です。
IFTは通常、ジェネリックデータとヘルスケアデータの混合を使用して適用されています。
対照的に、医療VLMについては、医療データに焦点を当て、ドメインの専門家モデルからの情報を含む専門IFTの第4段階が必要であることを提案します。
医療用に開発されたドメインエキスパートモデルは、特定の臨床タスクのために特別に訓練されているため、重要です。
腫瘍を検出し、セグメンテーションと分類を通じて異常を分類します。セグメンテーションと分類は、特に放射線学で効果的にキャプチャするにはVLMが複雑すぎる医療データ$-$の特徴を学習します。
このペーパーでは、エキスパートモデルを介してドメインの知識を利用する医療VLMの新しいフレームワークであるVila-M3を紹介します。
実験を通じて、以前のSOTAモデルMed-Geminiで平均9%、特定のタスクで訓練されたモデルよりも約6%の最先端(SOTA)のパフォーマンスが向上しました。
私たちのアプローチは、医療用途向けの正確で信頼性の高いVLMを作成する際のドメインの専門知識の重要性を強調しています。

要約(オリジナル)

Generalist vision language models (VLMs) have made significant strides in computer vision, but they fall short in specialized fields like healthcare, where expert knowledge is essential. In traditional computer vision tasks, creative or approximate answers may be acceptable, but in healthcare, precision is paramount.Current large multimodal models like Gemini and GPT-4o are insufficient for medical tasks due to their reliance on memorized internet knowledge rather than the nuanced expertise required in healthcare. VLMs are usually trained in three stages: vision pre-training, vision-language pre-training, and instruction fine-tuning (IFT). IFT has been typically applied using a mixture of generic and healthcare data. In contrast, we propose that for medical VLMs, a fourth stage of specialized IFT is necessary, which focuses on medical data and includes information from domain expert models. Domain expert models developed for medical use are crucial because they are specifically trained for certain clinical tasks, e.g. to detect tumors and classify abnormalities through segmentation and classification, which learn fine-grained features of medical data$-$features that are often too intricate for a VLM to capture effectively especially in radiology. This paper introduces a new framework, VILA-M3, for medical VLMs that utilizes domain knowledge via expert models. Through our experiments, we show an improved state-of-the-art (SOTA) performance with an average improvement of ~9% over the prior SOTA model Med-Gemini and ~6% over models trained on the specific tasks. Our approach emphasizes the importance of domain expertise in creating precise, reliable VLMs for medical applications.

arxiv情報

著者 Vishwesh Nath,Wenqi Li,Dong Yang,Andriy Myronenko,Mingxin Zheng,Yao Lu,Zhijian Liu,Hongxu Yin,Yucheng Tang,Pengfei Guo,Can Zhao,Ziyue Xu,Yufan He,Greg Heinrich,Yee Man Law,Benjamin Simon,Stephanie Harmon,Stephen Aylward,Marc Edgar,Michael Zephyr,Song Han,Pavlo Molchanov,Baris Turkbey,Holger Roth,Daguang Xu
発行日 2025-03-04 18:51:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | VILA-M3: Enhancing Vision-Language Models with Medical Expert Knowledge はコメントを受け付けていません

SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models

要約

計算病理学でAIを進めるには、大規模で高品質で多様なデータセットが必要ですが、既存のパブリックデータセットは、多くの場合、臓器の多様性、クラスカバレッジ、または注釈の品質が限られています。
このギャップを埋めるために、皮膚、結腸直腸、胸部を含む複数の器官タイプをカバーする最大のパッチレベルのデータセットである、各臓器の包括的なクラスカバーをカバーする最大のパッチレベルのデータセットであるクモ(監視された病理学の画像と説明リポジトリ)を紹介します。
Spiderは、専門家の病理学者によって検証された高品質の注釈を提供し、周囲のコンテキストパッチを含み、空間コンテキストを提供することで分類パフォーマンスを向上させます。
データセットに沿って、Hibou-L Foundationモデルを使用してSpiderでトレーニングされたベースラインモデルを、注意ベースの分類ヘッドと組み合わせた特徴抽出器として提示します。
モデルは、複数の組織カテゴリにわたって最先端のパフォーマンスを実現し、将来のデジタル病理研究のための強力なベンチマークとして機能します。
パッチ分類を超えて、このモデルは、重要な領域の迅速な識別を可能にし、定量的組織メトリックを可能にし、マルチモーダルアプローチの基礎を確立します。
データセットと訓練されたモデルの両方が、研究、再現性、およびAI駆動型病理開発を進めるために公開されています。
アクセス:https://github.com/histai/spider

要約(オリジナル)

Advancing AI in computational pathology requires large, high-quality, and diverse datasets, yet existing public datasets are often limited in organ diversity, class coverage, or annotation quality. To bridge this gap, we introduce SPIDER (Supervised Pathology Image-DEscription Repository), the largest publicly available patch-level dataset covering multiple organ types, including Skin, Colorectal, and Thorax, with comprehensive class coverage for each organ. SPIDER provides high-quality annotations verified by expert pathologists and includes surrounding context patches, which enhance classification performance by providing spatial context. Alongside the dataset, we present baseline models trained on SPIDER using the Hibou-L foundation model as a feature extractor combined with an attention-based classification head. The models achieve state-of-the-art performance across multiple tissue categories and serve as strong benchmarks for future digital pathology research. Beyond patch classification, the model enables rapid identification of significant areas, quantitative tissue metrics, and establishes a foundation for multimodal approaches. Both the dataset and trained models are publicly available to advance research, reproducibility, and AI-driven pathology development. Access them at: https://github.com/HistAI/SPIDER

arxiv情報

著者 Dmitry Nechaev,Alexey Pchelnikov,Ekaterina Ivanova
発行日 2025-03-04 18:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | SPIDER: A Comprehensive Multi-Organ Supervised Pathology Dataset and Baseline Models はコメントを受け付けていません