要約
肺がんは、世界中の癌関連の死亡率の主要な原因の1つです。
早期診断のための重要な課題は、同様の視覚特性と密接に注釈スコアを持つ不確実な症例を区別することです。
臨床診療では、放射線科医は、コンピューター断層撮影(CT)画像から抽出された定量的な手作りの放射性特徴に依存していますが、最近の研究は主に深い学習ソリューションに焦点を当てています。
より最近では、ビジョン言語モデル(VLM)、特に対照的な言語イメージ前トレーニング(CLIP)ベースのモデルは、テキスト知識を肺がん診断に統合する能力に注目を集めています。
Clip-Lungモデルは有望な結果を示していますが、以下の潜在的な制限を特定しました。(a)本質的に主観的でエラーが発生しやすい放射線科医の注釈付き属性、(b)トレーニング中のみテキスト情報の使用、推論での直接的な適用性を制限し、(c)ランダムに初期化された体重を伴う畳み込みベースのビジョンエンコーダー、
これらの制限に対処するために、Autorad-Lungを導入します。Autorad-Lungは、手作りの放射線から生成されたプロンプトとともに、自動網目上事前に訓練されたVLMを結びつけます。
Autorad-Lungは、マルチモーダルの自己回帰目標を使用して事前に訓練された大規模な自己回帰画像モデル(AIMV2)のビジョンエンコーダーを使用します。
肺腫瘍は通常小さく、不規則に形作られ、健康な組織に視覚的に類似していることを考えると、オートラード肺は、ピクセルレベルの違いを捕捉することにより、クリップベースの対応物よりも大きな利点を提供します。
さらに、条件付きコンテキストの最適化を導入します。コンテキストの最適化は、入力放射性に基づいてコンテキスト固有のプロンプトを動的に生成し、クロスモーダルアライメントを改善します。
要約(オリジナル)
Lung cancer remains one of the leading causes of cancer-related mortality worldwide. A crucial challenge for early diagnosis is differentiating uncertain cases with similar visual characteristics and closely annotation scores. In clinical practice, radiologists rely on quantitative, hand-crafted Radiomic features extracted from Computed Tomography (CT) images, while recent research has primarily focused on deep learning solutions. More recently, Vision-Language Models (VLMs), particularly Contrastive Language-Image Pre-Training (CLIP)-based models, have gained attention for their ability to integrate textual knowledge into lung cancer diagnosis. While CLIP-Lung models have shown promising results, we identified the following potential limitations: (a) dependence on radiologists’ annotated attributes, which are inherently subjective and error-prone, (b) use of textual information only during training, limiting direct applicability at inference, and (c) Convolutional-based vision encoder with randomly initialized weights, which disregards prior knowledge. To address these limitations, we introduce AutoRad-Lung, which couples an autoregressively pre-trained VLM, with prompts generated from hand-crafted Radiomics. AutoRad-Lung uses the vision encoder of the Large-Scale Autoregressive Image Model (AIMv2), pre-trained using a multi-modal autoregressive objective. Given that lung tumors are typically small, irregularly shaped, and visually similar to healthy tissue, AutoRad-Lung offers significant advantages over its CLIP-based counterparts by capturing pixel-level differences. Additionally, we introduce conditional context optimization, which dynamically generates context-specific prompts based on input Radiomics, improving cross-modal alignment.
arxiv情報
著者 | Sadaf Khademi,Mehran Shabanpour,Reza Taleei,Anastasia Oikonomou,Arash Mohammadi |
発行日 | 2025-03-26 15:56:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google