要約
この論文では、医用画像解析 (MIA) 用のプラグアンドプレイ変換推論ツールとして Generative Pre-trained Transformer (GPT) を利用する新しいアプローチ (GPT4MIA と呼ばれる) を提案します。
GPT-3 などの大規模な事前トレーニング済み言語モデルを MIA のプラグアンドプレイ変換推論モデルとして使用できる理由について、理論的分析を提供します。
方法論レベルでは、GPT4MIA の効率と有効性を改善するためのいくつかの技術的処理を開発します。これには、より迅速な構造設計、サンプル選択、代表的なサンプル/機能の迅速な注文が含まれます。
GPT4MIA の 2 つの具体的なユース ケース (ワークフローを含む) を提示します。(1) 予測エラーの検出、および (2) 画像分類のための確立された視覚ベースのモデル (ResNet など) を使用した推測に基づいた予測精度の向上。
実験は、提案された方法がこれら2つのタスクに有効であることを検証します。
さらに、Transformer ベースの大規模言語モデルをより広範な MIA アプリケーションに利用する機会と課題についても説明します。
要約(オリジナル)
In this paper, we propose a novel approach (called GPT4MIA) that utilizes Generative Pre-trained Transformer (GPT) as a plug-and-play transductive inference tool for medical image analysis (MIA). We provide theoretical analysis on why a large pre-trained language model such as GPT-3 can be used as a plug-and-play transductive inference model for MIA. At the methodological level, we develop several technical treatments to improve the efficiency and effectiveness of GPT4MIA, including better prompt structure design, sample selection, and prompt ordering of representative samples/features. We present two concrete use cases (with workflow) of GPT4MIA: (1) detecting prediction errors and (2) improving prediction accuracy, working in conjecture with well-established vision-based models for image classification (e.g., ResNet). Experiments validate that our proposed method is effective for these two tasks. We further discuss the opportunities and challenges in utilizing Transformer-based large language models for broader MIA applications.
arxiv情報
著者 | Yizhe Zhang,Danny Z. Chen |
発行日 | 2023-03-21 12:59:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google