Data Alignment for Zero-Shot Concept Generation in Dermatology AI

要約

皮膚科における AI は急速に進化していますが、信頼できる分類器をトレーニングする際の主な制限は、人間にとって意味的に意味のあるメタラベルであるグラウンドトゥルースの概念レベルのラベルを持つデータが不足していることです。
ゼロショット機能を提供する CLIP のような基盤モデルは、インターネット上で入手可能な膨大な量の画像とキャプションのペアを活用することで、この課題を軽減するのに役立ちます。
CLIP は、ドメイン固有の画像とキャプションのペアを使用して微調整して、分類パフォーマンスを向上させることができます。
ただし、CLIP の事前トレーニング データは、臨床医が診断を行うために使用する医療専門用語と十分に一致していません。
近年の大規模言語モデル (LLM) の開発により、これらのモデルの表現力豊かな性質を活用してリッチ テキストを生成できる可能性が生まれました。
私たちの目標は、これらのモデルを使用して、臨床用語集と、CLIP の事前トレーニング データで使用される人間の自然言語の両方によく適合するキャプション テキストを生成することです。
PubMed 論文の画像に使用されるキャプションから始めて、生のキャプションを、その分野のいくつかの教科書に基づいて微調整された LLM に渡すことでキャプションを拡張します。
GPT-3.5 のような表現力豊かに微調整された LLM によって生成されたキャプションを使用すると、ダウンストリームのゼロショット概念分類パフォーマンスが向上することがわかりました。

要約(オリジナル)

AI in dermatology is evolving at a rapid pace but the major limitation to training trustworthy classifiers is the scarcity of data with ground-truth concept level labels, which are meta-labels semantically meaningful to humans. Foundation models like CLIP providing zero-shot capabilities can help alleviate this challenge by leveraging vast amounts of image-caption pairs available on the internet. CLIP can be fine-tuned using domain specific image-caption pairs to improve classification performance. However, CLIP’s pre-training data is not well-aligned with the medical jargon that clinicians use to perform diagnoses. The development of large language models (LLMs) in recent years has led to the possibility of leveraging the expressive nature of these models to generate rich text. Our goal is to use these models to generate caption text that aligns well with both the clinical lexicon and with the natural human language used in CLIP’s pre-training data. Starting with captions used for images in PubMed articles, we extend them by passing the raw captions through an LLM fine-tuned on the field’s several textbooks. We find that using captions generated by an expressive fine-tuned LLM like GPT-3.5 improves downstream zero-shot concept classification performance.

arxiv情報

著者 Soham Gadgil,Mahtab Bigverdi
発行日 2024-04-19 17:57:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク