Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images

要約

皮膚疾患の診断における人工知能(AI)は大幅に改善されていますが、これらのモデルは、特に肌の色などの敏感な属性に関して、サブグループ全体で偏ったパフォーマンスを頻繁に示すことです。
これらの問題に対処するために、新しい生成的AIベースのフレームワーク、すなわち皮膚科学拡散トランス(Dermdit)を提案します。これは、ビジョン言語モデルとマルチモーダルテキストイメージ学習を介して生成されたテキストプロンプトを活用して、新しいデモスコピック画像を生成します。
大規模なビジョン言語モデルを利用して、臨床診断のための非常に不均衡なデータセットで、過小評価されたグループ(患者、病気など)の表現を改善するために合成画像を生成するのに役立つ各皮膚鏡画像の正確で適切なプロンプトを生成します。
当社の広範な実験では、Dermditが高品質の画像を生成できるようにする、はるかに洞察に富んだ表現を提供する大規模なビジョン言語モデルを紹介します。
私たちのコードは、https://github.com/munia03/dermditで入手できます

要約(オリジナル)

Artificial Intelligence (AI) in skin disease diagnosis has improved significantly, but a major concern is that these models frequently show biased performance across subgroups, especially regarding sensitive attributes such as skin color. To address these issues, we propose a novel generative AI-based framework, namely, Dermatology Diffusion Transformer (DermDiT), which leverages text prompts generated via Vision Language Models and multimodal text-image learning to generate new dermoscopic images. We utilize large vision language models to generate accurate and proper prompts for each dermoscopic image which helps to generate synthetic images to improve the representation of underrepresented groups (patient, disease, etc.) in highly imbalanced datasets for clinical diagnoses. Our extensive experimentation showcases the large vision language models providing much more insightful representations, that enable DermDiT to generate high-quality images. Our code is available at https://github.com/Munia03/DermDiT

arxiv情報

著者 Nusrat Munia,Abdullah-Al-Zubaer Imran
発行日 2025-04-02 15:44:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク