Synthetic Generation of Dermatoscopic Images with GAN and Closed-Form Factorization

要約

さまざまな病状を正確かつ早期に検出するには、皮膚鏡および顕微鏡による皮膚病変画像の分析が極めて重要である皮膚科診断の分野では、多様で高品質の注釈付きデータセットの作成に関連するコストが、機械の精度と汎用性を妨げています。
学習モデル。
私たちは、敵対的生成ネットワーク (GAN) ベースのモデルとその潜在空間上の関連技術を利用して、皮膚鏡画像内で制御された半自動的に発見された意味論的バリエーションを生成する、革新的な教師なし拡張ソリューションを提案します。
セマンティックなバリエーションを組み込むために合成画像を作成し、これらの画像を使用してトレーニング データを強化しました。
このアプローチにより、機械学習モデルのパフォーマンスを向上させ、HAM10000 データセットの皮膚病変分類における非アンサンブル ベースのモデルの中で新しいベンチマークを設定することができました。
また、観察された分析と生成されたモデルをモデルの説明可能性に関する詳細な研究に使用し、ソリューションの有効性を確認しました。

要約(オリジナル)

In the realm of dermatological diagnoses, where the analysis of dermatoscopic and microscopic skin lesion images is pivotal for the accurate and early detection of various medical conditions, the costs associated with creating diverse and high-quality annotated datasets have hampered the accuracy and generalizability of machine learning models. We propose an innovative unsupervised augmentation solution that harnesses Generative Adversarial Network (GAN) based models and associated techniques over their latent space to generate controlled semiautomatically-discovered semantic variations in dermatoscopic images. We created synthetic images to incorporate the semantic variations and augmented the training data with these images. With this approach, we were able to increase the performance of machine learning models and set a new benchmark amongst non-ensemble based models in skin lesion classification on the HAM10000 dataset; and used the observed analytics and generated models for detailed studies on model explainability, affirming the effectiveness of our solution.

arxiv情報

著者 Rohan Reddy Mekala,Frederik Pahde,Simon Baur,Sneha Chandrashekar,Madeline Diep,Markus Wenzel,Eric L. Wisotzky,Galip Ümit Yolcu,Sebastian Lapuschkin,Jackie Ma,Peter Eisert,Mikael Lindvall,Adam Porter,Wojciech Samek
発行日 2024-10-07 15:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Autoregressive Image Diffusion: Generation of Image Sequence and Application in MRI

要約

磁気共鳴画像法 (MRI) は、広く使用されている非侵襲性画像診断法です。
ただし、画質と画像処理速度のバランスをとることが常に課題となっています。
このトレードオフは主に、空間フーリエ領域 (k 空間) 内の特定の軌道を横断する k 空間測定によって制約されます。
これらの測定値は、取得時間を短縮するためにアンダーサンプリングされることが多く、その結果、画像アーチファクトが発生し、品質が低下します。
生成モデルは画像分布を学習し、アンダーサンプリングされた k 空間データから高品質の画像を再構成するために使用できます。
この研究では、画像シーケンスの自己回帰画像拡散 (AID) モデルを提示し、それを使用して MRI 再構成を加速するための事後画像をサンプリングします。
このアルゴリズムには、アンダーサンプリングされた k 空間と既存の情報の両方が組み込まれています。
fastMRI データセットでトレーニングされたモデルは包括的に評価されます。
結果は、AID モデルが連続的にコヒーレントな画像シーケンスを堅牢に生成できることを示しています。
MRI アプリケーションでは、学習された画像間の依存関係により、AID は標準の拡散モデルよりも優れたパフォーマンスを発揮し、幻覚を軽減できます。
プロジェクトのコードは https://github.com/mrirecon/aid で入手できます。

要約(オリジナル)

Magnetic resonance imaging (MRI) is a widely used non-invasive imaging modality. However, a persistent challenge lies in balancing image quality with imaging speed. This trade-off is primarily constrained by k-space measurements, which traverse specific trajectories in the spatial Fourier domain (k-space). These measurements are often undersampled to shorten acquisition times, resulting in image artifacts and compromised quality. Generative models learn image distributions and can be used to reconstruct high-quality images from undersampled k-space data. In this work, we present the autoregressive image diffusion (AID) model for image sequences and use it to sample the posterior for accelerated MRI reconstruction. The algorithm incorporates both undersampled k-space and pre-existing information. Models trained with fastMRI dataset are evaluated comprehensively. The results show that the AID model can robustly generate sequentially coherent image sequences. In MRI applications, the AID can outperform the standard diffusion model and reduce hallucinations, due to the learned inter-image dependencies. The project code is available at https://github.com/mrirecon/aid.

arxiv情報

著者 Guanxiong Luo,Shoujin Huang,Martin Uecker
発行日 2024-10-07 15:10:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV | コメントする

Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning

要約

安定拡散 (SD) の微調整による制御可能な生成は、忠実度、安全性、および人間のガイダンスとの整合性を向上させることを目的としています。
ヒューマンフィードバック手法による既存の強化学習は、通常、事前定義されたヒューリスティックな報酬関数や、大規模なデータセットに基づいて構築された事前トレーニングされた報酬モデルに依存しており、そのようなデータの収集がコストがかかる、または困難なシナリオへの適用は限られています。
人間のフィードバックを効果的かつ効率的に活用するために、モデル学習中にその場で収集されたオンラインの人間のフィードバックを活用するフレームワーク HERO を開発しました。
具体的には、HERO は 2 つの重要なメカニズムを備えています。(1) 人間のフィードバックを取得し、微調整のための有益な学習信号を提供するオンライン トレーニング手法であるフィードバック整合表現学習と、(2) から画像を生成するフィードバック誘導画像生成
SD の洗練された初期化サンプルにより、評価者の意図に向けたより迅速な収束が可能になります。
HERO は、既存の最良の方法と比較して、体の部位の異常を修正するためのオンライン フィードバックが 4 倍効率的であることを実証しました。
さらに、実験では、HERO がわずか 0.5,000 件のオンライン フィードバックで推論、カウント、パーソナライゼーション、NSFW コンテンツの削減などのタスクを効果的に処理できることが示されています。

要約(オリジナル)

Controllable generation through Stable Diffusion (SD) fine-tuning aims to improve fidelity, safety, and alignment with human guidance. Existing reinforcement learning from human feedback methods usually rely on predefined heuristic reward functions or pretrained reward models built on large-scale datasets, limiting their applicability to scenarios where collecting such data is costly or difficult. To effectively and efficiently utilize human feedback, we develop a framework, HERO, which leverages online human feedback collected on the fly during model learning. Specifically, HERO features two key mechanisms: (1) Feedback-Aligned Representation Learning, an online training method that captures human feedback and provides informative learning signals for fine-tuning, and (2) Feedback-Guided Image Generation, which involves generating images from SD’s refined initialization samples, enabling faster convergence towards the evaluator’s intent. We demonstrate that HERO is 4x more efficient in online feedback for body part anomaly correction compared to the best existing method. Additionally, experiments show that HERO can effectively handle tasks like reasoning, counting, personalization, and reducing NSFW content with only 0.5K online feedback.

arxiv情報

著者 Ayano Hiranaka,Shang-Fu Chen,Chieh-Hsin Lai,Dongjun Kim,Naoki Murata,Takashi Shibuya,Wei-Hsiang Liao,Shao-Hua Sun,Yuki Mitsufuji
発行日 2024-10-07 15:12:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG | コメントする

Persistent Test-time Adaptation in Recurring Testing Scenarios

要約

現在のテスト時間適応 (TTA) アプローチは、継続的に変化する環境に適応することを目的としています。
しかし、TTA 手法が長期間にわたって適応性を維持できるかどうかは不明です。
この質問に答えるために、診断設定である **定期的な TTA** を導入します。この設定では、環境が変化するだけでなく、時間の経過とともに繰り返し、広範なデータ ストリームが作成されます。
この設定により、TTA モデルを定期的に以前のテスト環境にさらした場合の最も基本的なシナリオで、TTA モデルのエラーの蓄積を調べることができます。
さらに、単純だが代表的な $\epsilon$-**摂動ガウス混合モデル分類子** で TTA プロセスをシミュレーションし、段階的なパフォーマンス低下に寄与するデータセットとアルゴリズムに依存する要因について理論的な洞察を導き出します。
私たちの調査の結果、**永続的 TTA (PeTTA)** を提案するに至りました。これは、モデルが崩壊に向かって発散しつつあるときを感知し、適応戦略を調整して、適応とモデル崩壊防止という 2 つの目的の間のバランスを取るものです。
生涯にわたる TTA シナリオに直面した場合、既存のアプローチよりも PeTTA が優れた安定性を持っていることが、さまざまなベンチマークに関する包括的な実験で実証されています。

要約(オリジナル)

Current test-time adaptation (TTA) approaches aim to adapt to environments that change continuously. Yet, it is unclear whether TTA methods can maintain their adaptability over prolonged periods. To answer this question, we introduce a diagnostic setting – **recurring TTA** where environments not only change but also recur over time, creating an extensive data stream. This setting allows us to examine the error accumulation of TTA models, in the most basic scenario, when they are regularly exposed to previous testing environments. Furthermore, we simulate a TTA process on a simple yet representative $\epsilon$-**perturbed Gaussian Mixture Model Classifier**, deriving theoretical insights into the dataset- and algorithm-dependent factors contributing to gradual performance degradation. Our investigation leads us to propose **persistent TTA (PeTTA)**, which senses when the model is diverging towards collapse and adjusts the adaptation strategy, striking a balance between the dual objectives of adaptation and model collapse prevention. The supreme stability of PeTTA over existing approaches, in the face of lifelong TTA scenarios, has been demonstrated over comprehensive experiments on various benchmarks.

arxiv情報

著者 Trung-Hieu Hoang,Duc Minh Vo,Minh N. Do
発行日 2024-10-07 15:36:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics

要約

Explainable AI (XAI) は、無数の手法とその有効性を評価することを目的とした指標が提案されている急速に成長している分野です。
ただし、現在の研究は範囲が限られていることが多く、少数の XAI 手法のみを検証し、モデル アーキテクチャや入力データの性質など、パフォーマンスに関する基本的な設計パラメータを無視しています。
さらに、多くの場合、1 つまたは少数の指標に依存し、徹底的な検証を無視するため、選択バイアスのリスクが高まり、指標間の不一致が無視されます。
これらの欠点により、専門家は問題に対してどの方法を選択すればよいか混乱することになります。
これに応えて、20 の異なるメトリクスを使用して 17 の著名な XAI メソッドを批判的に評価する大規模ベンチマークである LATEC を紹介します。
さまざまなアーキテクチャや多様な入力モダリティなどの重要な設計パラメータを体系的に組み込んでおり、その結果、7,560 通りの組み合わせが検討されました。
LATEC を通じて、信頼性の低いランキングにつながる矛盾する指標の高いリスクを示し、その結果、より堅牢な評価スキームを提案します。
さらに、さまざまな XAI 手法を総合的に評価し、実務者のニーズに合わせた適切な手法の選択を支援します。
不思議なことに、新たに登場した最高のパフォーマンスを誇る手法であるExpected Gradientsは、関連するいかなる研究でも検証されていません。
LATEC は、326,000 の顕著性マップと 378,000 のメトリクス スコアをすべて (メタ) 評価データセットとして公開することで、将来の XAI 研究における役割を強化します。
ベンチマークは https://github.com/IML-DKFZ/latec でホストされています。

要約(オリジナル)

Explainable AI (XAI) is a rapidly growing domain with a myriad of proposed methods as well as metrics aiming to evaluate their efficacy. However, current studies are often of limited scope, examining only a handful of XAI methods and ignoring underlying design parameters for performance, such as the model architecture or the nature of input data. Moreover, they often rely on one or a few metrics and neglect thorough validation, increasing the risk of selection bias and ignoring discrepancies among metrics. These shortcomings leave practitioners confused about which method to choose for their problem. In response, we introduce LATEC, a large-scale benchmark that critically evaluates 17 prominent XAI methods using 20 distinct metrics. We systematically incorporate vital design parameters like varied architectures and diverse input modalities, resulting in 7,560 examined combinations. Through LATEC, we showcase the high risk of conflicting metrics leading to unreliable rankings and consequently propose a more robust evaluation scheme. Further, we comprehensively evaluate various XAI methods to assist practitioners in selecting appropriate methods aligning with their needs. Curiously, the emerging top-performing method, Expected Gradients, is not examined in any relevant related study. LATEC reinforces its role in future XAI research by publicly releasing all 326k saliency maps and 378k metric scores as a (meta-)evaluation dataset. The benchmark is hosted at: https://github.com/IML-DKFZ/latec.

arxiv情報

著者 Lukas Klein,Carsten T. Lüth,Udo Schlegel,Till J. Bungert,Mennatallah El-Assady,Paul F. Jäger
発行日 2024-10-07 15:53:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Leveraging Multimodal Diffusion Models to Accelerate Imaging with Side Information

要約

拡散モデルは、逆問題を解決するための表現力豊かな事前分布として驚異的な成功を収めてきましたが、自然画像を超えてより構造化された科学領域への拡張には依然として限界があります。
材料科学への応用を動機として、私たちは、はるかに安価に入手できる補助モダリティからの副次的な情報を活用することにより、対象となる高価な画像モダリティに必要な測定数を削減することを目指しています。
フォワード モデルの微分不可能でブラック ボックスの性質に対処するために、結合モダリティにわたってマルチモーダル拡散モデルをトレーニングし、ブラック ボックス フォワード モデルの逆問題を単純な線形修復問題に変換するフレームワークを提案します。
我々は、材料画像データに対する拡散モデルのトレーニングの実現可能性を数値的に実証し、我々のアプローチが利用可能な副情報を活用することで優れた画像再構成を実現し、高価な顕微鏡モダリティから必要なデータ量が大幅に減少することを示します。

要約(オリジナル)

Diffusion models have found phenomenal success as expressive priors for solving inverse problems, but their extension beyond natural images to more structured scientific domains remains limited. Motivated by applications in materials science, we aim to reduce the number of measurements required from an expensive imaging modality of interest, by leveraging side information from an auxiliary modality that is much cheaper to obtain. To deal with the non-differentiable and black-box nature of the forward model, we propose a framework to train a multimodal diffusion model over the joint modalities, turning inverse problems with black-box forward models into simple linear inpainting problems. Numerically, we demonstrate the feasibility of training diffusion models over materials imagery data, and show that our approach achieves superior image reconstruction by leveraging the available side information, requiring significantly less amount of data from the expensive microscopy modality.

arxiv情報

著者 Timofey Efimov,Harry Dong,Megna Shah,Jeff Simmons,Sean Donegan,Yuejie Chi
発行日 2024-10-07 15:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

NoSENSE: Learned unrolled cardiac MRI reconstruction without explicit sensitivity maps

要約

我々は、深層畳み込みニューラルネットワーク(CNN)とアルゴリズムアンローリングに基づいた複数の受信コイルを備えた加速心臓MRIのための新しい学習画像再構成方法を提案します。
別個のネットワークコンポーネントとしてコイル感度マップ(CSM)推定を必要とする多くの既存の学習済みMR画像再構成技術とは対照的に、私たちが提案するアプローチは明示的なCSM推定を回避します。
代わりに、画像のコイル間の関係を暗黙的にキャプチャし、利用する方法を学習します。
私たちの方法は、共有潜在情報と特徴ごとの変調 (FiLM) による取得パラメータへの適応を備えた一連の新しい学習画像ブロックと k 空間ブロック、およびコイルごとのデータ整合性 (DC) ブロックで構成されます。
私たちの方法は、MICCAI STACOM CMRxRecon Challenge のシネ トラックとマッピング トラック検証リーダーボードで、それぞれ PSNR 値 34.89 と 35.56、SSIM 値 0.920 と 0.942 を達成し、執筆時点でさまざまなチーム中 4 位にランクされています。
コードは https://github.com/fzimmermann89/CMRxRecon で利用可能になります。

要約(オリジナル)

We present a novel learned image reconstruction method for accelerated cardiac MRI with multiple receiver coils based on deep convolutional neural networks (CNNs) and algorithm unrolling. In contrast to many existing learned MR image reconstruction techniques that necessitate coil-sensitivity map (CSM) estimation as a distinct network component, our proposed approach avoids explicit CSM estimation. Instead, it implicitly captures and learns to exploit the inter-coil relationships of the images. Our method consists of a series of novel learned image and k-space blocks with shared latent information and adaptation to the acquisition parameters by feature-wise modulation (FiLM), as well as coil-wise data-consistency (DC) blocks. Our method achieved PSNR values of 34.89 and 35.56 and SSIM values of 0.920 and 0.942 in the cine track and mapping track validation leaderboard of the MICCAI STACOM CMRxRecon Challenge, respectively, ranking 4th among different teams at the time of writing. Code will be made available at https://github.com/fzimmermann89/CMRxRecon

arxiv情報

著者 Felix Frederik Zimmermann,Andreas Kofler
発行日 2024-10-07 16:05:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV, physics.med-ph | コメントする

MIBench: A Comprehensive Benchmark for Model Inversion Attack and Defense

要約

モデル反転 (MI) 攻撃は、ターゲット モデルの出力情報を利用してプライバシーに配慮したトレーニング データを再構築することを目的としており、ディープ ニューラル ネットワーク (DNN) のプライバシーの脅威に対する広く懸念が生じています。
残念ながら、MI 攻撃の急速な進化と並行して、包括的で整合性のある信頼できるベンチマークの欠如が、手強い課題として浮上しています。
この欠陥により、さまざまな攻撃方法間の比較が不十分になったり、実験設定が一貫性を持たなくなったりすることがあります。
この論文では、この重大なギャップに対処するためのモデル反転攻撃と防御のための最初の実用的なベンチマークを紹介します。これは \textit{MIBench} と名付けられています。
このベンチマークは、拡張可能で再現可能なモジュールベースのツールボックスとして機能し、現在合計 16 の最先端の攻撃および防御方法を統合しています。
さらに、標準化された公正な評価と分析を促進するために、一般的に使用される 9 つの評価プロトコルを含む一連の評価ツールを提供します。
この基盤を利用して、さまざまなシナリオにわたるさまざまな手法のパフォーマンスを総合的に比較および分析するために、複数の観点から広範な実験を実施します。これにより、以前の研究で一般的だった位置ずれの問題や不一致が克服されます。
収集した攻撃手法と防御戦略に基づいて、ターゲットの解像度、防御の堅牢性、モデルの予測力、モデルのアーキテクチャ、伝達性、損失関数の影響を分析します。
私たちの希望は、この \textit{MIBench} が統合された実用的で拡張可能なツールボックスを提供し、この分野の研究者によって新しい手法を厳密にテストおよび比較するために広く利用され、公平な評価を確保し、それによって将来の開発をさらに前進させることです。

要約(オリジナル)

Model Inversion (MI) attacks aim at leveraging the output information of target models to reconstruct privacy-sensitive training data, raising widespread concerns on privacy threats of Deep Neural Networks (DNNs). Unfortunately, in tandem with the rapid evolution of MI attacks, the lack of a comprehensive, aligned, and reliable benchmark has emerged as a formidable challenge. This deficiency leads to inadequate comparisons between different attack methods and inconsistent experimental setups. In this paper, we introduce the first practical benchmark for model inversion attacks and defenses to address this critical gap, which is named \textit{MIBench}. This benchmark serves as an extensible and reproducible modular-based toolbox and currently integrates a total of 16 state-of-the-art attack and defense methods. Moreover, we furnish a suite of assessment tools encompassing 9 commonly used evaluation protocols to facilitate standardized and fair evaluation and analysis. Capitalizing on this foundation, we conduct extensive experiments from multiple perspectives to holistically compare and analyze the performance of various methods across different scenarios, which overcomes the misalignment issues and discrepancy prevalent in previous works. Based on the collected attack methods and defense strategies, we analyze the impact of target resolution, defense robustness, model predictive power, model architectures, transferability and loss function. Our hope is that this \textit{MIBench} could provide a unified, practical and extensible toolbox and is widely utilized by researchers in the field to rigorously test and compare their novel methods, ensuring equitable evaluations and thereby propelling further advancements in the future development.

arxiv情報

著者 Yixiang Qiu,Hongyao Yu,Hao Fang,Wenbo Yu,Bin Chen,Xuan Wang,Shu-Tao Xia,Ke Xu
発行日 2024-10-07 16:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV | コメントする

Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation

要約

マルチモーダル学習は、複数のソースからのデータを利用して、下流タスクの全体的なパフォーマンスを向上させることを目的としています。
データの冗長性により、いくつかの相関モダリティでの観測の欠落または破損に対してマルチモーダル システムを堅牢にすることが望ましいです。
ただし、テスト時に 1 つまたは複数のモダリティが存在しない場合、いくつかの既存のマルチモーダル ネットワークのパフォーマンスが大幅に低下することが観察されています。
欠落モダリティに対する堅牢性を可能にするために、事前学習されたマルチモーダル ネットワークに対するシンプルでパラメーター効率の高い適応手順を提案します。
特に、中間特徴の変調を活用して、欠落しているモダリティを補います。
我々は、このような適応により、モダリティの欠落によるパフォーマンスの低下を部分的に橋渡しでき、場合によっては、利用可能なモダリティの組み合わせに対してトレーニングされた独立した専用ネットワークよりも優れたパフォーマンスを発揮できることを実証します。
提案された適応は、非常に少数のパラメータ(例えば、総パラメータの1%未満)を必要とし、広範囲のモダリティの組み合わせおよびタスクに適用可能である。
7 つのデータセットにわたる 5 つの異なるマルチモーダル タスクに対して、提案手法に欠けているモダリティの堅牢性を強調するために一連の実験を実施します。
私たちが提案した手法は、さまざまなタスクやデータセットにわたる汎用性を実証し、モダリティが欠落している堅牢なマルチモーダル学習に関して既存の手法を上回ります。

要約(オリジナル)

Multimodal learning seeks to utilize data from multiple sources to improve the overall performance of downstream tasks. It is desirable for redundancies in the data to make multimodal systems robust to missing or corrupted observations in some correlated modalities. However, we observe that the performance of several existing multimodal networks significantly deteriorates if one or multiple modalities are absent at test time. To enable robustness to missing modalities, we propose a simple and parameter-efficient adaptation procedure for pretrained multimodal networks. In particular, we exploit modulation of intermediate features to compensate for the missing modalities. We demonstrate that such adaptation can partially bridge performance drop due to missing modalities and outperform independent, dedicated networks trained for the available modality combinations in some cases. The proposed adaptation requires extremely small number of parameters (e.g., fewer than 1% of the total parameters) and applicable to a wide range of modality combinations and tasks. We conduct a series of experiments to highlight the missing modality robustness of our proposed method on five different multimodal tasks across seven datasets. Our proposed method demonstrates versatility across various tasks and datasets, and outperforms existing methods for robust multimodal learning with missing modalities.

arxiv情報

著者 Md Kaykobad Reza,Ashley Prater-Bennette,M. Salman Asif
発行日 2024-10-07 16:15:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

要約

Large Vision-Language Model (LVLM) は、画像、テキスト、生理学的信号などの多様なデータ タイプを処理でき、さまざまな分野に適用できます。
医療分野では、LVLM は診断と治療に実質的な支援を提供できる可能性が高くなります。
その前に、さまざまな医療用途における LVLM の有効性を評価するためのベンチマークを開発することが重要です。
現在のベンチマークは、特定の学術文献に基づいて構築されていることが多く、主に単一の領域に焦点を当てており、さまざまな知覚的な粒度が欠けています。
したがって、臨床的関連性が限られていること、評価が不完全であること、対話型 LVLM に対するガイダンスが不十分であることなど、特定の課題に直面しています。
これらの制限に対処するために、当社はこれまでで適切に分類されたデータ構造と複数の知覚粒度を備えた最も包括的な一般医療 AI ベンチマークである GMAI-MMBench を開発しました。
これは、38 の医用画像モダリティ、18 の臨床関連タスク、18 部門、および Visual Question Answering (VQA) 形式の 4 つの知覚粒度にわたる 284 のデータセットから構築されています。
さらに、ユーザーが評価タスクをカスタマイズできる語彙ツリー構造を実装し、さまざまな評価ニーズに対応し、医療 AI の研究と応用を大幅にサポートしました。
50 個の LVLM を評価した結果、高度な GPT-4o でさえ 53.96% の精度しか達成できず、改善の余地が大きいことが示されました。
さらに、より優れた医療アプリケーションの開発を進めるためには、現在の最先端の LVLM に対処する必要がある 5 つの重要な欠陥があることを特定しました。
私たちは、GMAI-MMBench がコミュニティを刺激して、GMAI に向けた次世代の LVLM を構築すると信じています。

要約(オリジナル)

Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs’ effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 284 datasets across 38 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 53.96%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI.

arxiv情報

著者 Pengcheng Chen,Jin Ye,Guoan Wang,Yanjun Li,Zhongying Deng,Wei Li,Tianbin Li,Haodong Duan,Ziyan Huang,Yanzhou Su,Benyou Wang,Shaoting Zhang,Bin Fu,Jianfei Cai,Bohan Zhuang,Eric J Seibel,Junjun He,Yu Qiao
発行日 2024-10-07 16:18:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | コメントする