A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading

要約

機械学習モデルの最近の進歩により、医療画像分析における自動化手法のパフォーマンスが大幅に向上しました。
ただし、そのようなモデルの内部機能はほとんど隠蔽されているため、臨床現場での統合が妨げられています。
説明可能性と信頼性は、現代の方法の重要な側面とみなされており、後者は臨床コミュニティで広く使用されています。
このように、機械学習モデルの検証は重要な側面を表していますが、ほとんどの手法は限られた方法でのみ検証されています。
この作業では、非常に強力な Visual Question Answering (VQA) アルゴリズムに対して、より豊富で適切な検証アプローチを提供することに焦点を当てています。
画像に関する任意の質問に答えるこれらの手法のパフォーマンスをより深く理解するために、この研究では自動視覚チューリング テスト (VTT) に焦点を当てています。
つまり、VQA アルゴリズムの推論動作を明らかにすることを目的とした自動適応質問法を提案します。
具体的には、以前に尋ねられた質問の履歴を観察し、それを使用して次に提示する質問を選択する強化学習 (RL) エージェントを導入します。
糖尿病黄斑浮腫 (DME) の等級付けに関連する質問に自動的に答えるアルゴリズムを評価するというコンテキストでアプローチを実証します。
実験では、そのようなエージェントは臨床医と同様の行動をとり、重要な臨床概念に関連した質問をすることが示されました。

要約(オリジナル)

Recent advances in machine learning models have greatly increased the performance of automated methods in medical image analysis. However, the internal functioning of such models is largely hidden, which hinders their integration in clinical practice. Explainability and trust are viewed as important aspects of modern methods, for the latter’s widespread use in clinical communities. As such, validation of machine learning models represents an important aspect and yet, most methods are only validated in a limited way. In this work, we focus on providing a richer and more appropriate validation approach for highly powerful Visual Question Answering (VQA) algorithms. To better understand the performance of these methods, which answer arbitrary questions related to images, this work focuses on an automatic visual Turing test (VTT). That is, we propose an automatic adaptive questioning method, that aims to expose the reasoning behavior of a VQA algorithm. Specifically, we introduce a reinforcement learning (RL) agent that observes the history of previously asked questions, and uses it to select the next question to pose. We demonstrate our approach in the context of evaluating algorithms that automatically answer questions related to diabetic macular edema (DME) grading. The experiments show that such an agent has similar behavior to a clinician, whereby asking questions that are relevant to key clinical concepts.

arxiv情報

著者 Tatiana Fountoukidou,Raphael Sznitman
発行日 2023-07-19 10:31:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク