MINT: A wrapper to make multi-modal and multi-image AI models interactive

要約

診断プロセス中に、医師は画像や病歴などのマルチモーダルな情報を組み込みます。同様に、医療 AI 開発もますますマルチモーダルになってきています。
この論文では、より微妙な課題に取り組みます。医師は、最も適切な情報のみを取得するために、対象を絞った病歴を収集します。
AI にも同じことができるようにするにはどうすればよいでしょうか?
私たちは、各ステップでどの情報が最も価値があるかを自動的に判断し、最も有用な情報のみを要求する MINT (モデルを INTeractive にする) という名前のラッパー メソッドを開発します。
私たちは、皮膚疾患予測モデルをラップする MINT の有効性を実証します。このモデルでは、複数の画像と、25 ドルの標準的なメタデータの質問 (つまり、構造化された病歴) に対する一連のオプションの回答が、マルチモーダルなディープ ネットワークによって使用され、鑑別診断が提供されます。
MINT がメタデータ入力が必要かどうか、必要な場合は次にどの質問をするべきかを識別できることを示します。
また、複数の画像を収集するときに、MINT が追加の画像が有益かどうか、また、有益な場合はどのタイプの画像をキャプチャするかを識別できることも示します。
MINT は、予測パフォーマンスを維持しながら、必要なメタデータと画像の入力数をそれぞれ 82% と 36.2% 削減することを示しました。
現実世界の AI 皮膚科システム データを使用して、必要な入力を少なくすることで、システムの送信を完了できずに診断を受けずに離れてしまう可能性があるユーザーを維持できることを示します。
定性的な例では、MINT が臨床ワークフローの段階的な意思決定プロセスを厳密に模倣できること、およびこれが単純なケースとより困難で曖昧なケースでどのように異なるかを示しています。
最後に、MINT がさまざまな基礎となるマルチモデル分類子に対して堅牢であり、大幅なモデルの再トレーニングなしでユーザーの要件に簡単に適応できることを示します。

要約(オリジナル)

During the diagnostic process, doctors incorporate multimodal information including imaging and the medical history – and similarly medical AI development has increasingly become multimodal. In this paper we tackle a more subtle challenge: doctors take a targeted medical history to obtain only the most pertinent pieces of information; how do we enable AI to do the same? We develop a wrapper method named MINT (Make your model INTeractive) that automatically determines what pieces of information are most valuable at each step, and ask for only the most useful information. We demonstrate the efficacy of MINT wrapping a skin disease prediction model, where multiple images and a set of optional answers to $25$ standard metadata questions (i.e., structured medical history) are used by a multi-modal deep network to provide a differential diagnosis. We show that MINT can identify whether metadata inputs are needed and if so, which question to ask next. We also demonstrate that when collecting multiple images, MINT can identify if an additional image would be beneficial, and if so, which type of image to capture. We showed that MINT reduces the number of metadata and image inputs needed by 82% and 36.2% respectively, while maintaining predictive performance. Using real-world AI dermatology system data, we show that needing fewer inputs can retain users that may otherwise fail to complete the system submission and drop off without a diagnosis. Qualitative examples show MINT can closely mimic the step-by-step decision making process of a clinical workflow and how this is different for straight forward cases versus more difficult, ambiguous cases. Finally we demonstrate how MINT is robust to different underlying multi-model classifiers and can be easily adapted to user requirements without significant model re-training.

arxiv情報

著者 Jan Freyberg,Abhijit Guha Roy,Terry Spitz,Beverly Freeman,Mike Schaekermann,Patricia Strachan,Eva Schnider,Renee Wong,Dale R Webster,Alan Karthikesalingam,Yun Liu,Krishnamurthy Dvijotham,Umesh Telang
発行日 2024-01-22 15:17:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク