MedPix 2.0: A Comprehensive Multimodal Biomedical Data set for Advanced AI Applications with Retrieval Augmented Generation and Knowledge Graphs

要約

主にプライバシー関連の問題により、医療領域での人工知能アプリケーションの開発への関心の高まりは、高品質のデータセットの欠如に苦しんでいます。
さらに、最近の視覚言語モデル(VLM)の増加は、臨床報告と調査結果が対応する医療スキャンに付随するマルチモーダル医療データセットの必要性につながります。
このペーパーでは、MedPix 2.0データセットを構築するためのワークフロー全体を示しています。
主に医師、看護師、医療学生が医学教育の継続的な目的で使用している有名なマルチモーダルデータセットMedPixから始めて、視覚データを抽出するための半自動パイプラインが開発され、その後にノイズのサンプルが削除され、MongoDBデータベースが作成されました。
データセットに加えて、MongoDBインスタンスを効率的にナビゲートし、トレーニングや微調整VLMに簡単に使用できる生データを取得することを目的としたグラフィカルユーザーインターフェイスを開発しました。
この点を実施するために、この作業では、MedPix 2.0で訓練された拡張生成ベースのVLMモデルを取得したDr-Minerva博士を最初に思い出します。
Dr-Minervaは、身体の部分と入力画像のスキャンに使用されるモダリティを予測します。
また、llama 3.1 instruce 8bを使用し、Medpix 2.0をレバレッジする知識グラフでDr-Minervaの拡張を提案します。
結果のアーキテクチャは、医療意思決定支援システムとして、エンドツーエンドの方法で照会できます。
Medpix 2.0は、Github https://github.com/chilab1/medpix-2.0で入手できます

要約(オリジナル)

The increasing interest in developing Artificial Intelligence applications in the medical domain, suffers from the lack of high-quality data set, mainly due to privacy-related issues. In addition, the recent increase in Vision Language Models (VLM) leads to the need for multimodal medical data sets, where clinical reports and findings are attached to the corresponding medical scans. This paper illustrates the entire workflow for building the MedPix 2.0 data set. Starting with the well-known multimodal data set MedPix, mainly used by physicians, nurses, and healthcare students for Continuing Medical Education purposes, a semi-automatic pipeline was developed to extract visual and textual data followed by a manual curing procedure in which noisy samples were removed, thus creating a MongoDB database. Along with the data set, we developed a Graphical User Interface aimed at navigating efficiently the MongoDB instance and obtaining the raw data that can be easily used for training and/or fine-tuning VLMs. To enforce this point, in this work, we first recall DR-Minerva, a Retrieve Augmented Generation-based VLM model trained upon MedPix 2.0. DR-Minerva predicts the body part and the modality used to scan its input image. We also propose the extension of DR-Minerva with a Knowledge Graph that uses Llama 3.1 Instruct 8B, and leverages MedPix 2.0. The resulting architecture can be queried in a end-to-end manner, as a medical decision support system. MedPix 2.0 is available on GitHub https://github.com/CHILab1/MedPix-2.0

arxiv情報

著者 Irene Siragusa,Salvatore Contino,Massimo La Ciura,Rosario Alicata,Roberto Pirrone
発行日 2025-04-09 16:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG パーマリンク