MedSumm: A Multimodal Approach to Summarizing Code-Mixed Hindi-English Clinical Queries

要約

ヘルスケア領域において、患者から投げかけられた医学的な質問を要約することは、医師と患者の相互作用や医学的な意思決定を改善するために非常に重要である。医療データは複雑化し、その量も増加しているが、この領域における現在の研究は、主にテキストベースの手法に集中しており、視覚的な手がかりの統合は見落とされている。また、医療質問の要約の分野における先行研究は、英語に限られている。本研究では、低リソース環境における、コード混合入力に対するマルチモーダル医療質問要約のタスクを紹介する。このギャップを解決するために、我々は、ヒンディー語と英語のコード混合医療クエリを視覚的補助と統合したMultimodal Medical Codemixed Question Summarization MMCQSデータセットを紹介する。この統合は、患者の病状の表現を豊かにし、より包括的な視点を提供する。また、このタスクのためにLLMとVLMの力を活用するMedSummというフレームワークを提案する。我々のMMCQSデータセットを利用することで、医学的に詳細な要約の作成を改善するために、画像からの視覚情報を統合することの価値を実証する。このマルチモーダル戦略は、医療の意思決定を向上させるだけでなく、患者からの問い合わせに対するより深い理解を促進し、個別化された応答性の高い医療における将来の探求への道を開く。我々のデータセット、コード、および事前に訓練されたモデルは、一般に公開される予定である。

要約(オリジナル)

In the healthcare domain, summarizing medical questions posed by patients is critical for improving doctor-patient interactions and medical decision-making. Although medical data has grown in complexity and quantity, the current body of research in this domain has primarily concentrated on text-based methods, overlooking the integration of visual cues. Also prior works in the area of medical question summarisation have been limited to the English language. This work introduces the task of multimodal medical question summarization for codemixed input in a low-resource setting. To address this gap, we introduce the Multimodal Medical Codemixed Question Summarization MMCQS dataset, which combines Hindi-English codemixed medical queries with visual aids. This integration enriches the representation of a patient’s medical condition, providing a more comprehensive perspective. We also propose a framework named MedSumm that leverages the power of LLMs and VLMs for this task. By utilizing our MMCQS dataset, we demonstrate the value of integrating visual information from images to improve the creation of medically detailed summaries. This multimodal strategy not only improves healthcare decision-making but also promotes a deeper comprehension of patient queries, paving the way for future exploration in personalized and responsive medical care. Our dataset, code, and pre-trained models will be made publicly available.

arxiv情報

著者 Akash Ghosh,Arkadeep Acharya,Prince Jha,Aniket Gaudgaul,Rajdeep Majumdar,Sriparna Saha,Aman Chadha,Raghav Jain,Setu Sinha,Shivani Agarwal
発行日 2024-01-03 07:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク