PeFoMed: Parameter Efficient Fine-tuning on Multimodal Large Language Models for Medical Visual Question Answering

要約

マルチモーダル大規模言語モデル (MLLM) は、従来の大規模言語モデルの機能が進化的に拡張されたもので、純粋なテキストベースのアプリケーションの範囲を超える課題に取り組むことができるようになります。
これらの言語モデル内で以前にエンコードされた知識を活用することで、マルチモーダルなコンテキストの統治における適用性と機能性が強化されます。
最近の研究では、医療視覚的質問応答 (Med-VQA) タスクを解決するための生成タスクとして自由形式の回答を予測するための MLLM の適応を調査しています。
この論文では、特に Med-VQA アプリケーションに合わせて MLLM を微調整するためのパラメーター効率の高いフレームワークを提案し、公開ベンチマーク データセットで経験的に検証します。
パフォーマンスを正確に測定するために、人間による評価を採用しています。その結果、私たちのモデルは 81.9% の全体的な精度を達成し、クローズドエンド式の質問では絶対精度 26% という大幅なマージンで GPT-4v モデルを上回っていることが明らかになりました。
コードは、https://github.com/jinlHe/PeFoMed から入手できます。

要約(オリジナル)

Multimodal large language models (MLLMs) represent an evolutionary expansion in the capabilities of traditional large language models, enabling them to tackle challenges that surpass the scope of purely text-based applications. It leverages the knowledge previously encoded within these language models, thereby enhancing their applicability and functionality in the reign of multimodal contexts. Recent works investigate the adaptation of MLLMs to predict free-form answers as a generative task to solve medical visual question answering (Med-VQA) tasks. In this paper, we propose a parameter efficient framework for fine-tuning MLLM specifically tailored to Med-VQA applications, and empirically validate it on a public benchmark dataset. To accurately measure the performance, we employ human evaluation and the results reveal that our model achieves an overall accuracy of 81.9%, and outperforms the GPT-4v model by a significant margin of 26% absolute accuracy on closed-ended questions. The code will be available here: https://github.com/jinlHe/PeFoMed.

arxiv情報

著者 Jinlong He,Pengfei Li,Gang Liu,Zixu Zhao,Shenjun Zhong
発行日 2024-01-05 13:22:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク