INS-MMBench: A Comprehensive Benchmark for Evaluating LVLMs’ Performance in Insurance

要約

Large Vision-Language Model (LVLM) は、画像認識や視覚推論などのさまざまな一般的なマルチモーダル アプリケーションで優れたパフォーマンスを実証し、特殊な領域でも有望な可能性を示しています。
しかし、豊富なアプリケーションシナリオと豊富なマルチモーダルデータを特徴とする保険分野における LVLM の応用可能性は、効果的に検討されていません。
保険分野におけるマルチモーダルなタスクの系統的なレビューや、保険における LVLM の機能を評価するために特別に設計されたベンチマークはありません。
このギャップが、保険分野における LVLM の開発を妨げています。
このペーパーでは、自動車保険、損害保険、健康保険、農業保険という 4 つの代表的な保険タイプの複合タスクを体系的に検討し、抽出します。
私たちは、保険分野向けに調整された初の包括的な LVLMs ベンチマークである INS-MMBench を提案します。
INS-MMBench は、12 のメタタスクと 22 の基本タスクをカバーする、徹底的に設計された合計 2.2K の多肢選択式の質問で構成されています。
さらに、GPT-4o などのクローズドソース モデルや BLIP-2 などのオープンソース モデルを含む、複数の代表的な LVLM を評価します。
この評価は、ベンチマークの有効性を検証するだけでなく、保険領域のさまざまなマルチモーダル タスクにおける現在の LVLM の詳細なパフォーマンス分析も提供します。
私たちは、INS-MMBench が保険分野での LVLM のさらなる応用を促進し、学際的な開発を促すことを期待しています。
データセットと評価コードは https://github.com/FDU-INS/INS-MMBench で入手できます。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have demonstrated outstanding performance in various general multimodal applications such as image recognition and visual reasoning, and have also shown promising potential in specialized domains. However, the application potential of LVLMs in the insurance domain-characterized by rich application scenarios and abundant multimodal data-has not been effectively explored. There is no systematic review of multimodal tasks in the insurance domain, nor a benchmark specifically designed to evaluate the capabilities of LVLMs in insurance. This gap hinders the development of LVLMs within the insurance domain. In this paper, we systematically review and distill multimodal tasks for four representative types of insurance: auto insurance, property insurance, health insurance, and agricultural insurance. We propose INS-MMBench, the first comprehensive LVLMs benchmark tailored for the insurance domain. INS-MMBench comprises a total of 2.2K thoroughly designed multiple-choice questions, covering 12 meta-tasks and 22 fundamental tasks. Furthermore, we evaluate multiple representative LVLMs, including closed-source models such as GPT-4o and open-source models like BLIP-2. This evaluation not only validates the effectiveness of our benchmark but also provides an in-depth performance analysis of current LVLMs on various multimodal tasks in the insurance domain. We hope that INS-MMBench will facilitate the further application of LVLMs in the insurance domain and inspire interdisciplinary development. Our dataset and evaluation code are available at https://github.com/FDU-INS/INS-MMBench.

arxiv情報

著者 Chenwei Lin,Hanjia Lyu,Xian Xu,Jiebo Luo
発行日 2024-06-13 13:31:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク