Heron-Bench: A Benchmark for Evaluating Vision Language Models in Japanese

要約

ビジョン言語モデル (VLM) は急速な進化を遂げ、マルチモーダルな理解タスクの領域で大幅な進歩をもたらしました。
ただし、これらのモデルの大部分は英語中心のデータセットでトレーニングおよび評価されているため、日本語など他の言語の VLM の開発と評価にはギャップが残っています。
このギャップは、VLM を構築するための方法論が欠如していることと、VLM のパフォーマンスを正確に測定するためのベンチマークが存在しないことが原因であると考えられます。
この問題に対処するために、VLM の日本語機能を評価するための新しいベンチマーク、Japanese Heron-Bench を導入します。
Japanese Heron-Bench は、日本語の文脈に合わせたさまざまな画像質問と回答のペアで構成されています。
さらに、日本語の視覚的命令調整データセットを使用してトレーニングされたベースラインの日本語 VLM を紹介します。
私たちの Heron-Bench は、さまざまな能力の側面にわたって、提案されている VLM の長所と限界を明らかにします。
さらに、GPT-4V のような強力なクローズド モデルとベースライン モデル間の機能ギャップを明確にし、この分野の将来の研究に貴重な洞察を提供します。
日本の VLM 研究のさらなる発展を促進するために、ベンチマーク データセットとトレーニング コードをリリースします。

要約(オリジナル)

Vision Language Models (VLMs) have undergone a rapid evolution, giving rise to significant advancements in the realm of multimodal understanding tasks. However, the majority of these models are trained and evaluated on English-centric datasets, leaving a gap in the development and evaluation of VLMs for other languages, such as Japanese. This gap can be attributed to the lack of methodologies for constructing VLMs and the absence of benchmarks to accurately measure their performance. To address this issue, we introduce a novel benchmark, Japanese Heron-Bench, for evaluating Japanese capabilities of VLMs. The Japanese Heron-Bench consists of a variety of imagequestion answer pairs tailored to the Japanese context. Additionally, we present a baseline Japanese VLM that has been trained with Japanese visual instruction tuning datasets. Our Heron-Bench reveals the strengths and limitations of the proposed VLM across various ability dimensions. Furthermore, we clarify the capability gap between strong closed models like GPT-4V and the baseline model, providing valuable insights for future research in this domain. We release the benchmark dataset and training code to facilitate further developments in Japanese VLM research.

arxiv情報

著者 Yuichi Inoue,Kento Sasaki,Yuma Ochi,Kazuki Fujii,Kotaro Tanahashi,Yu Yamaguchi
発行日 2024-04-11 15:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク