VisTai: Benchmarking Vision-Language Models for Traditional Chinese in Taiwan

要約

この論文では、伝統的な中国語の視覚言語モデル(VLM)の包括的な評価ベンチマークを提案します。
この種の最初の評価スイートには、2つの補完的なコンポーネントが含まれています。(1)Vistai-MCQ、VLMの幅広い知識と推論能力をテストするために設計された21の学術科目からの手動でキュレーションされた試験のマルチ選択質問のコレクション。
(2)Vistai-Dialogue、台湾の文化的文脈内での自由形式の対話生成におけるVLMの能力を評価するために手動で作成された131の画像質問ペアを含むオープンな対話ベンチマーク。
これらのベンチマークは、既存のベンチマークが主に英語または単純化された中国人に焦点を当てており、台湾や香港などの地域で使用される伝統的な中国語のユニークな言語的および文化的側面を無視している評価環境の重大なギャップに対処しています。
私たちの分析は、さまざまなVLM間の大きなパフォーマンスの違いを明らかにし、従来の中国の視覚コンテンツの処理における特定の課題を強調しています。

要約(オリジナル)

In this paper, we propose a comprehensive evaluation benchmark for Visual Language Models (VLM) in Traditional Chinese. Our evaluation suite, the first of its kind, contains two complementary components: (1) VisTai-MCQ, a collection of manually curated exam multi-choice questions from 21 academic subjects designed to test the broad knowledge and reasoning capabilities of VLMs; and (2) VisTai-Dialogue, an open dialogue benchmark comprising 131 image-question pairs manually created to evaluate VLMs’ ability in free-form dialogue generation within Taiwanese cultural contexts. These benchmarks address a critical gap in the evaluation landscape, where existing benchmarks predominantly focus on English or Simplified Chinese, neglecting the unique linguistic and cultural aspects of Traditional Chinese used in regions like Taiwan and Hong Kong. Our analysis reveals significant performance differences across various VLMs and highlights specific challenges in processing Traditional Chinese visual content.

arxiv情報

著者 Zhi Rui Tam,Ya-Ting Pai,Yen-Wei Lee
発行日 2025-03-13 14:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク