Benchmarking Vision Language Models on German Factual Data

要約

LLMSと同様に、ビジョン言語モデルの開発は主に英語のデータセットと英語と中国語で訓練されたモデルによって駆動されますが、他の言語のサポートは、ドイツ語などの高リソース言語と見なされる言語でさえ、著しく弱いままです。
この作業では、ドイツ語と英語の事実に関する知識に関するオープンウェイトVLMの分析を提示します。
ドイツ語と国際的な文脈からの迅速な言語と画像の両方でju審員としてのju審員とのAccu-racyを分析することにより、画像関連の側面をテキストに関連する側面を解きほぐします。
私たちは、有名人と視界では、VLMがドイツのイメージの内容の視覚的な認知が欠けているため、苦労していることがわかりました。
動物や植物の場合、テストされたモデルは、多くの場合、科学名または英語の一般名に合わせて画像の内容を正しく識別できますが、ドイツのLANゲージでは失敗します。
車とスーパーマーケット製品は、両方の迅速な言語で英語とドイツの画像で等しく識別されました。

要約(オリジナル)

Similar to LLMs, the development of vision language models is mainly driven by English datasets and models trained in English and Chinese language, whereas support for other languages, even those considered high-resource languages such as German, remains significantly weaker. In this work we present an analysis of open-weight VLMs on factual knowledge in the German and English language. We disentangle the image-related aspects from the textual ones by analyzing accu-racy with jury-as-a-judge in both prompt languages and images from German and international contexts. We found that for celebrities and sights, VLMs struggle because they are lacking visual cognition of German image contents. For animals and plants, the tested models can often correctly identify the image contents ac-cording to the scientific name or English common name but fail in German lan-guage. Cars and supermarket products were identified equally well in English and German images across both prompt languages.

arxiv情報

著者 René Peinl,Vincent Tischler
発行日 2025-04-15 11:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク