要約
視覚的な質問回答(VQA)は、視覚的文脈に関する自然言語の質問に答えるという問題を提起します。
バングラは、広く話されている言語であるにもかかわらず、適切なベンチマークがないため、VQAの領域では低リソースと見なされます。
さらに、既存のバングラVQAデータセットはほとんど地域の関連性を提供し、主に外国のカウンターパートから適応しています。
これらの課題に対処するために、大規模なBangla VQAデータセット、Chitrojeraを紹介し、多様およびローカルに関連するデータソースから合計15Kを超えるサンプルを紹介します。
テキストエンコーダー、画像エンコーダー、マルチモーダルモデル、および新しいデュアルエンコーダーモデルのパフォーマンスを評価します。
実験では、事前に訓練されたデュアルエンコーダーがスケールの他のモデルよりも優れていることが明らかになりました。
また、プロンプトベースの手法を使用して、現在の大型ビジョン言語モデル(LVLMS)のパフォーマンスを評価し、全体的な最高のパフォーマンスを達成します。
既存のデータセットの未開発の状態を考えると、バングラの視覚言語タスクの範囲を拡大するチトロジェラが想定しています。
要約(オリジナル)
Visual Question Answer (VQA) poses the problem of answering a natural language question about a visual context. Bangla, despite being a widely spoken language, is considered low-resource in the realm of VQA due to the lack of proper benchmarks, challenging models known to be performant in other languages. Furthermore, existing Bangla VQA datasets offer little regional relevance and are largely adapted from their foreign counterparts. To address these challenges, we introduce a large-scale Bangla VQA dataset, ChitroJera, totaling over 15k samples from diverse and locally relevant data sources. We assess the performance of text encoders, image encoders, multimodal models, and our novel dual-encoder models. The experiments reveal that the pre-trained dual-encoders outperform other models of their scale. We also evaluate the performance of current large vision language models (LVLMs) using prompt-based techniques, achieving the overall best performance. Given the underdeveloped state of existing datasets, we envision ChitroJera expanding the scope of Vision-Language tasks in Bangla.
arxiv情報
著者 | Deeparghya Dutta Barua,Md Sakib Ul Rahman Sourove,Md Fahim,Fabiha Haider,Fariha Tanjim Shifat,Md Tasmim Rahman Adib,Anam Borhan Uddin,Md Farhan Ishmam,Md Farhad Alam |
発行日 | 2025-06-02 12:38:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google