ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images

要約

視覚的な質問Answersinng(VQA)は、自然言語と画像を同時に処理する能力を必要とする複雑なタスクです。
このタスクは、マシンが画像内のオブジェクトとシーンコンテキストを理解できるようにするための方法の開発に焦点を当てて、当初調査されました。
ただし、画像の完全な内容に関する明示的な情報を伝えるシーンテキストは言及されていません。
AI時代の継続的な発展に加えて、世界のVQAモデルの読解力に関する多くの研究があります。
したがって、シーンテキストを理解する能力に特化したベトナム語で最初の大規模なデータセットを紹介します。それをvitextvqa(\ textbf {vi} etnamese \ textbf {text} vased \ textbf {v} isual \ textbf {q} uestion \ text \ text \ fient {a} nswers datasetと呼びます。
16,000}画像と\ textbf {50,000を超える}回答付きの質問。
このタスクに効率的に取り組むために、フローズン視力変圧器、swintextspotter OCR、およびvit5 LLMをマルチモーダルフィーチャーフュージョン用のトレーニング可能なQフォーマーとVIT5 LLMを統合することにより、ベトナムのOCRベースのVQAを最適化する新しいマルチモーダル機能融合法であるVitextBlip-2を提案します。
さまざまな最先端のモデルを使用した実験を通じて、OCRテキストのトークンが処理され、回答を策定するために選択される順序の重要性を明らかにします。
この発見は、VitextVQAデータセットのベースラインモデルのパフォーマンスを大幅に改善するのに役立ちました。
データセットは、研究目的で利用できます(https://github.com/minhquan6203/vitextvqa-dataset)。

要約(オリジナル)

Visual Question Answerinng (VQA) is a complicated task that requires the capability of simultaneously processing natural language and images. This task was initially researched with a focus on developing methods to help machines understand objects and scene contexts in images. However, some scene text that carries explicit information about the full content of the image is not mentioned. Along with the continuous development of the AI era, there have been many studies on the reading comprehension ability of VQA models in the world. Therefore, we introduce the first large-scale dataset in Vietnamese specializing in the ability to understand scene text, we call it ViTextVQA (\textbf{Vi}etnamese \textbf{Text}-based \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering dataset) which contains \textbf{over 16,000} images and \textbf{over 50,000} questions with answers. To tackle this task efficiently, we propose ViTextBLIP-2, an novel multimodal feature fusion Method, which optimizes Vietnamese OCR-based VQA by integrating a frozen Vision Transformer, SwinTextSpotter OCR, and ViT5 LLM with a trainable Q-Former for multimodal feature fusion. Through experiments with various state-of-the-art models, we uncover the significance of the order in which tokens in OCR text are processed and selected to formulate answers. This finding helped us significantly improve the performance of the baseline models on the ViTextVQA dataset. Our dataset is available (https://github.com/minhquan6203/ViTextVQA-Dataset) for research purposes.

arxiv情報

著者 Quan Van Nguyen,Dan Quang Tran,Huy Quang Pham,Thang Kien-Bao Nguyen,Nghia Hieu Nguyen,Kiet Van Nguyen,Ngan Luu-Thuy Nguyen
発行日 2025-05-16 16:56:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク