ViCLEVR: A Visual Reasoning Dataset and Hybrid Multimodal Fusion Model for Visual Question Answering in Vietnamese

要約

近年、Visual Question Answering (VQA) は、インテリジェント カー アシスタンス、視覚障害者の支援、自然言語クエリを使用した文書画像情報の検索など、その多様なアプリケーションで大きな注目を集めています。
VQA では、正確な回答を生成するために、質問と画像からの情報を効果的に統合する必要があります。
VQA のニューラル モデルは、英語のようなリソースが豊富な言語を中心に、大規模なデータセットで目覚ましい進歩を遂げています。
これに対処するために、バイアスを軽減しながらベトナム語のさまざまな視覚推論能力を評価するための先駆的なコレクションである ViCLEVR データセットを紹介します。
このデータセットは 26,000 を超える画像と 30,000 の質問と回答のペア (QA) で構成されており、各質問には関連する推論の種類を指定する注釈が付けられています。
このデータセットを活用して、現代の視覚推論システムの包括的な分析を実施し、その強みと限界についての貴重な洞察を提供します。
さらに、質問に基づいて画像内のオブジェクトを識別する包括的なマルチモーダル フュージョンである PhoVIT を紹介します。
このアーキテクチャでは、トランスフォーマーを効果的に使用して、テキスト データとビジュアル データに対する同時推論を可能にし、モデルの初期段階で両方のモダリティを統合します。
実験結果は、私たちが提案したモデルが 4 つの評価指標にわたって最先端のパフォーマンスを達成していることを示しています。
付属のコードとデータセットは、\url{https://github.com/kvt0012/ViCLEVR} で公開されています。
この規定は、研究コミュニティ内の進歩を刺激し、特にベトナム語に代表される低リソース言語のニュアンスに対処するために調整された、よりマルチモーダルな融合アルゴリズムの開発を促進することを目指しています。

要約(オリジナル)

In recent years, Visual Question Answering (VQA) has gained significant attention for its diverse applications, including intelligent car assistance, aiding visually impaired individuals, and document image information retrieval using natural language queries. VQA requires effective integration of information from questions and images to generate accurate answers. Neural models for VQA have made remarkable progress on large-scale datasets, with a primary focus on resource-rich languages like English. To address this, we introduce the ViCLEVR dataset, a pioneering collection for evaluating various visual reasoning capabilities in Vietnamese while mitigating biases. The dataset comprises over 26,000 images and 30,000 question-answer pairs (QAs), each question annotated to specify the type of reasoning involved. Leveraging this dataset, we conduct a comprehensive analysis of contemporary visual reasoning systems, offering valuable insights into their strengths and limitations. Furthermore, we present PhoVIT, a comprehensive multimodal fusion that identifies objects in images based on questions. The architecture effectively employs transformers to enable simultaneous reasoning over textual and visual data, merging both modalities at an early model stage. The experimental findings demonstrate that our proposed model achieves state-of-the-art performance across four evaluation metrics. The accompanying code and dataset have been made publicly accessible at \url{https://github.com/kvt0012/ViCLEVR}. This provision seeks to stimulate advancements within the research community, fostering the development of more multimodal fusion algorithms, specifically tailored to address the nuances of low-resource languages, exemplified by Vietnamese.

arxiv情報

著者 Khiem Vinh Tran,Hao Phu Phan,Kiet Van Nguyen,Ngan Luu Thuy Nguyen
発行日 2023-10-27 10:44:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク