Enhanced Visual Question Answering: A Comparative Analysis and Textual Feature Extraction Via Convolutions

要約

ビジュアル質問応答 (VQA) は近年、非常に魅力的な分野として浮上しており、Transformers などの高度なモデルの導入を通じて VQA の精度を向上させることを目的とした研究活動が増加しています。
この関心の高まりにもかかわらず、特にモデルの複雑さとパフォーマンスへの影響の観点から、VQA 内のテキスト モダリティの比較分析と影響についての調査は限られています。
この研究では、長い依存関係メカニズムを活用する複雑なテキスト モデルと、確立された VQA フレームワーク内のローカル テキスト特徴に焦点を当てた単純なモデルとの間の包括的な比較を実行します。
私たちの調査結果は、複雑なテキスト エンコーダーの採用が、VQA-v2 データセットにとって常に最適なアプローチであるわけではないことを明らかにしています。
この洞察に基づいて、畳み込み層を組み込んで質問テキストの表現を強化する改良モデル ConvGRU を導入します。
VQA-v2 データセットでテストしたところ、ConvGRU はパラメーターの複雑さを大幅に増加させることなく、より優れたパフォーマンスを実現しました。

要約(オリジナル)

Visual Question Answering (VQA) has emerged as a highly engaging field in recent years, attracting increasing research efforts aiming to enhance VQA accuracy through the deployment of advanced models such as Transformers. Despite this growing interest, there has been limited exploration into the comparative analysis and impact of textual modalities within VQA, particularly in terms of model complexity and its effect on performance. In this work, we conduct a comprehensive comparison between complex textual models that leverage long dependency mechanisms and simpler models focusing on local textual features within a well-established VQA framework. Our findings reveal that employing complex textual encoders is not invariably the optimal approach for the VQA-v2 dataset. Motivated by this insight, we introduce an improved model, ConvGRU, which incorporates convolutional layers to enhance the representation of question text. Tested on the VQA-v2 dataset, ConvGRU achieves better performance without substantially increasing parameter complexity.

arxiv情報

著者 Zhilin Zhang
発行日 2024-05-01 12:39:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク