BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering

要約

Visual Question Answering (VQA) は、自然言語処理 (NLP) とコンピューター ビジョン (CV) を統合した複雑で要求の厳しいタスクであり、研究者の関心を集めています。
リソースが豊富であることで知られる英語は、VQA 用に設計されたデータセットとモデルの両方で顕著な進歩を遂げています。
しかし、ベトナムなど特定の国をターゲットにしたモデルが不足している。
この制限に対処するために、BARTPhoBEiT という名前の変圧器ベースのベトナム モデルを導入します。
このモデルには、ベトナム語の Image Transformers からの事前トレーニングされたシーケンスツーシーケンスおよび双方向エンコーダー表現が含まれており、ベトナム語 VQA データセットを評価します。
実験結果は、私たちが提案したモデルが強力なベースラインを上回り、精度、精度、再現率、F1 スコア、WUPS 0.0、および WUPS 0.9 の 6 つの指標において最先端のモデルを改善していることを示しています。

要約(オリジナル)

Visual Question Answering (VQA) is an intricate and demanding task that integrates natural language processing (NLP) and computer vision (CV), capturing the interest of researchers. The English language, renowned for its wealth of resources, has witnessed notable advancements in both datasets and models designed for VQA. However, there is a lack of models that target specific countries such as Vietnam. To address this limitation, we introduce a transformer-based Vietnamese model named BARTPhoBEiT. This model includes pre-trained Sequence-to-Sequence and bidirectional encoder representation from Image Transformers in Vietnamese and evaluates Vietnamese VQA datasets. Experimental results demonstrate that our proposed model outperforms the strong baseline and improves the state-of-the-art in six metrics: Accuracy, Precision, Recall, F1-score, WUPS 0.0, and WUPS 0.9.

arxiv情報

著者 Khiem Vinh Tran,Kiet Van Nguyen,Ngan Luu Thuy Nguyen
発行日 2023-07-28 06:23:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク