LiGT: Layout-infused Generative Transformer for Visual Question Answering on Vietnamese Receipts

要約

\ textbf {目的:}文書視覚的質問応答(ドキュメントVQA)マルチモーダルシステムに挑戦して、テキスト、レイアウト、視覚的モダリティを全体的に処理して適切な回答を提供します。
ドキュメントVQAは、ドキュメントの量が増え、デジタル化に対する需要が高いため、近年人気が高まっています。
それにもかかわらず、ドキュメントVQAデータセットのほとんどは、英語などの高リソース言語で開発されています。
\ textbf {メソッド:}このホワイトペーパーでは、receptevqa(\ textbf {reception} \ textbf {v} isual \ textbf {q} uestion \ textbf {a} nswering)を提示します。
データセットには、\ textbf {9,000+}領収書画像と\ textbf {60,000+}手動で注釈付きの質問回答ペアが含まれます。
私たちの研究に加えて、ligt(\ textbf {l} ayout- \ textbf {i} nfududude \ textbf {g} enerative \ textbf {t} ransformer)、レイアウトアウェアエンコーダーデコーダーアーキテクチャである、レイアウトアウェアエンコーダーデコーダーアーキテクチャである、レイアウトアウェアエンコーダーデコダーアーキテクチャであるLayout-Awareエンコーダーデコダーアーキテクチャを紹介します。
モジュール。
\ textBf {results:} ReceiptVQAの実験は、私たちのアーキテクチャが有望なパフォーマンスをもたらし、優れたベースラインと比較して競争結果を達成したことを示しています。
さらに、実験結果の分析を通して、エンコーダーのみのモデルアーキテクチャを使用すると、回答を生成できるアーキテクチャと比較してかなりの欠点があることがわかりました。
また、言語モデルからの意味的理解の重要な役割にもかかわらず、データセットに取り組むために複数のモダリティを組み合わせる必要があることも観察しました。
\ textBf {結論:}私たちの仕事が、ベトナム文書VQAの将来の発展を奨励し、促進し、ベトナム語の多様なマルチモーダル研究コミュニティに貢献することを願っています。

要約(オリジナル)

\textbf{Purpose:} Document Visual Question Answering (document VQA) challenges multimodal systems to holistically handle textual, layout, and visual modalities to provide appropriate answers. Document VQA has gained popularity in recent years due to the increasing amount of documents and the high demand for digitization. Nonetheless, most of document VQA datasets are developed in high-resource languages such as English. \textbf{Methods:} In this paper, we present ReceiptVQA (\textbf{Receipt} \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering), the initial large-scale document VQA dataset in Vietnamese dedicated to receipts, a document kind with high commercial potentials. The dataset encompasses \textbf{9,000+} receipt images and \textbf{60,000+} manually annotated question-answer pairs. In addition to our study, we introduce LiGT (\textbf{L}ayout-\textbf{i}nfused \textbf{G}enerative \textbf{T}ransformer), a layout-aware encoder-decoder architecture designed to leverage embedding layers of language models to operate layout embeddings, minimizing the use of additional neural modules. \textbf{Results:} Experiments on ReceiptVQA show that our architecture yielded promising performance, achieving competitive results compared with outstanding baselines. Furthermore, throughout analyzing experimental results, we found evident patterns that employing encoder-only model architectures has considerable disadvantages in comparison to architectures that can generate answers. We also observed that it is necessary to combine multiple modalities to tackle our dataset, despite the critical role of semantic understanding from language models. \textbf{Conclusion:} We hope that our work will encourage and facilitate future development in Vietnamese document VQA, contributing to a diverse multimodal research community in the Vietnamese language.

arxiv情報

著者 Thanh-Phong Le,Trung Le Chi Phan,Nghia Hieu Nguyen,Kiet Van Nguyen
発行日 2025-02-26 15:09:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク