Locate Then Generate: Bridging Vision and Language with Bounding Box for Scene-Text VQA

要約

タイトル: 境界ボックスを用いたビジョンと言語の接続:シーンテキストVQAのためのLocate Then Generate
要約:
– シーンテキストビジュアルクエスチョンアンサリング(STVQA)の多様なフレームワークを提案する。
– これは、モデルが質問に答えるために画像内のシーンテキストを読むことを要求する。
– シーンテキストは、テキストとビジュアルモダリティを自然にリンクさせる。
– 従来のSTVQAモデルから異なり、本論文では、『探し出して生成する』(Locate Then Generate、LTG)というパラダイムを提案する。
– 空間境界ボックスを橋渡しにして両方の意味を明示的に統一する。
– LTGは、アンサーロケーションモジュール(ALM)で回答単語が含まれる可能性のある領域を最初に指定し、次にALMで選択された回答単語を使用して、回答生成モジュール(AGM)で読みやすい回答シーケンスを生成する。
– ビジュアルと言語の意味を明示的に整合させた利点は、シーンテキストベースの事前学習タスクなしでも、LTGはTextVQAデータセットとST-VQAデータセットの絶対的な正確性を+6.06%と+6.92%向上できることが示された。
– LTGはまた、前の方法で過小評価されている空間境界ボックスの接続を通じて、ビジュアルとテキストモダリティを効果的に統合することが示されている。

要約(オリジナル)

In this paper, we propose a novel multi-modal framework for Scene Text Visual Question Answering (STVQA), which requires models to read scene text in images for question answering. Apart from text or visual objects, which could exist independently, scene text naturally links text and visual modalities together by conveying linguistic semantics while being a visual object in an image simultaneously. Different to conventional STVQA models which take the linguistic semantics and visual semantics in scene text as two separate features, in this paper, we propose a paradigm of ‘Locate Then Generate’ (LTG), which explicitly unifies this two semantics with the spatial bounding box as a bridge connecting them. Specifically, at first, LTG locates the region in an image that may contain the answer words with an answer location module (ALM) consisting of a region proposal network and a language refinement network, both of which can transform to each other with one-to-one mapping via the scene text bounding box. Next, given the answer words selected by ALM, LTG generates a readable answer sequence with an answer generation module (AGM) based on a pre-trained language model. As a benefit of the explicit alignment of the visual and linguistic semantics, even without any scene text based pre-training tasks, LTG can boost the absolute accuracy by +6.06% and +6.92% on the TextVQA dataset and the ST-VQA dataset respectively, compared with a non-pre-training baseline. We further demonstrate that LTG effectively unifies visual and text modalities through the spatial bounding box connection, which is underappreciated in previous methods.

arxiv情報

著者 Yongxin Zhu,Zhen Liu,Yukang Liang,Xin Li,Hao Liu,Changcun Bao,Linli Xu
発行日 2023-04-04 07:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV パーマリンク