Towards Models that Can See and Read

要約

最も一般的な視覚言語タスクの 1 つである視覚的質問応答 (VQA) と画像キャプション (CAP) には、画像内のテキストからの推論を必要とする類似のシーン テキスト バージョンがあります。
両者は明らかに似ていますが、この 2 つは独立して扱われ、表示または読み取りのいずれかは実行できますが、両方は実行できないタスク固有のメソッドが生成されます。
この作業では、この現象の詳細な分析を行い、既存のマルチモーダル アーキテクチャにシーン テキスト理解機能を付与する、Unified Text-Non-Text アプローチである UniTNT を提案します。
具体的には、シーンテキスト情報を追加のモダリティとして扱い、指定されたモジュールを介して事前トレーニング済みのエンコーダー/デコーダー ベースのアーキテクチャと融合します。
徹底した実験により、UniTNT が両方のタスク タイプを正常に処理する最初の単一モデルにつながることが明らかになりました。
さらに、シーンテキスト理解機能により、VQA と CAP での視覚言語モデルのパフォーマンスをそれぞれ最大 3.49% と 0.7 CIDEr 向上させることができることを示しています。

要約(オリジナル)

Visual Question Answering (VQA) and Image Captioning (CAP), which are among the most popular vision-language tasks, have analogous scene-text versions that require reasoning from the text in the image. Despite the obvious resemblance between them, the two are treated independently, yielding task-specific methods that can either see or read, but not both. In this work, we conduct an in-depth analysis of this phenomenon and propose UniTNT, a Unified Text-Non-Text approach, which grants existing multimodal architectures scene-text understanding capabilities. Specifically, we treat scene-text information as an additional modality, fusing it with any pretrained encoder-decoder-based architecture via designated modules. Thorough experiments reveal that UniTNT leads to the first single model that successfully handles both task types. Moreover, we show that scene-text understanding capabilities can boost vision-language models’ performance on VQA and CAP by up to 3.49% and 0.7 CIDEr, respectively.

arxiv情報

著者 Roy Ganz,Oren Nuriel,Aviad Aberdam,Yair Kittenplon,Shai Mazor,Ron Litman
発行日 2023-01-18 09:36:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク