GRAM: Global Reasoning for Multi-Page VQA

要約

トランスフォーマーベースの大規模言語モデルの使用が増加しているため、長いシーケンスを処理するという課題が生じています。
ドキュメント ビジュアル質問応答 (DocVQA) では、ドキュメントが数百ページに及ぶ場合がある一方で、主要な手法は 1 ページの設定に重点を置いています。
計算量の多い事前トレーニングを必要とせずに、事前トレーニングされた単一ページ モデルをマルチページ設定にシームレスに拡張する手法である GRAM を紹介します。
そのために、ローカル ページ レベルの理解のためにシングル ページ エンコーダーを活用し、ドキュメント レベルの指定レイヤーと学習可能なトークンでエンコーダーを強化し、グローバルな推論のためにページ間の情報の流れを促進します。
新しく導入されたドキュメント トークンを使用するようにモデルを強制するために、カスタマイズされたバイアス適応方法を提案します。
デコード中の計算量をさらに節約するために、圧縮トランスフォーマー (C-Former) を使用したオプションの圧縮ステージを導入し、エンコードされたシーケンスの長さを短縮し、それによって品質と遅延の間のトレードオフを可能にします。
広範な実験により、マルチページ DocVQA のベンチマークにおける GRAM の最先端のパフォーマンスが実証され、私たちのアプローチの有効性が実証されました。

要約(オリジナル)

The increasing use of transformer-based large language models brings forward the challenge of processing long sequences. In document visual question answering (DocVQA), leading methods focus on the single-page setting, while documents can span hundreds of pages. We present GRAM, a method that seamlessly extends pre-trained single-page models to the multi-page setting, without requiring computationally-heavy pretraining. To do so, we leverage a single-page encoder for local page-level understanding, and enhance it with document-level designated layers and learnable tokens, facilitating the flow of information across pages for global reasoning. To enforce our model to utilize the newly introduced document tokens, we propose a tailored bias adaptation method. For additional computational savings during decoding, we introduce an optional compression stage using our compression-transformer (C-Former),reducing the encoded sequence length, thereby allowing a tradeoff between quality and latency. Extensive experiments showcase GRAM’s state-of-the-art performance on the benchmarks for multi-page DocVQA, demonstrating the effectiveness of our approach.

arxiv情報

著者 Tsachi Blau,Sharon Fogel,Roi Ronen,Alona Golts,Roy Ganz,Elad Ben Avraham,Aviad Aberdam,Shahar Tsiper,Ron Litman
発行日 2024-03-18 09:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク