Long-Range Transformer Architectures for Document Understanding

要約

リリース以来、Transformers は自然言語理解からコンピュータ ビジョンに至るまで、多くの分野に革命をもたらしてきました。
Document Understanding (DU) は、2019 年後半に登場した最初の Transformer ベースの DU モデルにも取り残されませんでした。ただし、セルフアテンション操作の計算の複雑さにより、その機能は小さなシーケンスに制限されます。
このペーパーでは、Transformer ベースのモデルを長い複数ページのドキュメントに適用するための複数の戦略を検討します。
DU 用の 2 つの新しいマルチモーダル (テキスト + レイアウト) 長距離モデルを紹介します。
これらは、長いシーケンス用のトランスフォーマーの効率的な実装に基づいています。
長距離モデルは、文書全体を一度に効果的に処理でき、文書の長さによる影響が少なくなります。
これらを、DU に適合し、数百万のドキュメントで事前トレーニングされた古典的な Transformer である LayoutLM と比較します。
さらに、モデルの効率を損なうことなく、関連するトークンに向けて自己注意を導くための 2D 相対注意バイアスを提案します。
情報検索に関する複数ページのビジネス ドキュメントでは、小さなシーケンスでのパフォーマンス コストが少なく改善されていることが観察されています。
相対的な 2D アテンションは、通常モデルと長距離モデルの両方で密なテキストに対して効果的であることが明らかになりました。

要約(オリジナル)

Since their release, Transformers have revolutionized many fields from Natural Language Understanding to Computer Vision. Document Understanding (DU) was not left behind with first Transformer based models for DU dating from late 2019. However, the computational complexity of the self-attention operation limits their capabilities to small sequences. In this paper we explore multiple strategies to apply Transformer based models to long multi-page documents. We introduce 2 new multi-modal (text + layout) long-range models for DU. They are based on efficient implementations of Transformers for long sequences. Long-range models can process whole documents at once effectively and are less impaired by the document’s length. We compare them to LayoutLM, a classical Transformer adapted for DU and pre-trained on millions of documents. We further propose 2D relative attention bias to guide self-attention towards relevant tokens without harming model efficiency. We observe improvements on multi-page business documents on Information Retrieval for a small performance cost on smaller sequences. Relative 2D attention revealed to be effective on dense text for both normal and long-range models.

arxiv情報

著者 Thibault Douzon,Stefan Duffner,Christophe Garcia,Jérémy Espinas
発行日 2023-09-11 14:45:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.CL, I.2.7 パーマリンク