DocMamba: Efficient Document Pre-training with State Space Model

要約

近年、視覚的に豊かな文書理解がますます注目を集めています。
トランスフォーマーベースの事前トレーニング済みモデルが主流のアプローチとなり、この分野で大幅なパフォーマンスの向上がもたらされています。
ただし、セルフ アテンション メカニズムの二次計算の複雑さにより、長いドキュメントを処理する効率と能力が妨げられます。
この論文では、状態空間モデルに基づいた新しいフレームワークである DocMamba を紹介します。
グローバル モデリング機能を維持しながら、計算の複雑さを線形に軽減するように設計されています。
ドキュメント処理の有効性をさらに高めるために、連続したセマンティック情報を取得するためのセグメントファースト双方向スキャン (SFBS) を導入しました。
実験結果は、DocMamba が FUNSD、CORD、SORIE などの下流データセットで新しい最先端の結果を達成しながら、速度を大幅に向上させ、メモリ使用量を削減することを示しています。
特に、HRDoc に関する実験により、DocMamba の長さの外挿の可能性が確認されています。
コードはオンラインで入手可能になります。

要約(オリジナル)

In recent years, visually-rich document understanding has attracted increasing attention. Transformer-based pre-trained models have become the mainstream approach, yielding significant performance gains in this field. However, the self-attention mechanism’s quadratic computational complexity hinders their efficiency and ability to process long documents. In this paper, we present DocMamba, a novel framework based on the state space model. It is designed to reduce computational complexity to linear while preserving global modeling capabilities. To further enhance its effectiveness in document processing, we introduce the Segment-First Bidirectional Scan (SFBS) to capture contiguous semantic information. Experimental results demonstrate that DocMamba achieves new state-of-the-art results on downstream datasets such as FUNSD, CORD, and SORIE, while significantly improving speed and reducing memory usage. Notably, experiments on the HRDoc confirm DocMamba’s potential for length extrapolation. The code will be available online.

arxiv情報

著者 Pengfei Hu,Zhenrong Zhang,Jiefeng Ma,Shuhang Liu,Jun Du,Jianshu Zhang
発行日 2024-09-18 11:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク