End-to-end Document Recognition and Understanding with Dessurt

要約

Dessurtを紹介します。これは、以前の方法よりもさまざまなドキュメントタスクで微調整できる、比較的単純なドキュメント理解トランスフォーマーです。
入力としてドキュメント画像とタスク文字列を受け取り、出力として任意のテキストを自己回帰的に生成します。
Dessurtは、ドキュメントの理解に加えてテキスト認識を実行するエンドツーエンドのアーキテクチャであるため、以前の方法のように外部認識モデルを必要としません。
Dessurtは、以前の方法よりも柔軟なモデルであり、さまざまなドキュメントドメインとタスクを処理できます。
このモデルが9つの異なるデータセットとタスクの組み合わせで効果的であることを示します。

要約(オリジナル)

We introduce Dessurt, a relatively simple document understanding transformer capable of being fine-tuned on a greater variety of document tasks than prior methods. It receives a document image and task string as input and generates arbitrary text autoregressively as output. Because Dessurt is an end-to-end architecture that performs text recognition in addition to the document understanding, it does not require an external recognition model as prior methods do. Dessurt is a more flexible model than prior methods and is able to handle a variety of document domains and tasks. We show that this model is effective at 9 different dataset-task combinations.

arxiv情報

著者 Brian Davis,Bryan Morse,Bryan Price,Chris Tensmeyer,Curtis Wigington,Vlad Morariu
発行日 2022-06-03 12:58:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク