要約
Dessurtを紹介します。これは、以前の方法よりもさまざまなドキュメントタスクで微調整できる、比較的単純なドキュメント理解トランスフォーマーです。
入力としてドキュメント画像とタスク文字列を受け取り、出力として任意のテキストを自己回帰的に生成します。
Dessurtは、ドキュメントの理解に加えてテキスト認識を実行するエンドツーエンドのアーキテクチャであるため、以前の方法のように外部認識モデルを必要としません。
Dessurtは、以前の方法よりも柔軟なモデルであり、さまざまなドキュメントドメインとタスクを処理できます。
このモデルが9つの異なるデータセットとタスクの組み合わせで効果的であることを示します。
要約(オリジナル)
We introduce Dessurt, a relatively simple document understanding transformer capable of being fine-tuned on a greater variety of document tasks than prior methods. It receives a document image and task string as input and generates arbitrary text autoregressively as output. Because Dessurt is an end-to-end architecture that performs text recognition in addition to the document understanding, it does not require an external recognition model as prior methods do. Dessurt is a more flexible model than prior methods and is able to handle a variety of document domains and tasks. We show that this model is effective at 9 different dataset-task combinations.
arxiv情報
著者 | Brian Davis,Bryan Morse,Bryan Price,Chris Tensmeyer,Curtis Wigington,Vlad Morariu |
発行日 | 2022-06-03 12:58:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google