要約
タイトル:視覚ドキュメント理解のためのWebベースのビジュアルコーパス構築について
要約:
– ビジュアルドキュメント理解(VDU)の研究は、特に自己学習方法の開発に重点を置き、近年急速に拡大している。
– しかし、この分野で直面している大きな課題の一つは、非ラテン語や資源の限られた言語向けの、詳細なテキスト注釈を持つ多数の画像の広範なコレクションや公開可能なビジュアルコーパスの利用が限られていることである。
– この課題に対応するために、我々はWebvicobと呼ばれるデータセット生成エンジンを提案する。これは、生のWikipedia HTMLダンプから大規模で多言語のビジュアルコーパスを構築することができる。
– 我々の実験は、Webvicobで生成されたデータを使用して、DocVQAやポストOCR解析などのさまざまな下流タスクで優れたパフォーマンスを発揮する、堅牢なVDUモデルをトレーニングすることができることを示している。
– さらに、Webvicobによって生成された100万枚の画像のデータセットを使用すると、IIT-CDIPの1100万枚の画像のデータセットに比べ、DocVQAタスク3で13%以上の改善が見られた。
– モデルの実装はhttps://github.com/clovaai/webvicobで公開されている。
要約(オリジナル)
In recent years, research on visual document understanding (VDU) has grown significantly, with a particular emphasis on the development of self-supervised learning methods. However, one of the significant challenges faced in this field is the limited availability of publicly accessible visual corpora or extensive collections of images with detailed text annotations, particularly for non-Latin or resource-scarce languages. To address this challenge, we propose Web-based Visual Corpus Builder (Webvicob), a dataset generator engine capable of constructing large-scale, multilingual visual corpora from raw Wikipedia HTML dumps. Our experiments demonstrate that the data generated by Webvicob can be used to train robust VDU models that perform well on various downstream tasks, such as DocVQA and post-OCR parsing. Furthermore, when using a dataset of 1 million images generated by Webvicob, we observed an improvement of over 13% on the DocVQA Task 3 compared to a dataset of 11 million images from the IIT-CDIP. The implementation of our engine is publicly available on https://github.com/clovaai/webvicob
arxiv情報
著者 | Donghyun Kim,Teakgyu Hong,Moonbin Yim,Yoonsik Kim,Geewook Kim |
発行日 | 2023-05-02 07:57:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI