DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis

要約

深層学習手法は、歴史文書画像分析のタスクを解決する際に優れたパフォーマンスを示しています。
ただし、現在のライブラリやフレームワークにもかかわらず、1 つまたは一連の実験をプログラミングして実行するには時間がかかる場合があります。
これが、PyTorch Lightning に基づいており、特に履歴文書分析用に設計されたオープンソースの深層学習フレームワーク DIVA-DAF を提案する理由です。
セグメンテーションや分類などの事前実装されたタスクは、簡単に使用またはカスタマイズできます。
また、データ、さらには大規模なデータ セットやさまざまな形式のグラウンド トゥルースをロードするための強力なモジュールの利点を利用して、独自のタスクを作成することも簡単です。
実行されたアプリケーションでは、ドキュメント分析タスクのプログラミングだけでなく、事前トレーニングやアーキテクチャの変更などのさまざまなシナリオでも時間の節約が実証されました。
データ モジュールのおかげで、このフレームワークではモデルのトレーニング時間を大幅に短縮することもできます。

要約(オリジナル)

Deep learning methods have shown strong performance in solving tasks for historical document image analysis. However, despite current libraries and frameworks, programming an experiment or a set of experiments and executing them can be time-consuming. This is why we propose an open-source deep learning framework, DIVA-DAF, which is based on PyTorch Lightning and specifically designed for historical document analysis. Pre-implemented tasks such as segmentation and classification can be easily used or customized. It is also easy to create one’s own tasks with the benefit of powerful modules for loading data, even large data sets, and different forms of ground truth. The applications conducted have demonstrated time savings for the programming of a document analysis task, as well as for different scenarios such as pre-training or changing the architecture. Thanks to its data module, the framework also allows to reduce the time of model training significantly.

arxiv情報

著者 Lars Vögtlin,Anna Scius-Bertrand,Paul Maergner,Andreas Fischer,Rolf Ingold
発行日 2024-02-15 10:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク