要約
この技術レポートでは、PDF ドキュメント変換用の使いやすい自己完結型の MIT ライセンスのオープンソース パッケージである Docling を紹介します。
レイアウト分析 (DocLayNet) とテーブル構造認識 (TableFormer) に特化した最先端の AI モデルを搭載しており、少ないリソース予算で汎用ハードウェア上で効率的に実行されます。
コード インターフェイスにより、拡張が容易になり、新しい機能やモデルを追加できます。
要約(オリジナル)
This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.
arxiv情報
著者 | Christoph Auer,Maksym Lysak,Ahmed Nassar,Michele Dolfi,Nikolaos Livathinos,Panos Vagenas,Cesar Berrospi Ramis,Matteo Omenetti,Fabian Lindlbauer,Kasper Dinkla,Lokesh Mishra,Yusik Kim,Shubham Gupta,Rafael Teixeira de Lima,Valery Weber,Lucas Morin,Ingmar Meijer,Viktor Kuropiatnyk,Peter W. J. Staar |
発行日 | 2024-12-09 09:20:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google