Docling Technical Report

要約

この技術レポートでは、PDF ドキュメント変換用の使いやすい自己完結型の MIT ライセンスのオープンソース パッケージである Docling を紹介します。
レイアウト分析 (DocLayNet) とテーブル構造認識 (TableFormer) に特化した最先端の AI モデルを搭載しており、少ないリソース予算で汎用ハードウェア上で効率的に実行されます。
コード インターフェイスにより、拡張が容易になり、新しい機能やモデルを追加できます。

要約(オリジナル)

This technical report introduces Docling, an easy to use, self-contained, MIT-licensed open-source package for PDF document conversion. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. The code interface allows for easy extensibility and addition of new features and models.

arxiv情報

著者 Christoph Auer,Maksym Lysak,Ahmed Nassar,Michele Dolfi,Nikolaos Livathinos,Panos Vagenas,Cesar Berrospi Ramis,Matteo Omenetti,Fabian Lindlbauer,Kasper Dinkla,Lokesh Mishra,Yusik Kim,Shubham Gupta,Rafael Teixeira de Lima,Valery Weber,Lucas Morin,Ingmar Meijer,Viktor Kuropiatnyk,Peter W. J. Staar
発行日 2024-12-09 09:20:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SE パーマリンク