Docling Technical Report

要約

Docling は、使いやすい自己完結型の MIT ライセンスのドキュメント変換用オープンソース ツールキットであり、数種類の一般的なドキュメント形式を解析して、統合された高度に構造化された表現にすることができます。
レイアウト分析 (DocLayNet) とテーブル構造認識 (TableFormer) に特化した最先端の AI モデルを搭載しており、少ないリソース予算で汎用ハードウェア上で効率的に実行されます。
Docling は Python パッケージとしてリリースされ、Python API または CLI ツールとして使用できます。
Docling のモジュラー アーキテクチャと、DoclingDocument として知られる効率的なドキュメント表現 % により、拡張機能、新機能、モデル、カスタマイズを簡単に実装できます。
Docling は、他の一般的なオープンソース フレームワーク (LlamaIndex、LangChain、spaCy など) にすでに統合されており、ドキュメントの処理やハイエンド アプリケーションの開発に自然に適合します。
オープンソース コミュニティは Docling の使用、推進、開発に全力で取り組んできました。Docling は 1 か月足らずで GitHub に 10,000 個のスターを集め、2024 年 11 月には世界中の GitHub でトレンド第 1 位のリポジトリとして報告されました。

要約(オリジナル)

We introduce Docling, an easy-to-use, self-contained, MIT-licensed, open-source toolkit for document conversion, that can parse several types of popular document formats into a unified, richly structured representation. It is powered by state-of-the-art specialized AI models for layout analysis (DocLayNet) and table structure recognition (TableFormer), and runs efficiently on commodity hardware in a small resource budget. Docling is released as a Python package and can be used as a Python API or as a CLI tool. Docling’s modular architecture and efficient document representation %, known as DoclingDocument, make it easy to implement extensions, new features, models, and customizations. Docling has been already integrated in other popular open-source frameworks (e.g., LlamaIndex, LangChain, spaCy), making it a natural fit for the processing of documents and the development of high-end applications. The open-source community has fully engaged in using, promoting, and developing for Docling, which gathered 10k stars on GitHub in less than a month and was reported as the No. 1 trending repository in GitHub worldwide in November 2024.

arxiv情報

著者 Nikolaos Livathinos,Christoph Auer,Maksym Lysak,Ahmed Nassar,Michele Dolfi,Panos Vagenas,Cesar Berrospi Ramis,Matteo Omenetti,Kasper Dinkla,Yusik Kim,Shubham Gupta,Rafael Teixeira de Lima,Valery Weber,Lucas Morin,Ingmar Meijer,Viktor Kuropiatnyk,Peter W. J. Staar
発行日 2024-12-06 10:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.SE パーマリンク