要約
PDFドキュメントには、言語モデルをトレーニングするために、数兆個の斬新で高品質のトークンを提供する可能性があります。
ただし、これらのドキュメントには、言語モデルの使用の根本的なコンテンツを抽出し、忠実に表現しようとするときに課題をもたらす、異なる形式と視覚的なレイアウトを備えた多様な種類があります。
Olmocrを、セクション、テーブル、リスト、方程式などなどの構造化されたコンテンツを保持しながら、PDFをクリーンで線形化されたプレーンテキストに自然な読書順に処理するためのオープンソースPythonツールキットを提示します。
当社のツールキットは、グラフィック、手書きテキスト、低品質のスキャンなど、多様なプロパティを備えた100,000を超えるクロールされたPDFから260,000ページのサンプルでトレーニングされた微調整された7B Vision言語モデル(VLM)を実行します。
Olmocrは、大規模なバッチ処理に最適化されており、さまざまなハードウェアセットアップに柔軟にスケーリングし、100万ページをわずか190米ドルで変換できます。
VLMの重み、データ、トレーニングコードを含むOlmocrのすべてのコンポーネント、およびVLLMやSglangを含むサービングフレームワーク上に構築された推論コードをリリースします。
要約(オリジナル)
PDF documents have the potential to provide trillions of novel, high-quality tokens for training language models. However, these documents come in a diversity of types with differing formats and visual layouts that pose a challenge when attempting to extract and faithfully represent the underlying content for language model use. We present olmOCR, an open-source Python toolkit for processing PDFs into clean, linearized plain text in natural reading order while preserving structured content like sections, tables, lists, equations, and more. Our toolkit runs a fine-tuned 7B vision language model (VLM) trained on a sample of 260,000 pages from over 100,000 crawled PDFs with diverse properties, including graphics, handwritten text and poor quality scans. olmOCR is optimized for large-scale batch processing, able to scale flexibly to different hardware setups and convert a million PDF pages for only $190 USD. We release all components of olmOCR including VLM weights, data and training code, as well as inference code built on serving frameworks including vLLM and SGLang.
arxiv情報
著者 | Jake Poznanski,Jon Borchardt,Jason Dunkelberger,Regan Huff,Daniel Lin,Aman Rangapur,Christopher Wilhelm,Kyle Lo,Luca Soldaini |
発行日 | 2025-02-25 18:38:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google