RealKIE: Five Novel Datasets for Enterprise Key Information Extraction

要約

エンタープライズ アプリケーションに重点を置き、重要な情報抽出方法の進歩を目的とした 5 つの挑戦的なデータセットのベンチマークである RealKIE を紹介します。
データセットには、SEC S1 提出書類、米国機密保持契約、英国慈善活動報告書、FCC 請求書、リソース契約など、さまざまな文書が含まれています。
それぞれに特有の課題があります。テキストのシリアル化が不十分、長い文書内の注釈がまばら、複雑な表形式のレイアウトです。
これらのデータセットは、投資分析や法的データ処理などの重要な情報抽出タスクのための現実的なテスト環境を提供します。
これらのデータセットの提示に加えて、アノテーション プロセス、ドキュメント処理技術、およびベースライン モデリング アプローチについての詳細な説明も提供します。
この貢献により、実際的な課題に対処できる NLP モデルの開発が促進され、業界固有の問題に適用できる情報抽出テクノロジーのさらなる研究がサポートされます。
注釈付きデータと OCR 出力は https://indicodatasolutions.github.io/RealKIE/ からダウンロードできます。ベースラインを再現するコードは間もなく利用可能になります。

要約(オリジナル)

We introduce RealKIE, a benchmark of five challenging datasets aimed at advancing key information extraction methods, with an emphasis on enterprise applications. The datasets include a diverse range of documents including SEC S1 Filings, US Non-disclosure Agreements, UK Charity Reports, FCC Invoices, and Resource Contracts. Each presents unique challenges: poor text serialization, sparse annotations in long documents, and complex tabular layouts. These datasets provide a realistic testing ground for key information extraction tasks like investment analysis and legal data processing. In addition to presenting these datasets, we offer an in-depth description of the annotation process, document processing techniques, and baseline modeling approaches. This contribution facilitates the development of NLP models capable of handling practical challenges and supports further research into information extraction technologies applicable to industry-specific problems. The annotated data and OCR outputs are available to download at https://indicodatasolutions.github.io/RealKIE/ code to reproduce the baselines will be available shortly.

arxiv情報

著者 Benjamin Townsend,Madison May,Christopher Wells
発行日 2024-03-29 10:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.LG パーマリンク