KVP10k : A Comprehensive Dataset for Key-Value Pair Extraction in Business Documents

要約

近年、ビジネス文書から情報を抽出するという課題が重要なタスクとして浮上しており、多数のドメインにわたる応用が見出されています。
この取り組みは産業界と学術界の両方から大きな関心を集めており、現在の技術情勢におけるその重要性が強調されています。
この分野のほとんどのデータセットは主にキー情報抽出 (KIE) に焦点を当てており、抽出プロセスは特定の事前定義されたキーのセットを使用して情報を抽出することを中心に展開します。
既存のほとんどのデータセットやベンチマークとは異なり、事前定義されたキーに依存せずにキーと値のペア (KVP) を発見し、多様なテンプレートや複雑なレイアウトをナビゲートすることに重点を置いています。
このタスクには、主に、事前に決定されていない KVP 抽出用に調整された包括的なデータセットやベンチマークが存在しないため、特有の課題が生じます。
このギャップに対処するために、KVP 抽出用に特別に設計された新しいデータセットおよびベンチマークである KVP10k を導入します。
データセットには、豊富に注釈が付けられた 10,707 枚の画像が含まれています。
私たちのベンチマークでは、KIE と KVP の要素を 1 つのタスクに組み合わせた、新しい挑戦的なタスクも導入しています。
KVP10k は、データの広範な多様性と詳細な注釈によって他と区別され、複雑なビジネス文書からの情報抽出の分野での進歩への道を切り開きます。

要約(オリジナル)

In recent years, the challenge of extracting information from business documents has emerged as a critical task, finding applications across numerous domains. This effort has attracted substantial interest from both industry and academy, highlighting its significance in the current technological landscape. Most datasets in this area are primarily focused on Key Information Extraction (KIE), where the extraction process revolves around extracting information using a specific, predefined set of keys. Unlike most existing datasets and benchmarks, our focus is on discovering key-value pairs (KVPs) without relying on predefined keys, navigating through an array of diverse templates and complex layouts. This task presents unique challenges, primarily due to the absence of comprehensive datasets and benchmarks tailored for non-predetermined KVP extraction. To address this gap, we introduce KVP10k , a new dataset and benchmark specifically designed for KVP extraction. The dataset contains 10707 richly annotated images. In our benchmark, we also introduce a new challenging task that combines elements of KIE as well as KVP in a single task. KVP10k sets itself apart with its extensive diversity in data and richly detailed annotations, paving the way for advancements in the field of information extraction from complex business documents.

arxiv情報

著者 Oshri Naparstek,Roi Pony,Inbar Shapira,Foad Abo Dahood,Ophir Azulai,Yevgeny Yaroker,Nadav Rubinstein,Maksym Lysak,Peter Staar,Ahmed Nassar,Nikolaos Livathinos,Christoph Auer,Elad Amrani,Idan Friedman,Orit Prince,Yevgeny Burshtein,Adi Raz Goldfarb,Udi Barzelay
発行日 2024-05-01 13:37:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク