AMuRD: Annotated Arabic-English Receipt Dataset for Key Information Extraction and Classification

要約

レシートからの重要な情報の抽出は、スキャンしたレシートからのテキストの認識と抽出を伴う複雑なタスクです。
このプロセスは、重要なコンテンツを取得し、簡単にアクセスして分析できるように構造化されたドキュメントに整理できるため、非常に重要です。
この論文では、レシートからの情報抽出用に特別に設計された、人間による注釈が付けられた新しい多言語データセットである AMuRD を紹介します。
このデータセットは 47,720 ドルのサンプルで構成されており、小売業界におけるデータ分析の 2 つの重要な側面である情報抽出と商品分類における主要な課題に対処しています。
各サンプルには、商品名と、価格、ブランドなどの属性の注釈が含まれています。
この詳細な注釈により、領収書の各項目を包括的に理解することが容易になります。
さらに、このデータセットは、$44$ の異なる製品カテゴリへの分類を提供します。
この分類機能により、アイテムのより組織的かつ効率的な分析が可能になり、さまざまなアプリケーションでのデータセットの使いやすさが向上します。
私たちの研究では、AMuRD データセット上の LLaMA モデルを微調整するなどして、さまざまな言語モデル アーキテクチャを評価しました。
私たちのアプローチでは、情報抽出と分類において F1 スコア 97.43\%、精度 94.99\% という優れた結果が得られ、特定のタスクではさらに高い F1 スコア 98.51\%、精度 97.06\% が観察されました。
データセットとコードは、さらなる研究のために公的にアクセスできますhttps://github.com/Update-For-Integrated-Business-AI/AMuRD。

要約(オリジナル)

The extraction of key information from receipts is a complex task that involves the recognition and extraction of text from scanned receipts. This process is crucial as it enables the retrieval of essential content and organizing it into structured documents for easy access and analysis. In this paper, we present AMuRD, a novel multilingual human-annotated dataset specifically designed for information extraction from receipts. This dataset comprises $47,720$ samples and addresses the key challenges in information extraction and item classification – the two critical aspects of data analysis in the retail industry. Each sample includes annotations for item names and attributes such as price, brand, and more. This detailed annotation facilitates a comprehensive understanding of each item on the receipt. Furthermore, the dataset provides classification into $44$ distinct product categories. This classification feature allows for a more organized and efficient analysis of the items, enhancing the usability of the dataset for various applications. In our study, we evaluated various language model architectures, e.g., by fine-tuning LLaMA models on the AMuRD dataset. Our approach yielded exceptional results, with an F1 score of 97.43\% and accuracy of 94.99\% in information extraction and classification, and an even higher F1 score of 98.51\% and accuracy of 97.06\% observed in specific tasks. The dataset and code are publicly accessible for further researchhttps://github.com/Update-For-Integrated-Business-AI/AMuRD.

arxiv情報

著者 Abdelrahman Abdallah,Mahmoud Abdalla,Mohamed Elkasaby,Yasser Elbendary,Adam Jatowt
発行日 2024-03-26 16:05:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク