AMuRD: Annotated Multilingual Receipts Dataset for Cross-lingual Key Information Extraction and Classification

要約

重要な情報の抽出には、スキャンしたレシートからテキストを認識して抽出し、重要なコンテンツを取得して構造化されたドキュメントに編成することが含まれます。
この論文では、情報抽出と商品分類における重要な課題に対処する、レシート抽出のための新しい多言語データセットを紹介します。
このデータセットは、商品名、(価格、ブランドなど) などの属性、および $44$ の製品カテゴリへの分類の注釈を含む、$47,720$ のサンプルで構成されています。
InstructLLaMA アプローチを導入し、重要な情報の抽出と項目分類で 0.76 ドルの F1 スコアと 0.68 ドルの精度を達成しました。
コード、データセット、チェックポイントを提供します。\footnote{\url{https://github.com/Update-For-Integrated-Business-AI/AMuRD}}。

要約(オリジナル)

Key information extraction involves recognizing and extracting text from scanned receipts, enabling retrieval of essential content, and organizing it into structured documents. This paper presents a novel multilingual dataset for receipt extraction, addressing key challenges in information extraction and item classification. The dataset comprises $47,720$ samples, including annotations for item names, attributes like (price, brand, etc.), and classification into $44$ product categories. We introduce the InstructLLaMA approach, achieving an F1 score of $0.76$ and an accuracy of $0.68$ for key information extraction and item classification. We provide code, datasets, and checkpoints.\footnote{\url{https://github.com/Update-For-Integrated-Business-AI/AMuRD}}.

arxiv情報

著者 Abdelrahman Abdallah,Mahmoud Abdalla,Mohamed Elkasaby,Yasser Elbendary,Adam Jatowt
発行日 2023-09-18 14:18:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク