DriveThru: a Document Extraction Platform and Benchmark Datasets for Indonesian Local Language Archives

要約

インドネシアは言語的に最も多様な国の一つです。
しかし、このような言語の多様性にもかかわらず、インドネシア語は自然言語処理 (NLP) の研究と技術において依然として過小評価されています。
過去 2 年間、インドネシア語用の NLP リソースを構築するためにいくつかの取り組みが行われてきました。
ただし、これらの取り組みのほとんどは手動リソースの作成に焦点を当てているため、より多くの言語に拡張するのは困難です。
インドネシア語の多くは Web に存在しませんが、現地では、書籍、雑誌、新聞などの印刷物でこれらの言語を詳しく説明するリソースが存在します。
これらの既存のリソースをデジタル化することで、インドネシア語リソースの構築をより多くの言語に拡張できるようになります。
この論文では、インドネシアでデジタル言語リソースを構築するためにこれまで使用されていなかった、文書をデジタル化してデータセットを作成する代替方法を提案します。
DriveThru は、システム内の光学式文字認識 (OCR) 技術を利用してドキュメント コンテンツを抽出するためのプラットフォームで、手作業の労力とコストを削減して言語リソースを構築できます。
この論文では、OCR 後の修正における現在の最先端の LLM の有用性についても研究し、既製の OCR と比較して文字精度率 (CAR) と単語精度率 (WAR) を向上させる能力を示しています。

要約(オリジナル)

Indonesia is one of the most diverse countries linguistically. However, despite this linguistic diversity, Indonesian languages remain underrepresented in Natural Language Processing (NLP) research and technologies. In the past two years, several efforts have been conducted to construct NLP resources for Indonesian languages. However, most of these efforts have been focused on creating manual resources thus difficult to scale to more languages. Although many Indonesian languages do not have a web presence, locally there are resources that document these languages well in printed forms such as books, magazines, and newspapers. Digitizing these existing resources will enable scaling of Indonesian language resource construction to many more languages. In this paper, we propose an alternative method of creating datasets by digitizing documents, which have not previously been used to build digital language resources in Indonesia. DriveThru is a platform for extracting document content utilizing Optical Character Recognition (OCR) techniques in its system to provide language resource building with less manual effort and cost. This paper also studies the utility of current state-of-the-art LLM for post-OCR correction to show the capability of increasing the character accuracy rate (CAR) and word accuracy rate (WAR) compared to off-the-shelf OCR.

arxiv情報

著者 Mohammad Rifqi Farhansyah,Muhammad Zuhdi Fikri Johari,Afinzaki Amiral,Ayu Purwarianti,Kumara Ari Yuana,Derry Tanti Wijaya
発行日 2024-11-15 02:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク