LogogramNLP: Comparing Visual and Textual Representations of Ancient Logographic Writing Systems for NLP

要約

標準の自然言語処理 (NLP) パイプラインは、通常、一連の離散トークンで構成される言語の記号表現を処理します。
ただし、古代の表語文字体系の類似表現を作成することは、専門知識を必要とする非常に労力のかかるプロセスです。
現在、文字起こしがないため、表語データの大部分は純粋に視覚的な形式で残っています。この問題は、NLP ツールキットを古代表語言語の研究に適用しようとしている研究者にとってボトルネックとなっています。関連データのほとんどは文字の画像です。

この論文では、言語の視覚的表現の直接処理が潜在的な解決策を提供するかどうかを調査します。
古代表語言語の NLP 分析を可能にする最初のベンチマークである LogogramNLP を紹介します。これは、分類、翻訳、解析などのタスク用の注釈とともに、4 つの書記体系の転写データセットと視覚データセットの両方を備えています。
私たちの実験では、バックボーンとして最近のビジュアルおよびテキストのエンコーディング戦略を採用したシステムを比較しました。
この結果は、調査した一部のタスクでは視覚表現がテキスト表現よりも優れていることを示しており、視覚処理パイプラインが NLP ベースの分析のために表語言語の大量の文化遺産データを解き放つ可能性があることを示唆しています。

要約(オリジナル)

Standard natural language processing (NLP) pipelines operate on symbolic representations of language, which typically consist of sequences of discrete tokens. However, creating an analogous representation for ancient logographic writing systems is an extremely labor intensive process that requires expert knowledge. At present, a large portion of logographic data persists in a purely visual form due to the absence of transcription — this issue poses a bottleneck for researchers seeking to apply NLP toolkits to study ancient logographic languages: most of the relevant data are images of writing. This paper investigates whether direct processing of visual representations of language offers a potential solution. We introduce LogogramNLP, the first benchmark enabling NLP analysis of ancient logographic languages, featuring both transcribed and visual datasets for four writing systems along with annotations for tasks like classification, translation, and parsing. Our experiments compare systems that employ recent visual and text encoding strategies as backbones. The results demonstrate that visual representations outperform textual representations for some investigated tasks, suggesting that visual processing pipelines may unlock a large amount of cultural heritage data of logographic languages for NLP-based analyses.

arxiv情報

著者 Danlu Chen,Freda Shi,Aditi Agarwal,Jacobo Myerston,Taylor Berg-Kirkpatrick
発行日 2024-08-08 17:58:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク