Detecting Structured Language Alternations in Historical Documents by Combining Language Identification with Fourier Analysis

要約

この研究では、非標準言語と文字の組み合わせである歴史的言語であるアルメノ・トルコ語で文書を識別するための一般化可能なワークフローを紹介します。
文書内の構造化言語の交互の頻度に基づいて、多言語性の明確なパターンを検出するタスクを導入します。

要約(オリジナル)

In this study, we present a generalizable workflow to identify documents in a historic language with a nonstandard language and script combination, Armeno-Turkish. We introduce the task of detecting distinct patterns of multilinguality based on the frequency of structured language alternations within a document.

arxiv情報

著者 Hale Sirin,Sabrina Li,Tom Lippincott
発行日 2024-01-25 23:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク