要約
この研究では、非標準言語と文字の組み合わせである歴史的言語であるアルメノ・トルコ語で文書を識別するための一般化可能なワークフローを紹介します。
文書内の構造化言語の交互の頻度に基づいて、多言語性の明確なパターンを検出するタスクを導入します。
要約(オリジナル)
In this study, we present a generalizable workflow to identify documents in a historic language with a nonstandard language and script combination, Armeno-Turkish. We introduce the task of detecting distinct patterns of multilinguality based on the frequency of structured language alternations within a document.
arxiv情報
著者 | Hale Sirin,Sabrina Li,Tom Lippincott |
発行日 | 2024-01-25 23:54:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google