LLM-Assisted Rule Based Machine Translation for Low/No-Resource Languages

要約

私たちは、リソースのない言語 (公的に利用可能な二言語または単言語コーパスのない言語) に特に役立つ機械翻訳の新しいパラダイム、\acronym (LLM 支援ルールベース機械翻訳) を提案します。
\頭字語パラダイムを使用して、公に利用可能なデータが事実上存在しない、絶滅の危機に瀕しているアメリカ先住民の言語であるオーエンズ バレー パイユート (OVP) の第一言語教育/活性化指向の機械翻訳機を設計します。
翻訳者のコンポーネント (ルールベースの文ビルダー、OVP から英語への翻訳者、および英語から OVP への翻訳者) の詳細な評価を示します。
また、パラダイムの可能性、その限界、そしてパラダイムが切り開く将来の研究への多くの道についても説明します。

要約(オリジナル)

We propose a new paradigm for machine translation that is particularly useful for no-resource languages (those without any publicly available bilingual or monolingual corpora): \acronym (LLM-Assisted Rule Based Machine Translation). Using the \acronym paradigm, we design the first language education/revitalization-oriented machine translator for Owens Valley Paiute (OVP), a critically endangered Indigenous American language for which there is virtually no publicly available data. We present a detailed evaluation of the translator’s components: a rule-based sentence builder, an OVP to English translator, and an English to OVP translator. We also discuss the potential of the paradigm, its limitations, and the many avenues for future research that it opens up.

arxiv情報

著者 Jared Coleman,Bhaskar Krishnamachari,Khalil Iskarous,Ruben Rosales
発行日 2024-05-14 23:41:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク