TAMS: Translation-Assisted Morphological Segmentation

要約

標準形態素セグメンテーションは、単語をその構成要素である形態素の標準 (基礎となる) 形式に分析するプロセスです。
これは言語ドキュメントの中核となるタスクであり、NLP システムはこのプロセスを劇的にスピードアップする可能性を秘めています。
しかし、一般的な言語ドキュメント設定では、正規形態素セグメンテーションのトレーニング データが不足しているため、高品質のモデルをトレーニングすることが困難です。
ただし、翻訳データははるかに豊富であることが多く、この研究では、正規セグメンテーション タスクでこのデータを活用しようとする方法を紹介します。
我々は、事前トレーニングされた高リソースの単言語言語モデルから得られた翻訳表現を追加信号として組み込む、文字レベルのシーケンスツーシーケンスモデルを提案します。
私たちのモデルは、超低リソース設定ではベースラインを上回りますが、より多くのデータを使用したトレーニング分割ではさまざまな結果が得られます。
よりリソースの多い環境で翻訳を有効にするにはさらなる作業が必要ですが、私たちのモデルはリソースが著しく制限された環境でも有望です。

要約(オリジナル)

Canonical morphological segmentation is the process of analyzing words into the standard (aka underlying) forms of their constituent morphemes. This is a core task in language documentation, and NLP systems have the potential to dramatically speed up this process. But in typical language documentation settings, training data for canonical morpheme segmentation is scarce, making it difficult to train high quality models. However, translation data is often much more abundant, and, in this work, we present a method that attempts to leverage this data in the canonical segmentation task. We propose a character-level sequence-to-sequence model that incorporates representations of translations obtained from pretrained high-resource monolingual language models as an additional signal. Our model outperforms the baseline in a super-low resource setting but yields mixed results on training splits with more data. While further work is needed to make translations useful in higher-resource settings, our model shows promise in severely resource-constrained settings.

arxiv情報

著者 Enora Rice,Ali Marashian,Luke Gessler,Alexis Palmer,Katharina von der Wense
発行日 2024-10-15 16:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク