Understanding the effects of word-level linguistic annotations in under-resourced neural machine translation

要約

この論文では、リソースが不足しているニューラル機械翻訳における単語レベルの言語注釈の効果を研究していますが、文献にはその証拠が不完全です。
この研究では、8 つの言語ペア、異なるトレーニング コーパス サイズ、2 つのアーキテクチャ、および 3 種類のアノテーション (言語情報をまったく持たないダミー タグ、品詞タグ、および部分から構成される形態構文記述タグ) を対象としています。
音声と形態学的特徴の。
これらの言語注釈は、各単語の前に配置される単一のタグとして入力または出力ストリームにインターリーブされます。
各シナリオでのパフォーマンスを測定するために、自動評価メトリクスを使用し、自動エラー分類を実行します。
私たちの実験では、一般にソース言語の注釈が役に立ち、一部の言語ペアでは形態構文の記述が品詞よりも優れていることがわかりました。
逆に、単語にターゲット言語で注釈が付けられている場合、形態構文記述タグを使用すると出力の文法性が向上するにもかかわらず、品詞タグは自動評価メトリクスの点で体系的に形態構文記述タグよりも優れたパフォーマンスを示します。
この結果の背後にある理由を詳細に分析します。

要約(オリジナル)

This paper studies the effects of word-level linguistic annotations in under-resourced neural machine translation, for which there is incomplete evidence in the literature. The study covers eight language pairs, different training corpus sizes, two architectures, and three types of annotation: dummy tags (with no linguistic information at all), part-of-speech tags, and morpho-syntactic description tags, which consist of part of speech and morphological features. These linguistic annotations are interleaved in the input or output streams as a single tag placed before each word. In order to measure the performance under each scenario, we use automatic evaluation metrics and perform automatic error classification. Our experiments show that, in general, source-language annotations are helpful and morpho-syntactic descriptions outperform part of speech for some language pairs. On the contrary, when words are annotated in the target language, part-of-speech tags systematically outperform morpho-syntactic description tags in terms of automatic evaluation metrics, even though the use of morpho-syntactic description tags improves the grammaticality of the output. We provide a detailed analysis of the reasons behind this result.

arxiv情報

著者 Víctor M. Sánchez-Cartagena,Juan Antonio Pérez-Ortiz,Felipe Sánchez-Martínez
発行日 2024-01-29 11:39:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク