要約
タイトル:コードスイッチされたエジプトアラビア語と英語のテキストのニューラル機械翻訳のためのセグメンテーションアプローチの探求
要約:
– データの疎密性は、モルフォロジー豊かな言語の場合にさらに悪化するコードスイッチングの主な課題の一つです。
– 機械翻訳のタスクでは、モルフォロジーに基づくセグメンテーションは単一言語の文脈でデータの疎密性を軽減することが証明されていますが、CS設定では調査されていませんでした。
– この論文では、コードスイッチされたアラビア語-英語から英語への機械翻訳において、形態に基づくおよび頻度に基づくセグメンテーション技術を含む異なるセグメンテーション手法の有効性を研究しています。
– データサイズとCSの程度に異なる条件を調べ、詳細な分析を提供します。
– 実証的な結果から、形態に注意を払ったセグメンターがセグメンテーションタスクで最も優れていることがわかりましたが、MTでは性能が低下してしまいました。
– それにもかかわらず、MTに使用するセグメンテーション設定の選択は、データサイズに非常に依存することがわかりました。
– 極めて低資源のシナリオでは、頻度と形態に基づくセグメンテーションの組み合わせが最も良い結果を示しました。
– 資源が豊かな場合、そのような組み合わせは頻度に基づくセグメンテーションの使用に比べて重要な改善をもたらしませんでした。
要約(オリジナル)
Data sparsity is one of the main challenges posed by code-switching (CS), which is further exacerbated in the case of morphologically rich languages. For the task of machine translation (MT), morphological segmentation has proven successful in alleviating data sparsity in monolingual contexts; however, it has not been investigated for CS settings. In this paper, we study the effectiveness of different segmentation approaches on MT performance, covering morphology-based and frequency-based segmentation techniques. We experiment on MT from code-switched Arabic-English to English. We provide detailed analysis, examining a variety of conditions, such as data size and sentences with different degrees of CS. Empirical results show that morphology-aware segmenters perform the best in segmentation tasks but under-perform in MT. Nevertheless, we find that the choice of the segmentation setup to use for MT is highly dependent on the data size. For extreme low-resource scenarios, a combination of frequency and morphology-based segmentations is shown to perform the best. For more resourced settings, such a combination does not bring significant improvements over the use of frequency-based segmentation.
arxiv情報
著者 | Marwa Gaser,Manuel Mager,Injy Hamed,Nizar Habash,Slim Abdennadher,Ngoc Thang Vu |
発行日 | 2023-04-30 21:07:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI