要約
機械翻訳は、多くの高リソース言語ペアにとって成熟したテクノロジーです。
ただし、リソースが少ない言語の場合、翻訳モデルの開発に利用できる並列データ データセットが不足しています。
さらに、低リソース言語のデータセットの開発では、一般的な翻訳用に可能な限り最大のデータセットを作成することに重点が置かれることがよくあります。
より小さなドメイン内データセットの利点と開発は、簡単に見落とされがちです。
ドメイン内データを使用する利点を評価するために、リソースの少ない英語とアイルランド語の言語ペア向けに、健康の特定ドメイン用のデータセットが開発されました。
私たちの研究では、コーパスの開発に使用されるプロセスの概要を説明し、健康ドメインにドメイン内データセットを使用する利点を実証的に示しています。
健康関連データの翻訳のコンテキストでは、gaHealth コーパスを使用して開発されたモデルは、LoResMT2021 共有タスクの最高パフォーマンスのモデルと比較して、BLEU スコアが最大 22.2 ポイント (40%) 向上することが実証されました。
さらに、アイルランド語の健康データの初の対訳コーパスである gaHealth を開発するための言語ガイドラインを定義しています。これは、低リソースのデータセットを作成する他の作成者にとって役立つことを願っています。
gaHealth は現在オンラインで無料で利用でき、さらなる研究のために調査する準備ができています。
要約(オリジナル)
Machine Translation is a mature technology for many high-resource language pairs. However in the context of low-resource languages, there is a paucity of parallel data datasets available for developing translation models. Furthermore, the development of datasets for low-resource languages often focuses on simply creating the largest possible dataset for generic translation. The benefits and development of smaller in-domain datasets can easily be overlooked. To assess the merits of using in-domain data, a dataset for the specific domain of health was developed for the low-resource English to Irish language pair. Our study outlines the process used in developing the corpus and empirically demonstrates the benefits of using an in-domain dataset for the health domain. In the context of translating health-related data, models developed using the gaHealth corpus demonstrated a maximum BLEU score improvement of 22.2 points (40%) when compared with top performing models from the LoResMT2021 Shared Task. Furthermore, we define linguistic guidelines for developing gaHealth, the first bilingual corpus of health data for the Irish language, which we hope will be of use to other creators of low-resource data sets. gaHealth is now freely available online and is ready to be explored for further research.
arxiv情報
著者 | Séamus Lankford,Haithem Afli,Órla Ní Loinsigh,Andy Way |
発行日 | 2024-03-06 09:36:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google