Machine Translation in the Covid domain: an English-Irish case study for LoResMT 2021

要約

LoResMT2021共有タスクのために、Covidデータの英語からアイルランド語への翻訳という特定のドメインに対する翻訳モデルを開発した。翻訳総局の55kコーパスをCovidに適応させたドメイン適応技術を適用した。ファインチューニング、ミックスファインチューニング、複合データセットアプローチを、拡張ドメイン内データセットで学習したモデルと比較した。この研究の一環として、Covid関連データの英語-アイルランド語データセット(HealthとEducationのドメインから)が開発された。最も高性能なモデルは、拡張されたドメイン内Covidデータセットで学習されたTransformerアーキテクチャを使用した。この研究の文脈では、8kのドメイン内ベースラインデータセットをわずか5k行拡張するだけで、BLEUスコアが27ポイント向上することを実証した。

要約(オリジナル)

Translation models for the specific domain of translating Covid data from English to Irish were developed for the LoResMT 2021 shared task. Domain adaptation techniques, using a Covid-adapted generic 55k corpus from the Directorate General of Translation, were applied. Fine-tuning, mixed fine-tuning and combined dataset approaches were compared with models trained on an extended in-domain dataset. As part of this study, an English-Irish dataset of Covid related data, from the Health and Education domains, was developed. The highest-performing model used a Transformer architecture trained with an extended in-domain Covid dataset. In the context of this study, we have demonstrated that extending an 8k in-domain baseline dataset by just 5k lines improved the BLEU score by 27 points.

arxiv情報

著者 Séamus Lankford,Haithem Afli,Andy Way
発行日 2024-03-02 12:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク