要約
形式性などのきめ細かい属性に準拠するように機械翻訳モデルをカスタマイズすることは、最近大きな進歩を遂げています。
ただし、現在のアプローチはほとんどが、属性注釈を備えた少なくともいくつかの教師付きデータに依存しています。
したがって、データの不足が、このようなカスタマイズの可能性をより広範囲の言語、特に低リソースの言語に民主化する上で依然としてボトルネックとなっています。
事前トレーニングされた大規模多言語翻訳モデルの最近の進歩を考慮して、教師付きデータなしで属性制御機能を言語に転送するための基盤としてそれらを使用します。
この研究では、事前トレーニングされた NLLB-200 モデルに基づいた属性コントローラーの転送に関する包括的な分析を紹介します。
私たちは、さまざまなデータ シナリオの下でトレーニング時間と推論時間の両方の制御手法を調査し、ゼロショット パフォーマンスとドメインの堅牢性における相対的な長所と短所を明らかにします。
5 つのゼロショット方向の一貫した改善によって示されるように、両方のパラダイムが補完的であることを示します。
さらに、実際の低リソース言語であるベンガル語に対する人間による評価により、新しいターゲット言語へのゼロショット移行に関する調査結果が確認されました。
コードは $\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$ です。
要約(オリジナル)
Customizing machine translation models to comply with fine-grained attributes such as formality has seen tremendous progress recently. However, current approaches mostly rely on at least some supervised data with attribute annotation. Data scarcity therefore remains a bottleneck to democratizing such customization possibilities to a wider range of languages, lower-resource ones in particular. Given recent progress in pretrained massively multilingual translation models, we use them as a foundation to transfer the attribute controlling capabilities to languages without supervised data. In this work, we present a comprehensive analysis of transferring attribute controllers based on a pretrained NLLB-200 model. We investigate both training- and inference-time control techniques under various data scenarios, and uncover their relative strengths and weaknesses in zero-shot performance and domain robustness. We show that both paradigms are complementary, as shown by consistent improvements on 5 zero-shot directions. Moreover, a human evaluation on a real low-resource language, Bengali, confirms our findings on zero-shot transfer to new target languages. The code is $\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$.
arxiv情報
著者 | Danni Liu,Jan Niehues |
発行日 | 2023-09-15 17:33:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google