How Transferable are Attribute Controllers on Pretrained Multilingual Translation Models?

要約

必要な属性 (形式や文法の性別など) に準拠するように機械翻訳モデルをカスタマイズすることは、よく研究されているトピックです。
ただし、現在のアプローチのほとんどは、属性注釈を含む (半) 教師ありデータに依存しています。
このデータ不足は、このようなカスタマイズの可能性をより広範囲の言語、特に低リソースの言語に民主化することのボトルネックとなっています。
このギャップは、事前トレーニングされた大規模な多言語翻訳モデルの最近の進歩とは同期していません。
これに応じて、NLLB-200 モデルを基盤として、属性注釈付きデータを持たない言語に属性制御機能を移転します。
制御可能な生成の手法からインスピレーションを得て、勾配ベースの推論時間コントローラーを採用して、事前トレーニングされたモデルを操作します。
コントローラーは、事前トレーニングされた多言語表現で動作し、言語固有ではなく属性であるため、ゼロショット条件にうまく移行します。
微調整ベースの制御との包括的な比較により、教師あり設定では微調整が明らかに優勢であるにもかかわらず、特に新しく遠いターゲット言語の場合、ゼロショット条件に移行すると推論時間制御とのギャップが縮まることが実証されます。
後者は、より強力なドメインの堅牢性も示しています。
さらに、推論時間の制御が微調整を補完することを示します。
実際の低リソース言語であるベンガル語に対する人による評価により、私たちの調査結果が裏付けられました。
コードは https://github.com/dannigt/attribute-controller-transfer です。

要約(オリジナル)

Customizing machine translation models to comply with desired attributes (e.g., formality or grammatical gender) is a well-studied topic. However, most current approaches rely on (semi-)supervised data with attribute annotations. This data scarcity bottlenecks democratizing such customization possibilities to a wider range of languages, particularly lower-resource ones. This gap is out of sync with recent progress in pretrained massively multilingual translation models. In response, we transfer the attribute controlling capabilities to languages without attribute-annotated data with an NLLB-200 model as a foundation. Inspired by techniques from controllable generation, we employ a gradient-based inference-time controller to steer the pretrained model. The controller transfers well to zero-shot conditions, as it operates on pretrained multilingual representations and is attribute — rather than language-specific. With a comprehensive comparison to finetuning-based control, we demonstrate that, despite finetuning’s clear dominance in supervised settings, the gap to inference-time control closes when moving to zero-shot conditions, especially with new and distant target languages. The latter also shows stronger domain robustness. We further show that our inference-time control complements finetuning. A human evaluation on a real low-resource language, Bengali, confirms our findings. Our code is https://github.com/dannigt/attribute-controller-transfer

arxiv情報

著者 Danni Liu,Jan Niehues
発行日 2024-01-24 17:48:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク