Pluggable Neural Machine Translation Models via Memory-augmented Adapters

要約

ニューラル機械翻訳 (NMT) モデルは一般的な領域では良好に機能しますが、さまざまなユーザーの要件を満たすためにその生成動作を制御することは依然としてかなり困難です。
高額なトレーニング コストと、ユーザー要件ごとに新しいモデルを最初から学習するというデータ不足の課題を考慮して、事前トレーニングされた NMT モデルをプラグイン可能な方法で操作するためのメモリ拡張アダプターを提案します。
具体的には、ユーザーが提供したテキスト サンプルに基づいて多粒度メモリを構築し、モデル表現と取得した結果を組み合わせる新しいアダプター アーキテクチャを提案します。
また、NMT モデルとメモリ間の偽の依存関係を減らすために、メモリ ドロップアウトを使用したトレーニング戦略も提案します。
スタイル固有の実験とドメイン固有の実験の両方でアプローチを検証し、その結果は、私たちの方法がいくつかの代表的なプラグイン可能なベースラインよりも優れていることを示しています。

要約(オリジナル)

Although neural machine translation (NMT) models perform well in the general domain, it remains rather challenging to control their generation behavior to satisfy the requirement of different users. Given the expensive training cost and the data scarcity challenge of learning a new model from scratch for each user requirement, we propose a memory-augmented adapter to steer pretrained NMT models in a pluggable manner. Specifically, we construct a multi-granular memory based on the user-provided text samples and propose a new adapter architecture to combine the model representations and the retrieved results. We also propose a training strategy using memory dropout to reduce spurious dependencies between the NMT model and the memory. We validate our approach on both style- and domain-specific experiments and the results indicate that our method can outperform several representative pluggable baselines.

arxiv情報

著者 Yuzhuang Xu,Shuo Wang,Peng Li,Xuebo Liu,Xiaolong Wang,Weidong Liu,Yang Liu
発行日 2024-03-18 08:07:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク