Continual Knowledge Distillation for Neural Machine Translation

要約

多くの並列コーパスは、データの著作権、データのプライバシー、競争上の差別化の理由から公的にアクセスできませんが、トレーニングされた翻訳モデルはオープン プラットフォームで利用できるようになってきています。
この研究では、既存の翻訳モデルを利用して対象となる 1 つのモデルを改善する、継続的知識蒸留と呼ばれる方法を提案します。
基本的な考え方は、トレーニングされた各モデルから抽出されたモデルに知識を順次転送することです。
中国語-英語およびドイツ語-英語のデータセットに対する広範な実験により、私たちの手法は同種および異種のトレーニング済みモデル設定の両方で強力なベースラインを超えて大幅かつ一貫した改善を達成し、悪意のあるモデルに対して堅牢であることが示されています。

要約(オリジナル)

While many parallel corpora are not publicly accessible for data copyright, data privacy and competitive differentiation reasons, trained translation models are increasingly available on open platforms. In this work, we propose a method called continual knowledge distillation to take advantage of existing translation models to improve one model of interest. The basic idea is to sequentially transfer knowledge from each trained model to the distilled model. Extensive experiments on Chinese-English and German-English datasets show that our method achieves significant and consistent improvements over strong baselines under both homogeneous and heterogeneous trained model settings and is robust to malicious models.

arxiv情報

著者 Yuanchi Zhang,Peng Li,Maosong Sun,Yang Liu
発行日 2023-06-12 12:00:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク