Multi-Teacher Knowledge Distillation For Text Image Machine Translation

要約

タイトル:マルチティーチャー知識蒸留を用いたテキスト画像機械翻訳

要約:

– テキスト画像機械翻訳(TIMT)は、ソース言語の文書内の画像から別のターゲット言語の文に翻訳する多様な実用アプリケーションで広く使用されています。
– TIMTに関する既存の方法は、主に2つのカテゴリに分かれています。認識後に翻訳するパイプラインモデルとエンドツーエンドモデルです。
– パイプラインモデルから知識をエンドツーエンドモデルに転移する方法は未解決の課題です。
– 本論文では、パイプラインモデルからエンドツーエンドTIMTモデルに知識を効果的に蒸留するための新しいマルチティーチャー知識蒸留(MTKD)手法を提案しています。
– 具体的には、3つの教師を使用して、エンドツーエンドTIMTモデルの性能を向上させます。エンドツーエンドTIMTモデルの画像エンコーダは、認識教師エンコーダからの知識蒸留のガイダンスによって最適化されます。また、順次エンコーダとデコーダは、翻訳順序とデコーダ教師モデルからの知識を転移することで改善されます。
– さらに、トークンレベルと文レベルの知識蒸留が組み込まれており、翻訳性能がさらに向上しています。
– 大規模な実験結果から、提案されたMTKD手法はパラメータ数が少なく、デコード時間が少ないため、既存のエンドツーエンドモデルとパイプラインモデルを両方活用することができると示し、text image翻訳性能を効果的に向上させられる。

要約(オリジナル)

Text image machine translation (TIMT) has been widely used in various real-world applications, which translates source language texts in images into another target language sentence. Existing methods on TIMT are mainly divided into two categories: the recognition-then-translation pipeline model and the end-to-end model. However, how to transfer knowledge from the pipeline model into the end-to-end model remains an unsolved problem. In this paper, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) method to effectively distillate knowledge into the end-to-end TIMT model from the pipeline model. Specifically, three teachers are utilized to improve the performance of the end-to-end TIMT model. The image encoder in the end-to-end TIMT model is optimized with the knowledge distillation guidance from the recognition teacher encoder, while the sequential encoder and decoder are improved by transferring knowledge from the translation sequential and decoder teacher models. Furthermore, both token and sentence-level knowledge distillations are incorporated to better boost the translation performance. Extensive experimental results show that our proposed MTKD effectively improves the text image translation performance and outperforms existing end-to-end and pipeline models with fewer parameters and less decoding time, illustrating that MTKD can take advantage of both pipeline and end-to-end models.

arxiv情報

著者 Cong Ma,Yaping Zhang,Mei Tu,Yang Zhao,Yu Zhou,Chengqing Zong
発行日 2023-05-09 07:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク