Multi-Teacher Knowledge Distillation For Text Image Machine Translation

要約

タイトル:テキスト画像機械翻訳のためのマルチティーチャー・ナレッジ蒸留

要約:

– テキスト画像機械翻訳(TIMT)は、画像内のソース言語テキストを他のターゲット言語の文に翻訳するため、さまざまな実世界アプリケーションで広く使用されています。
– TIMTに対する既存の方法は主に2つのカテゴリに分かれています。それは、認識後に翻訳パイプラインモデルとエンド・ツー・エンドモデルですが、パイプラインモデルからエンド・ツー・エンドモデルへの知識の転送方法はまだ未解決の問題です。
– 本論文では、パイプラインモデルからエンド・ツー・エンドTIMTモデルに知識を効果的に蒸留するための新しいマルチ・ティーチャー・ナレッジ蒸留(MTKD)方法を提案しています。
– 具体的には、3つの先生を利用して、エンド・ツー・エンドTIMTモデルの性能を改善します。 エンド・ツー・エンドTIMTモデルの画像エンコーダは、認識先生エンコーダからの知識蒸留ガイダンスによって最適化され、シーケンシャルエンコーダとデコーダは、翻訳シーケンシャルとデコーダの先生モデルから知識を転送することによって改善されます。
– さらに、トークンと文レベルの知識蒸留が組み合わされて、翻訳性能をより高めるために使用されます。
– 豊富な実験結果は、MTKDがパイプラインモデルとエンド・ツー・エンドモデルの両方の利点を利用できることを示しており、パラメータが少なく、従来のエンド・ツー・エンドおよびパイプラインモデルを上回る翻訳性能を発揮します。

要約(オリジナル)

Text image machine translation (TIMT) has been widely used in various real-world applications, which translates source language texts in images into another target language sentence. Existing methods on TIMT are mainly divided into two categories: the recognition-then-translation pipeline model and the end-to-end model. However, how to transfer knowledge from the pipeline model into the end-to-end model remains an unsolved problem. In this paper, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) method to effectively distillate knowledge into the end-to-end TIMT model from the pipeline model. Specifically, three teachers are utilized to improve the performance of the end-to-end TIMT model. The image encoder in the end-to-end TIMT model is optimized with the knowledge distillation guidance from the recognition teacher encoder, while the sequential encoder and decoder are improved by transferring knowledge from the translation sequential and decoder teacher models. Furthermore, both token and sentence-level knowledge distillations are incorporated to better boost the translation performance. Extensive experimental results show that our proposed MTKD effectively improves the text image translation performance and outperforms existing end-to-end and pipeline models with fewer parameters and less decoding time, illustrating that MTKD can take advantage of both pipeline and end-to-end models.

arxiv情報

著者 Cong Ma,Yaping Zhang,Mei Tu,Yang Zhao,Yu Zhou,Chengqing Zong
発行日 2023-05-10 02:31:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク