Segment-Based Interactive Machine Translation for Pre-trained Models

要約

事前トレーニングされた大規模言語モデル (LLM) は、多くのアプリケーションで広く使用され始めています。
この研究では、対話型機械翻訳 (IMT) 環境でのこれらのモデルの使用を検討します。
特に、実験を実行する LLM として mBART (多言語双方向および自動回帰トランスフォーマー) と mT5 (多言語テキスト間転送トランスフォーマー) を選択しました。
このシステムは、反復ごとにユーザーから提供されたフィードバックを使用して対話的に完璧な翻訳を生成します。
ニューラル機械翻訳 (NMT) モデルはフィードバックを使用して予備的な仮説を生成し、ユーザーは新しい正しいセグメントを検証して単語の修正を実行します。文が正しく翻訳されるまでこのプロセスが繰り返されます。
ユーザーの労力、ワード ストローク比 (WSR)、キー ストローク比 (KSR)、およびマウス アクション比に関するベンチマーク データセット上で、mBART、mT5、および最先端 (SoTA) 機械翻訳モデルのパフォーマンスを比較しました。
(3月)。
実験結果は、mBART が SoTA モデルと同等の性能を発揮したことを示しており、この分野の IMT にとって実行可能な選択肢であることを示唆しています。
この発見の意味は、いくつかの新しい事前トレーニング済みモデルがこの領域で SoTA パフォーマンスを示し、これらのモデルを特定のニーズに適応させる潜在的な利点を強調しているため、インタラクティブ環境向けの新しい機械翻訳モデルの開発にまで及びます。

要約(オリジナル)

Pre-trained large language models (LLM) are starting to be widely used in many applications. In this work, we explore the use of these models in interactive machine translation (IMT) environments. In particular, we have chosen mBART (multilingual Bidirectional and Auto-Regressive Transformer) and mT5 (multilingual Text-to-Text Transfer Transformer) as the LLMs to perform our experiments. The system generates perfect translations interactively using the feedback provided by the user at each iteration. The Neural Machine Translation (NMT) model generates a preliminary hypothesis with the feedback, and the user validates new correct segments and performs a word correction–repeating the process until the sentence is correctly translated. We compared the performance of mBART, mT5, and a state-of-the-art (SoTA) machine translation model on a benchmark dataset regarding user effort, Word Stroke Ratio (WSR), Key Stroke Ratio (KSR), and Mouse Action Ratio (MAR). The experimental results indicate that mBART performed comparably with SoTA models, suggesting that it is a viable option for this field of IMT. The implications of this finding extend to the development of new machine translation models for interactive environments, as it indicates that some novel pre-trained models exhibit SoTA performance in this domain, highlighting the potential benefits of adapting these models to specific needs.

arxiv情報

著者 Angel Navarro,Francisco Casacuberta
発行日 2024-07-09 16:04:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク