TransLLaMa: LLM-based Simultaneous Translation System

要約

デコーダ専用の大規模言語モデル (LLM) は、最近、テキストの生成と推論において優れた機能を実証しました。
それにもかかわらず、同時機械翻訳 (SiMT) における応用は限られており、現在はエンコーダ/デコーダ変換器が主流となっています。
この研究は、因果的に調整されたソース文とターゲット文のペアで構成される小規模なデータセットを微調整した後、事前トレーニングされたオープンソース LLM が特別な「待機」トークンを生成することで入力セグメンテーションを直接制御できることを示しています。
これにより、個別のポリシーの必要性がなくなり、LLM は特定の最先端のベースラインと同等の BLEU スコアで英語-ドイツ語および英語-ロシア語の SiMT タスクを実行できるようになります。
また、GPT-4 などのクローズドソース モデルも評価しました。このモデルは、事前トレーニングなし (ゼロショット) で SiMT タスクを実行する際に有望な結果を示し、将来の SiMT システムを強化するための有望な手段であることを示しました。

要約(オリジナル)

Decoder-only large language models (LLMs) have recently demonstrated impressive capabilities in text generation and reasoning. Nonetheless, they have limited applications in simultaneous machine translation (SiMT), currently dominated by encoder-decoder transformers. This study demonstrates that, after fine-tuning on a small dataset comprising causally aligned source and target sentence pairs, a pre-trained open-source LLM can control input segmentation directly by generating a special ‘wait’ token. This obviates the need for a separate policy and enables the LLM to perform English-German and English-Russian SiMT tasks with BLEU scores that are comparable to those of specific state-of-the-art baselines. We also evaluated closed-source models such as GPT-4, which displayed encouraging results in performing the SiMT task without prior training (zero-shot), indicating a promising avenue for enhancing future SiMT systems.

arxiv情報

著者 Roman Koshkin,Katsuhito Sudoh,Satoshi Nakamura
発行日 2024-02-07 07:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク