Source-primed Multi-turn Conversation Helps Large Language Models Translate Documents

要約

LLMは、本当にシンプルなドキュメントレベルの機械翻訳の道を開いていますが、省略エラーなどの課題は残っています。
このホワイトペーパーでは、以前のコンテキストをマルチターンの会話方法で活用することにより、ドキュメントレベルの機械翻訳を処理するための簡単な方法を研究します。
具体的には、ドキュメントをセグメントに分解し、以前のターンを維持しながら繰り返し翻訳することにより、この方法は追加のトレーニングなしでコヒーレントな翻訳を保証し、以前のターンのKVキャッシュを完全に再利用できるため、計算オーバーヘッドを最小限に抑えることができます。
さらに、マルチターン翻訳の前に最初にソースドキュメント全体を提供する「ソースプライミング」メソッドを提案します。
このマルチターンメソッドは、1回のターンでドキュメント全体を翻訳し、代表的なLLMSの複数の自動メトリックに従って各セグメントを個別に翻訳し、LLMSを使用したドキュメントレベルの翻訳の強力なベースラインを確立することを経験的に示しています。

要約(オリジナル)

LLMs have paved the way for truly simple document-level machine translation, but challenges such as omission errors remain. In this paper, we study a simple method for handling document-level machine translation, by leveraging previous contexts in a multi-turn conversational manner. Specifically, by decomposing documents into segments and iteratively translating them while maintaining previous turns, this method ensures coherent translations without additional training, and can fully re-use the KV cache of previous turns thus minimizing computational overhead. We further propose a `source-primed’ method that first provides the whole source document before multi-turn translation. We empirically show this multi-turn method outperforms both translating entire documents in a single turn and translating each segment independently according to multiple automatic metrics in representative LLMs, establishing a strong baseline for document-level translation using LLMs.

arxiv情報

著者 Hanxu Hu,Jannis Vamvas,Rico Sennrich
発行日 2025-03-13 15:57:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク