要約
大規模な言語モデル(LLMS)は、文レベルの機械翻訳で強力なパフォーマンスを実証していますが、特に文章や段落全体で長距離依存と談話現象のモデリングにおいて、ドキュメントレベルの翻訳へのスケーリングは依然として挑戦的です。
この作業では、高品質のドキュメントレベルデータでターゲットを絞った微調整を通じてLLMベースの長ドキュメント翻訳を改善する方法を提案します。
私たちのアプローチは、周囲のコンテキストの有無にかかわらず指示を統合することにより、直接文書からドキュメントへの文書への翻訳やチャンクレベルの翻訳を含む複数の翻訳パラダイムをサポートしています。
これにより、モデルは、強力な文レベルの翻訳パフォーマンスを維持しながら、横断的依存関係をより適切にキャプチャできます。
実験結果は、複数の翻訳パラダイムを組み込むことで、プロンプトおよびエージェントベースの方法と比較して、ドキュメントレベルの翻訳の品質と推論速度が向上することを示しています。
要約(オリジナル)
Large language models (LLMs) have demonstrated strong performance in sentence-level machine translation, but scaling to document-level translation remains challenging, particularly in modeling long-range dependencies and discourse phenomena across sentences and paragraphs. In this work, we propose a method to improve LLM-based long-document translation through targeted fine-tuning on high-quality document-level data, which we curate and introduce as DocBlocks. Our approach supports multiple translation paradigms, including direct document-to-document and chunk-level translation, by integrating instructions both with and without surrounding context. This enables models to better capture cross-sentence dependencies while maintaining strong sentence-level translation performance. Experimental results show that incorporating multiple translation paradigms improves document-level translation quality and inference speed compared to prompting and agent-based methods.
arxiv情報
著者 | Miguel Moura Ramos,Patrick Fernandes,Sweta Agrawal,André F. T. Martins |
発行日 | 2025-04-16 14:52:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google