要約
大規模な言語モデル(LLMS)は、機械翻訳(MT)の妥当な品質改善を達成しました。
ただし、MT-LLMに関する現在のほとんどの研究は、ドキュメント全体を処理する際に翻訳の一貫性と精度を維持する上で依然として重要な課題に直面しています。
この論文では、これらの制限を克服するために設計されたドキュメントレベルの翻訳エージェントであるDeltaを紹介します。
Deltaは、補助LLMベースのコンポーネントによって継続的に取得および更新される、固有名詞レコード、バイリンガルの要約、長期メモリ、短期メモリなど、さまざまな粒度とスパンにわたって情報を保存するマルチレベルのメモリ構造を特徴としています。
実験結果は、デルタが4つのオープン/クローズドソースLLMと2つの代表的なドキュメント翻訳データセットにわたる翻訳の一貫性と品質の点で強力なベースラインを大幅に上回り、一貫性スコアを最大4.58パーセントポイント増加し、彗星スコアを最大3.16ポイント増加させることを示しています。
Deltaは文ごとの翻訳戦略を採用しており、文の省略を確保し、主流の方法と比較してメモリ効率の高いソリューションを提供します。
さらに、Deltaは代名詞とコンテキスト依存の翻訳精度を向上させ、エージェントの要約コンポーネントもクエリベースの要約タスクのツールとして有望です。
アプローチのコードとデータは、https://github.com/yutongwang1216/docmtagentでリリースされます。
要約(オリジナル)
Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun and context-dependent translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. The code and data of our approach are released at https://github.com/YutongWang1216/DocMTAgent.
arxiv情報
著者 | Yutong Wang,Jiali Zeng,Xuebo Liu,Derek F. Wong,Fandong Meng,Jie Zhou,Min Zhang |
発行日 | 2025-03-05 17:50:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google