DelTA: An Online Document-Level Translation Agent Based on Multi-Level Memory

要約

大規模言語モデル (LLM) は、機械翻訳 (MT) の品質を合理的に向上させました。
しかし、MT-LLM に関する現在の研究のほとんどは、文書全体を処理する際に翻訳の一貫性と精度を維持するという大きな課題に依然として直面しています。
このホワイトペーパーでは、これらの制限を克服するために設計されたドキュメントレベルの翻訳エージェントである DelTA を紹介します。
DelTA は、固有名詞レコード、対訳要約、長期メモリ、短期メモリなど、さまざまな粒度とスパンにわたる情報を格納するマルチレベル メモリ構造を備えており、これらは補助的な LLM ベースのコンポーネントによって継続的に取得および更新されます。
実験結果は、4 つのオープン/クローズドソース LLM と 2 つの代表的な文書翻訳データセットにわたる翻訳の一貫性と品質の点で、DelTA が強力なベースラインを大幅に上回っており、一貫性スコアで最大 4.58 パーセント ポイント、COMET スコアで最大 5 の向上を達成していることを示しています。
平均3.16点。
DelTA は文ごとの翻訳戦略を採用しており、文の省略がないことを保証し、主流の方法と比較してメモリ効率の高いソリューションを提供します。
さらに、DelTA により代名詞の翻訳精度が向上し、エージェントの要約コンポーネントもクエリベースの要約タスクのツールとして期待されます。
コードとデータは https://github.com/YutongWang1216/DocMTAgent でリリースされています。

要約(オリジナル)

Large language models (LLMs) have achieved reasonable quality improvements in machine translation (MT). However, most current research on MT-LLMs still faces significant challenges in maintaining translation consistency and accuracy when processing entire documents. In this paper, we introduce DelTA, a Document-levEL Translation Agent designed to overcome these limitations. DelTA features a multi-level memory structure that stores information across various granularities and spans, including Proper Noun Records, Bilingual Summary, Long-Term Memory, and Short-Term Memory, which are continuously retrieved and updated by auxiliary LLM-based components. Experimental results indicate that DelTA significantly outperforms strong baselines in terms of translation consistency and quality across four open/closed-source LLMs and two representative document translation datasets, achieving an increase in consistency scores by up to 4.58 percentage points and in COMET scores by up to 3.16 points on average. DelTA employs a sentence-by-sentence translation strategy, ensuring no sentence omissions and offering a memory-efficient solution compared to the mainstream method. Furthermore, DelTA improves pronoun translation accuracy, and the summary component of the agent also shows promise as a tool for query-based summarization tasks. We release our code and data at https://github.com/YutongWang1216/DocMTAgent.

arxiv情報

著者 Yutong Wang,Jiali Zeng,Xuebo Liu,Derek F. Wong,Fandong Meng,Jie Zhou,Min Zhang
発行日 2024-10-10 17:30:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク