要約
検索拡張生成 (RAG) では、大規模言語モデル (LLM) を強化するための追加情報が導入されます。
機械翻訳 (MT) では、これまでの研究では通常、モデルの MT 能力を強化するために、ペアの MT コーパスからコンテキスト内の例を取得したり、ナレッジ グラフからドメイン固有の知識を取得したりしていました。
ただし、世界の知識の多くは非構造化ドキュメントに編成されており、異なる言語間で完全に組み合わせられていない可能性があります。
この論文では、非構造化文書を使用した検索拡張MTを研究します。
具体的には、LLM の検索拡張 MT 能力をトレーニングおよび評価するための最初のベンチマークである RAGtrans を構築します。
RAGtrans には、GPT-4o と人間の翻訳者によって収集された 79,000 の MT サンプルが含まれています。
さらに、これらのサンプルに知識を提供するために、さまざまな言語のドキュメントも提供されています。
RAGtrans に基づいて、LLM に翻訳中に多言語文書からの情報をどのように使用するかを教えるためのマルチタスク トレーニング方法をさらに提案します。
この方法では、既存の多言語コーパスを使用して、追加のラベル付け要件なしで補助的なトレーニング目標を作成します。
広範な実験により、この方法により LLM が BLEU スコア 1.58 ~ 3.09、COMET スコア 1.00 ~ 2.03 向上することが示されました。
要約(オリジナル)
Retrieval-augmented generation (RAG) introduces additional information to enhance large language models (LLMs). In machine translation (MT), previous work typically retrieves in-context examples from paired MT corpora, or domain-specific knowledge from knowledge graphs, to enhance models’ MT ability. However, a large amount of world knowledge is organized in unstructured documents, and might not be fully paired across different languages. In this paper, we study retrieval-augmented MT using unstructured documents. Specifically, we build RAGtrans, the first benchmark to train and evaluate LLMs’ retrieval-augmented MT ability. RAGtrans contains 79K MT samples collected via GPT-4o and human translators. Besides, documents from different languages are also provided to supply the knowledge to these samples. Based on RAGtrans, we further propose a multi-task training method to teach LLMs how to use information from multilingual documents during their translation. The method uses existing multilingual corpora to create auxiliary training objectives without additional labeling requirements. Extensive experiments show that the method improves LLMs by 1.58-3.09 BLEU and 1.00-2.03 COMET scores.
arxiv情報
著者 | Jiaan Wang,Fandong Meng,Yingxue Zhang,Jie Zhou |
発行日 | 2024-12-05 17:00:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google