Retrieving Examples from Memory for Retrieval Augmented Neural Machine Translation: A Systematic Comparison

要約

検索支援ニューラル機械翻訳(RAMT)アーキテクチャは、生成プロセスをガイドするためにメモリから例を検索する。この傾向の研究の多くは、検索された例を利用する新しい方法を探求しているが、上流の検索ステップはほとんど未解明である。本稿では、この2つのプロセスの相互作用をより良く理解するために、いくつかの翻訳アーキテクチャにおいて検索方法を変化させた場合の効果を研究する。マルチドメイン環境における2つの言語ペアで実験を行い、標準的な自己回帰モデル、編集ベースモデル、および文脈内学習を用いた大規模言語モデルに基づく複数の下流アーキテクチャを検討する。実験では、検索手法の選択が翻訳スコアに影響を与え、アーキテクチャによってばらつきがあることが示された。また、例文の数と多様性を増やすことの効果についても議論する。

要約(オリジナル)

Retrieval-Augmented Neural Machine Translation (RAMT) architectures retrieve examples from memory to guide the generation process. While most works in this trend explore new ways to exploit the retrieved examples, the upstream retrieval step is mostly unexplored. In this paper, we study the effect of varying retrieval methods for several translation architectures, to better understand the interplay between these two processes. We conduct experiments in two language pairs in a multi-domain setting and consider several downstream architectures based on a standard autoregressive model, an edit-based model, and a large language model with in-context learning. Our experiments show that the choice of the retrieval technique impacts the translation scores, with variance across architectures. We also discuss the effects of increasing the number and diversity of examples, which are mostly positive across the board.

arxiv情報

著者 Maxime Bouthors,Josep Crego,Francois Yvon
発行日 2024-04-03 16:13:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク