In-context Learning as Maintaining Coherency: A Study of On-the-fly Machine Translation Using Large Language Models

要約

タイトル:大規模言語モデルを使用したオンザフライ機械翻訳における文脈学習と一貫性の維持の研究

要約:
– 学習の現場における現象は、通常「例から学ぶ」と考えられていたが、この論文では機械翻訳に焦点を当て、文脈学習を所与の状況において一貫性を維持する生成タスクとして提示する。
– 4つのドメインにまたがるランダムに選ばれたプロンプトを調査し、ドメイン内のプロンプトが示された場合、翻訳性能が向上することを発見した。
– 次に、移動ウィンドウからのプロンプト例が使用されたドメイン内設定における一貫性について調査した。文の長さ、表層類似性、文の埋め込み類似性などの、以前に文献で特定された他の要因についても調査した。3つのモデル(GPTNeo2.7B、Bloom3B、XGLM2.9B)および3つの翻訳方向(en→pt、de、fr)における我々の結果は、プロンプトとテスト文の長期的な一貫性がダウンストリーム翻訳性能の良い指標であることを示唆している。
– これにより、現場での適応のための文脈内機械翻訳の効果を実証することができた。

要約(オリジナル)

The phenomena of in-context learning has typically been thought of as ‘learning from examples’. In this work which focuses on Machine Translation, we present a perspective of in-context learning as the desired generation task maintaining coherency with its context, i.e., the prompt examples. We first investigate randomly sampled prompts across 4 domains, and find that translation performance improves when shown in-domain prompts. Next, we investigate coherency for the in-domain setting, which uses prompt examples from a moving window. We study this with respect to other factors that have previously been identified in the literature such as length, surface similarity and sentence embedding similarity. Our results across 3 models (GPTNeo2.7B, Bloom3B, XGLM2.9B), and three translation directions (\texttt{en}$\rightarrow$\{\texttt{pt, de, fr}\}) suggest that the long-term coherency of the prompts and the test sentence is a good indicator of downstream translation performance. In doing so, we demonstrate the efficacy of In-context Machine Translation for on-the-fly adaptation.

arxiv情報

著者 Suzanna Sia,Kevin Duh
発行日 2023-05-05 14:30:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク