An Empirical Study of Translation Hypothesis Ensembling with Large Language Models

要約

大規模言語モデル (LLM) は、1 に適合するソリューションになりつつありますが、幻覚を示したり、信頼性の低い出力を生成したりすることがあります。
この論文では、LLM ベースの機械翻訳の特定の問題に対して、仮説アンサンブルによって生成されるテキストの品質がどのように向上するかを調査します。
ChatGPT、LLaMA、Alpaca などの LLM によって生成された仮説をアンサンブルするためのいくつかの手法を実験します。
当社は、仮説を生成する方法 (複数のプロンプト、温度ベースのサンプリング、ビーム検索) や最終的な変換を生成する戦略 (命令ベース、品質ベースの再ランキング、最小限のベイズ リスク) を含む、複数の側面に沿った包括的な調査を提供します。
(MBR) デコード)。
私たちの結果は、MBR デコードが非常に効果的な方法であること、少数のサンプルを使用して翻訳品質を向上させることができること、および命令チューニングが仮説の多様性とサンプリング温度の関係に強い影響を与えることを示しています。

要約(オリジナル)

Large language models (LLMs) are becoming a one-fits-many solution, but they sometimes hallucinate or produce unreliable output. In this paper, we investigate how hypothesis ensembling can improve the quality of the generated text for the specific problem of LLM-based machine translation. We experiment with several techniques for ensembling hypotheses produced by LLMs such as ChatGPT, LLaMA, and Alpaca. We provide a comprehensive study along multiple dimensions, including the method to generate hypotheses (multiple prompts, temperature-based sampling, and beam search) and the strategy to produce the final translation (instruction-based, quality-based reranking, and minimum Bayes risk (MBR) decoding). Our results show that MBR decoding is a very effective method, that translation quality can be improved using a small number of samples, and that instruction tuning has a strong impact on the relation between the diversity of the hypotheses and the sampling temperature.

arxiv情報

著者 António Farinhas,José G. C. de Souza,André F. T. Martins
発行日 2023-10-17 17:40:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク