Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models

要約

最近の進歩にもかかわらず、生成的な大規模言語モデルで意味幻覚を防ぐことは困難でした。
これに対する一般的な解決策の 1 つは、検索システムで LLM を拡張し、生成された出力が検索された情報に起因するものであることを確認することです。
この新たに追加された制約を考慮すると、出力の全体的な品質が、たとえば流暢さの点で影響を受けることが予想されます。
言語モデルのスケーリングは役に立ちますか?
ここでは、知識の多いダイアログ設定で検索された証拠で促されたLLMの流暢さと属性の関係を調べます。
私たちの実験は、人間の好みに合わせた一連の自動測定基準を使用して実装されました。
それらは、LLM のさまざまなパラメーターと提供されたコンテキストの下で生成された、世代の大規模なセットを評価するために使用されました。
大規模なモデルは、流暢さと帰属の両方ではるかに優れている傾向があり、(単純に) トップ 1 の検索よりもトップ k の検索を使用すると、帰属は向上しますが、流暢さが損なわれることを示しています。
次に、小さなモデルが大きなモデルとのギャップを埋め、上位 k 検索の利点を維持しながら、その欠点を回避できるようにするレシピを提案します。

要約(オリジナル)

Despite recent progress, it has been difficult to prevent semantic hallucinations in generative Large Language Models. One common solution to this is augmenting LLMs with a retrieval system and making sure that the generated output is attributable to the retrieved information. Given this new added constraint, it is plausible to expect that the overall quality of the output will be affected, for example, in terms of fluency. Can scaling language models help? Here we examine the relationship between fluency and attribution in LLMs prompted with retrieved evidence in knowledge-heavy dialog settings. Our experiments were implemented with a set of auto-metrics that are aligned with human preferences. They were used to evaluate a large set of generations, produced under varying parameters of LLMs and supplied context. We show that larger models tend to do much better in both fluency and attribution, and that (naively) using top-k retrieval versus top-1 retrieval improves attribution but hurts fluency. We next propose a recipe that could allow smaller models to both close the gap with larger models and preserve the benefits of top-k retrieval while avoiding its drawbacks.

arxiv情報

著者 Renat Aksitov,Chung-Ching Chang,David Reitter,Siamak Shakeri,Yunhsuan Sung
発行日 2023-02-14 23:53:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク