Know When To Stop: A Study of Semantic Drift in Text Generation

要約

この研究では、現代の LLM が最初に正しいファクトを生成し、その後「漂流し」、後で誤ったファクトを生成する傾向があることを明示的に示します。これは時折観察されましたが、適切に測定されたことはありませんでした。
私たちは、生成されたテキスト内の正しい事実と不正確な事実の間の分離の程度を測定するセマンティック ドリフト スコアを開発し、ウィキペディア スタイルの伝記を生成するときに仮説を確認します。
この正しい、その後不正確な生成パターンは、生成をいつ停止するかを知ることで事実の精度を向上できることを示唆しています。
したがって、いくつかの早期停止方法について情報量と事実の正確性の間のトレードオフを調査し、事実性を大幅に向上させることに成功しました。
さらに、意味的類似性を使用して再ランキングすると、ベースラインと比較した場合と、早期停止と組み合わせた場合の両方で、これらの結果がさらに改善されることを示します。
最後に、外部 API を呼び出してモデルを正しい生成パスに戻してみますが、肯定的な結果は得られません。
全体として、私たちの方法は一般化されており、事実の正確さ、情報量、計算コストの間のトレードオフのバランスをとることで、より信頼性の高い情報を生成するために、あらゆる長文テキスト生成に適用できます。

要約(オリジナル)

In this work, we explicitly show that modern LLMs tend to generate correct facts first, then ‘drift away’ and generate incorrect facts later: this was occasionally observed but never properly measured. We develop a semantic drift score that measures the degree of separation between correct and incorrect facts in generated texts and confirm our hypothesis when generating Wikipedia-style biographies. This correct-then-incorrect generation pattern suggests that factual accuracy can be improved by knowing when to stop generation. Therefore, we explore the trade-off between information quantity and factual accuracy for several early stopping methods and manage to improve factuality by a large margin. We further show that reranking with semantic similarity can further improve these results, both compared to the baseline and when combined with early stopping. Finally, we try calling external API to bring the model back to the right generation path, but do not get positive results. Overall, our methods generalize and can be applied to any long-form text generation to produce more reliable information, by balancing trade-offs between factual accuracy, information quantity and computational cost.

arxiv情報

著者 Ava Spataru,Eric Hambro,Elena Voita,Nicola Cancedda
発行日 2024-04-08 11:25:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク