Factuality Enhanced Language Models for Open-Ended Text Generation

要約

事前トレーニング済みの言語モデル (LM) は、事実に反する情報を含むテキストを生成する可能性があります。
この作業では、オープンエンドのテキスト生成のための大規模な LM の事実上の正確性を測定し、改善します。
FactualityPrompts テスト セットとメトリクスを設計して、LM 世代の事実性を測定します。
それに基づいて、126M から 530B の範囲のパラメーター サイズを持つ LM の事実上の精度を調べます。
興味深いことに、大きな LM は小さなものよりも事実に基づいていることがわかりますが、以前の研究では、大きな LM は誤解の点で真実ではない可能性があることが示唆されています。
さらに、オープンエンドのテキスト生成で一般的なサンプリング アルゴリズム (top-p など) は、すべてのサンプリング ステップで導入される「均一なランダム性」により、事実性を損なう可能性があります。
品質を維持しながら世代の事実性を改善するために、ランダム性を動的に適応させる事実核サンプリングアルゴリズムを提案します。
さらに、事実に基づくテキスト コーパス (Wikipedia など) からエンティティ間の正しい関連付けを学習する際の標準的なトレーニング方法の非効率性を分析します。
TopicPrefix を使用して事実をよりよく認識し、トレーニング目的として文章を完成させる、事実性が強化されたトレーニング方法を提案します。これにより、事実上のエラーを大幅に減らすことができます。
コードと FactualityPrompts ベンチマークを https://github.com/nayeon7lee/FactualityPrompt でリリースします。

要約(オリジナル)

Pretrained language models (LMs) are susceptible to generate text with nonfactual information. In this work, we measure and improve the factual accuracy of large-scale LMs for open-ended text generation. We design the FactualityPrompts test set and metrics to measure the factuality of LM generations. Based on that, we study the factual accuracy of LMs with parameter sizes ranging from 126M to 530B. Interestingly, we find that larger LMs are more factual than smaller ones, although a previous study suggests that larger LMs can be less truthful in terms of misconceptions. In addition, popular sampling algorithms (e.g., top-p) in open-ended text generation can harm the factuality due to the ”uniform randomness” introduced at every sampling step. We propose the factual-nucleus sampling algorithm that dynamically adapts the randomness to improve the factuality of generation while maintaining quality. Furthermore, we analyze the inefficiencies of the standard training method in learning correct associations between entities from factual text corpus (e.g., Wikipedia). We propose a factuality-enhanced training method that uses TopicPrefix for better awareness of facts and sentence completion as the training objective, which can vastly reduce the factual errors. We release our code and FactualityPrompts benchmark at: https://github.com/nayeon7lee/FactualityPrompt.

arxiv情報

著者 Nayeon Lee,Wei Ping,Peng Xu,Mostofa Patwary,Pascale Fung,Mohammad Shoeybi,Bryan Catanzaro
発行日 2023-03-02 09:11:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク