要約
ほとんどの大規模言語モデル (LLM) は一度トレーニングされると更新されません。
したがって、彼らは絶えず変化する世界に動的に適応する能力に欠けています。
この研究では、現在の世界の知識をテストする質問に答えるという文脈で、LLM によって生成されたテキストの事実性について詳細な研究を実行します。
具体的には、急速に変化する世界の知識を必要とする質問や、誤りを暴く必要がある誤った前提を含む質問など、さまざまな種類の質問と回答を網羅する新しい動的 QA ベンチマークである FreshQA を紹介します。
私たちは、正しさと幻覚の両方を測定できる 2 モードの評価手順に基づいて、クローズドソースとオープンソースの両方の多様な LLM をベンチマークします。
50,000 件を超える判断を伴う人間による評価を通じて、これらのモデルの限界を明らかにし、大きな改善の余地があることを実証しました。たとえば、すべてのモデル (モデルのサイズに関係なく) は、急速に変化する知識と誤った前提を伴う問題に苦戦しています。
これらの結果に動機付けられて、検索エンジンから取得した関連する最新情報をプロンプトに組み込むことで、FreshQA 上の LLM のパフォーマンスを大幅に向上させる、シンプルな数回のプロンプト手法である FreshPrompt を紹介します。
私たちの実験では、FreshPrompt が、Self-Ask (Press et al., 2022) などの競合する検索エンジン拡張プロンプト手法や、Perplexity.AI などの商用システムの両方よりも優れていることが示されています。
FreshPrompt をさらに分析すると、取得された証拠の数とその順序の両方が、LLM によって生成された回答の正確さに影響を与える重要な役割を果たしていることが明らかになりました。
さらに、簡潔で直接的な回答を生成するように LLM に指示すると、より冗長な回答を奨励するよりも幻覚を軽減できます。
今後の作業を容易にするために、GitHub.com/freshllms/freshqa で FreshQA をリリースし、定期的な更新に努めます。
要約(オリジナル)
Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.
arxiv情報
著者 | Tu Vu,Mohit Iyyer,Xuezhi Wang,Noah Constant,Jerry Wei,Jason Wei,Chris Tar,Yun-Hsuan Sung,Denny Zhou,Quoc Le,Thang Luong |
発行日 | 2023-11-22 07:28:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google