The Earth is Flat? Unveiling Factual Errors in Large Language Models

要約

ChatGPT のような大規模言語モデル (LLM) は、事前トレーニングと微調整による広範な知識により、さまざまなアプリケーションの基礎となります。
それにもかかわらず、これらは事実や常識の誤りを生み出す傾向があり、医療、ジャーナリズム、教育などの重要な分野でユーザーを誤解させる懸念を引き起こしています。
LLM の真実性を評価する現在の方法は、テスト データの漏洩や多大な人的労力の必要性によって制限されており、効率的かつ正確なエラー検出が妨げられています。
この問題に取り組むために、LLM の事実の不正確さを明らかにすることを目的とした、新しい自動テスト フレームワークである FactChecker を導入します。
このフレームワークには 3 つの主要なステップが含まれます。まず、大規模な知識データベースから事実のトリプレットを取得することによって事実の知識グラフを構築します。
次に、ファクトチェッカーはナレッジ グラフを活用し、ルールベースのアプローチを採用して、シングルホップとマルチホップの関係を含む 3 種類の質問 (はい/いいえ、多肢選択、WH の質問) と正解を生成します。
最後に、各質問タイプに合わせたマッチング戦略を使用して、LLM の回答の正確性を評価します。
text-davinci-002、text-davinci-003、ChatGPT~(gpt-3.5-turbo、gpt-4)、Vicuna、LLaMA-2 を含む 6 つの著名な LLM に対する広範なテストにより、FactChecker が事実誤認を引き起こす可能性があることが明らかになりました。
これらのモデルの質問の最大 45\%。
さらに、FactChecker のテスト ケースが、コンテキスト内の学習と微調整を通じて LLM の事実の正確性を向上できることを実証します (例: llama-2-13b-chat の精度が 35.3\% から 68.5\% に増加)。
私たちはすべてのコード、データ、結果を将来の研究活動に利用できるようにしています。

要約(オリジナル)

Large Language Models (LLMs) like ChatGPT are foundational in various applications due to their extensive knowledge from pre-training and fine-tuning. Despite this, they are prone to generating factual and commonsense errors, raising concerns in critical areas like healthcare, journalism, and education to mislead users. Current methods for evaluating LLMs’ veracity are limited by test data leakage or the need for extensive human labor, hindering efficient and accurate error detection. To tackle this problem, we introduce a novel, automatic testing framework, FactChecker, aimed at uncovering factual inaccuracies in LLMs. This framework involves three main steps: First, it constructs a factual knowledge graph by retrieving fact triplets from a large-scale knowledge database. Then, leveraging the knowledge graph, FactChecker employs a rule-based approach to generates three types of questions (Yes-No, Multiple-Choice, and WH questions) that involve single-hop and multi-hop relations, along with correct answers. Lastly, it assesses the LLMs’ responses for accuracy using tailored matching strategies for each question type. Our extensive tests on six prominent LLMs, including text-davinci-002, text-davinci-003, ChatGPT~(gpt-3.5-turbo, gpt-4), Vicuna, and LLaMA-2, reveal that FactChecker can trigger factual errors in up to 45\% of questions in these models. Moreover, we demonstrate that FactChecker’s test cases can improve LLMs’ factual accuracy through in-context learning and fine-tuning (e.g., llama-2-13b-chat’s accuracy increase from 35.3\% to 68.5\%). We are making all code, data, and results available for future research endeavors.

arxiv情報

著者 Wenxuan Wang,Juluan Shi,Zhaopeng Tu,Youliang Yuan,Jen-tse Huang,Wenxiang Jiao,Michael R. Lyu
発行日 2024-01-01 14:02:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE パーマリンク