ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models

要約

大規模言語モデル (LLM) は、さまざまなアプリケーションで前例のないパフォーマンスを達成していますが、その評価は依然として重要な問題です。
既存の幻覚ベンチマークは静的であるか、徹底的な分析のために調整可能な複雑さが不足しています。
私たちは、既存のリレーショナル データベースを利用することは、関数の依存関係を介して知識が正確に記述されるため、ベンチマークを構築するための有望なアプローチであると主張します。
私たちは、あらゆるリレーショナル データベースをエンティティ関係 (ER) モデルに基づいたベンチマークに自動的に変換する ERBench を提案します。
私たちの重要なアイデアは、データベース スキーマ、レコード、関数の依存関係を使用して質問を作成し、自動的に検証できるようにすることです。
さらに、外部キー制約を使用して関係を結合し、マルチホップ質問を構築します。これは任意に複雑にすることができ、LLM の中間回答をデバッグするために使用できます。
最後に、ERBench は、継続的な評価、マルチモーダルな質問、およびさまざまなプロンプト エンジニアリング手法をサポートします。
私たちの実験では、複数のドメインのデータベースを使用して LLM ベンチマークを構築し、最新の LLM を広範囲に比較します。
GPT-4 のような優れた LLM は、より多様な種類の質問を処理できますが、決して完璧ではないことがわかりました。
また、正しい答えは必ずしも正しい論理的根拠を意味するわけではありません。これは、ERBench がさまざまな種類の質問に対して他のベンチマークよりも優れているという重要な評価です。
コードは https://github.com/DILAB-KAIST/ERBench で入手できます。

要約(オリジナル)

Large language models (LLMs) have achieved unprecedented performance in various applications, yet their evaluation remains a critical issue. Existing hallucination benchmarks are either static or lack adjustable complexity for thorough analysis. We contend that utilizing existing relational databases is a promising approach for constructing benchmarks due to their accurate knowledge description via functional dependencies. We propose ERBench to automatically convert any relational database into a benchmark based on the entity-relationship (ER) model. Our key idea is to construct questions using the database schema, records, and functional dependencies such that they can be automatically verified. In addition, we use foreign key constraints to join relations and construct multihop questions, which can be arbitrarily complex and used to debug the intermediate answers of LLMs. Finally, ERBench supports continuous evaluation, multimodal questions, and various prompt engineering techniques. In our experiments, we construct an LLM benchmark using databases of multiple domains and make an extensive comparison of contemporary LLMs. We observe that better LLMs like GPT-4 can handle a larger variety of question types, but are by no means perfect. Also, correct answers do not necessarily imply correct rationales, which is an important evaluation that ERBench does better than other benchmarks for various question types. Code is available at https: //github.com/DILAB-KAIST/ERBench.

arxiv情報

著者 Jio Oh,Soyeon Kim,Junseok Seo,Jindong Wang,Ruochen Xu,Xing Xie,Steven Euijong Whang
発行日 2024-03-08 12:42:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク