PRobELM: Plausibility Ranking Evaluation for Language Models

要約

このペーパーでは、パラメトリック知識を通じて、もっともらしさの高いシナリオとそうでないシナリオを識別する言語モデルの能力を評価するために設計されたベンチマークである PRobELM (言語モデルの妥当性ランキング評価) を紹介します。
TruthfulQA などのベンチマークは事実の正確性や真実性を重視し、COPA などのベンチマークは世界の知識を明示的に組み込むことなくもっともらしいシナリオを探索しますが、PRObELM は、あまり現実的ではない代替案よりも世界の知識を活用するもっともらしいシナリオを優先するモデルの機能を評価することで、このギャップを埋めることを目指しています。
この設計により、可能性はあるがまだ知られていない情報を特定することに焦点を当てた文献ベースの発見など、下流のユースケースにおける言語モデルの可能性を評価することができます。
私たちのベンチマークは、ウィキデータの編集履歴から厳選されたデータセットから構築されており、評価されたモデルのトレーニング データの時間的境界を調整するように調整されています。
PRObELM は、ステートメント、テキスト補完、質問応答など、複数のプロンプト タイプにわたる言語モデルの評価を容易にします。
さまざまなサイズとアーキテクチャの 10 個のモデルを使用して、モデルのスケール、トレーニングの最新性、および妥当性のパフォーマンスの関係を実験したところ、事実の正確性は妥当性のパフォーマンスと直接相関せず、最新のトレーニング データによってさまざまなモデル アーキテクチャ間での妥当性の評価が強化されることが明らかになりました。

要約(オリジナル)

This paper introduces PRobELM (Plausibility Ranking Evaluation for Language Models), a benchmark designed to assess language models’ ability to discern more plausible from less plausible scenarios through their parametric knowledge. While benchmarks such as TruthfulQA emphasise factual accuracy or truthfulness, and others such as COPA explore plausible scenarios without explicitly incorporating world knowledge, PRobELM seeks to bridge this gap by evaluating models’ capabilities to prioritise plausible scenarios that leverage world knowledge over less plausible alternatives. This design allows us to assess the potential of language models for downstream use cases such as literature-based discovery where the focus is on identifying information that is likely but not yet known. Our benchmark is constructed from a dataset curated from Wikidata edit histories, tailored to align the temporal bounds of the training data for the evaluated models. PRobELM facilitates the evaluation of language models across multiple prompting types, including statement, text completion, and question-answering. Experiments with 10 models of various sizes and architectures on the relationship between model scales, training recency, and plausibility performance, reveal that factual accuracy does not directly correlate with plausibility performance and that up-to-date training data enhances plausibility assessment across different model architectures.

arxiv情報

著者 Zhangdie Yuan,Eric Chamoun,Rami Aly,Chenxi Whitehouse,Andreas Vlachos
発行日 2024-08-07 12:05:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク