Evaluating Consistency and Reasoning Capabilities of Large Language Models

要約

大規模言語モデル (LLM) は、今日、学術、研究、ビジネス、金融などのさまざまな分野で、テキストの生成、要約、翻訳などのタスクに広く使用されています。
これらのモデルは広く採用されているにもかかわらず、誤った誤解を招く情報を生成することが多く、幻覚を引き起こす傾向があります。
この動作にはいくつかの要因が考えられますが、一貫性と推論機能が大きく寄与しています。
LLM は説明を生成し、一貫した推論を行う能力に欠けていることが多く、不正確な応答につながります。
さらに、それらの出力には一貫性がありません。
このペーパーは、パブリック LLM とプロプライエタリ LLM の両方の一貫性と推論能力を評価し、比較することを目的としています。
実験では、質問、回答、および対応する説明で構成される Boolq データセットをグラウンド トゥルースとして利用します。
データセットからのクエリはプロンプトとして LLM に提示され、生成された応答はグランド トゥルースの回答と比較して評価されます。
さらに、モデルの推論能力を評価するために説明が生成されます。
一貫性は、同じクエリをモデルに繰り返し提示し、その応答の変化を観察することによって評価されます。
推論能力を測定するために、生成された説明は、BERT、BLEU、F-1 スコアなどの指標を使用してグラウンド トゥルースの説明と比較されます。
この調査結果は、一貫性と推論能力の両方の点で、独自のモデルが一般的に公開モデルよりも優れていることを明らかにしています。
ただし、基本的な一般知識の質問が出題された場合でも、一貫性と推論の両方で 90% のスコアを達成したモデルはありませんでした。
この研究は、LLM における一貫性と推論能力の間の直接的な相関関係を強調し、現在の言語モデルに存在する固有の推論上の課題を浮き彫りにしています。

要約(オリジナル)

Large Language Models (LLMs) are extensively used today across various sectors, including academia, research, business, and finance, for tasks such as text generation, summarization, and translation. Despite their widespread adoption, these models often produce incorrect and misleading information, exhibiting a tendency to hallucinate. This behavior can be attributed to several factors, with consistency and reasoning capabilities being significant contributors. LLMs frequently lack the ability to generate explanations and engage in coherent reasoning, leading to inaccurate responses. Moreover, they exhibit inconsistencies in their outputs. This paper aims to evaluate and compare the consistency and reasoning capabilities of both public and proprietary LLMs. The experiments utilize the Boolq dataset as the ground truth, comprising questions, answers, and corresponding explanations. Queries from the dataset are presented as prompts to the LLMs, and the generated responses are evaluated against the ground truth answers. Additionally, explanations are generated to assess the models’ reasoning abilities. Consistency is evaluated by repeatedly presenting the same query to the models and observing for variations in their responses. For measuring reasoning capabilities, the generated explanations are compared to the ground truth explanations using metrics such as BERT, BLEU, and F-1 scores. The findings reveal that proprietary models generally outperform public models in terms of both consistency and reasoning capabilities. However, even when presented with basic general knowledge questions, none of the models achieved a score of 90\% in both consistency and reasoning. This study underscores the direct correlation between consistency and reasoning abilities in LLMs and highlights the inherent reasoning challenges present in current language models.

arxiv情報

著者 Yash Saxena,Sarthak Chopra,Arunendra Mani Tripathi
発行日 2024-04-25 10:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク