Beyond Accuracy: Evaluating the Reasoning Behavior of Large Language Models — A Survey

要約

大規模言語モデル (LLM) は最近、推論を伴うタスクで目覚ましいパフォーマンスを示しており、これらのモデルが人間と同様の推論能力を備えているかどうかについて活発な議論が行われています。
しかし、これらの成功にもかかわらず、LLM の推論能力の深さは依然として不確かです。
この不確実性の一部は、モデルの推論動作の徹底的な調査ではなく、浅い精度メトリクスを通じて測定されるタスクのパフォーマンスに主に焦点が当てられていることに起因しています。
この論文は、タスクの精度を超えた研究の包括的なレビューを提供し、モデルの推論プロセスについてのより深い洞察を提供することで、このギャップに対処することを目指しています。
さらに、LLM の推論動作を評価するための一般的な方法論を調査し、より微妙な推論分析に向けた現在の傾向と取り組みを強調します。
私たちのレビューでは、LLM は高度な推論能力ではなく、トレーニング データ内の表面レベルのパターンと相関関係に依存する傾向があることが示唆されています。
さらに、人間による推論と LLM ベースの推論の重要な違いを明らかにするさらなる研究の必要性も認識しています。
この調査を通じて、LLM 内の複雑な推論プロセスを明らかにすることを目的としています。

要約(オリジナル)

Large language models (LLMs) have recently shown impressive performance on tasks involving reasoning, leading to a lively debate on whether these models possess reasoning capabilities similar to humans. However, despite these successes, the depth of LLMs’ reasoning abilities remains uncertain. This uncertainty partly stems from the predominant focus on task performance, measured through shallow accuracy metrics, rather than a thorough investigation of the models’ reasoning behavior. This paper seeks to address this gap by providing a comprehensive review of studies that go beyond task accuracy, offering deeper insights into the models’ reasoning processes. Furthermore, we survey prevalent methodologies to evaluate the reasoning behavior of LLMs, emphasizing current trends and efforts towards more nuanced reasoning analyses. Our review suggests that LLMs tend to rely on surface-level patterns and correlations in their training data, rather than on sophisticated reasoning abilities. Additionally, we identify the need for further research that delineates the key differences between human and LLM-based reasoning. Through this survey, we aim to shed light on the complex reasoning processes within LLMs.

arxiv情報

著者 Philipp Mondorf,Barbara Plank
発行日 2024-08-06 11:58:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク