Evaluating the Meta- and Object-Level Reasoning of Large Language Models for Question Answering

要約

大規模な言語モデル(LLM)は自然言語のタスクに優れていますが、複雑でマルチステップの推論を必要とする問題応答(QA)タスクで課題に直面しています。
これらのタスクのいくつかに必要な推論の種類の概要を説明し、メタレベルの推論(高レベルの戦略的推論または計画に似ています)とオブジェクトレベルの推論(数学的推論などの低レベルのタスクで具体化されています。
)。
メタレベルの推論とオブジェクトレベルの推論の要件を備えた新しいデータセットであるフランクリンが導入され、他の3つのデータセットとともに使用され、複数の推論の必要な質問に答える質問で4つのLLMを評価します。
人間の注釈研究の結果は、LLMが高頻度でメタレベルの推論を示していることを示唆していますが、使用されるデータセットの一部のオブジェクトレベルの推論タスクと闘っています。
さらに、LLMSは、Franklin Datasetの質問に必要なオブジェクトレベルの推論が挑戦的であることを示唆していますが、メタレベルの推論要件に関して強力なパフォーマンスを示しています。

要約(オリジナル)

Large Language Models (LLMs) excel in natural language tasks but still face challenges in Question Answering (QA) tasks requiring complex, multi-step reasoning. We outline the types of reasoning required in some of these tasks, and reframe them in terms of meta-level reasoning (akin to high-level strategic reasoning or planning) and object-level reasoning (embodied in lower-level tasks such as mathematical reasoning). Franklin, a novel dataset with requirements of meta- and object-level reasoning, is introduced and used along with three other datasets to evaluate four LLMs at question answering tasks requiring multiple steps of reasoning. Results from human annotation studies suggest LLMs demonstrate meta-level reasoning with high frequency, but struggle with object-level reasoning tasks in some of the datasets used. Additionally, evidence suggests that LLMs find the object-level reasoning required for the questions in the Franklin dataset challenging, yet they do exhibit strong performance with respect to the meta-level reasoning requirements.

arxiv情報

著者 Nick Ferguson,Liane Guillou,Alan Bundy,Kwabena Nuamah
発行日 2025-02-14 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク