Evaluating the Rationale Understanding of Critical Reasoning in Logical Reading Comprehension

要約

言語モデルの論理的な読解能力を正確に評価するために、批判的推論の背後にある理論的根拠の理解をテストするためのデータセットを提示します。
既存の多肢選択論理読解データセットから取得した質問については、回答の選択肢を選択または削除する必要がある理由を説明する根拠テキストをクラウドソーシングし、その結果、943 の主な質問に関連付けられた 3,003 の多肢選択のサブ質問が生成されました。
私たちのデータセットでの実験では、最近の大規模な言語モデル (InstructGPT など) は、主要な質問に正しく答えることができても、サブ質問に答えるのに苦労していることが示されています。
このモデルは、主な質問の誤った選択肢に対して書かれたサブ質問への回答において特にパフォーマンスが低いことがわかりました。これは、モデルがなぜ誤った選択肢を削除する必要があるかを説明する能力が限られていることを意味します。
これらの結果は、私たちのデータセットが、関連する代替案の排除プロセスに焦点を当てながら、言語モデルの重要な推論能力のさらなる研究を促進することを示唆しています。

要約(オリジナル)

To precisely evaluate a language model’s capability for logical reading comprehension, we present a dataset for testing the understanding of the rationale behind critical reasoning. For questions taken from an existing multiplechoice logical reading comprehension dataset, we crowdsource rationale texts that explain why we should select or eliminate answer options, resulting in 3,003 multiple-choice subquestions that are associated with 943 main questions. Experiments on our dataset show that recent large language models (e.g., InstructGPT) struggle to answer the subquestions even if they are able to answer the main questions correctly. We find that the models perform particularly poorly in answering subquestions written for the incorrect options of the main questions, implying that the models have a limited capability for explaining why incorrect alternatives should be eliminated. These results suggest that our dataset encourages further investigation into the critical reasoning ability of language models while focusing on the elimination process of relevant alternatives.

arxiv情報

著者 Akira Kawabata,Saku Sugawara
発行日 2023-11-30 08:44:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク