Beyond the Obvious: Evaluating the Reasoning Ability In Real-life Scenarios of Language Models on Life Scapes Reasoning Benchmark~(LSR-Benchmark)


この論文では、現実世界のシナリオ推論を対象とした新しいデータセットである Life Scapes Reasoning Benchmark (LSR-Benchmark) を紹介し、日常の状況における人工ニューラル ネットワークの推論能力のギャップを埋めることを目的としています。
ドメイン知識推論データセットとは対照的に、LSR-Benchmark は、現実のシナリオ、人間の行動、キャラクターの役割に関する豊富な情報を含むフリーテキスト形式の質問で構成されています。
このデータセットは、オープンソースのオンライン ソースから収集された 2,162 の質問で構成されており、品質を向上させるために手動で注釈が付けられています。
実験は、LSR-Benchmark でのパフォーマンスをテストするために、gpt3.5-turbo や命令の微調整された llama モデルなどの最先端の言語モデルを使用して行われます。


This paper introduces the Life Scapes Reasoning Benchmark (LSR-Benchmark), a novel dataset targeting real-life scenario reasoning, aiming to close the gap in artificial neural networks’ ability to reason in everyday contexts. In contrast to domain knowledge reasoning datasets, LSR-Benchmark comprises free-text formatted questions with rich information on real-life scenarios, human behaviors, and character roles. The dataset consists of 2,162 questions collected from open-source online sources and is manually annotated to improve its quality. Experiments are conducted using state-of-the-art language models, such as gpt3.5-turbo and instruction fine-tuned llama models, to test the performance in LSR-Benchmark. The results reveal that humans outperform these models significantly, indicating a persisting challenge for machine learning models in comprehending daily human life.


