Beyond the Obvious: Evaluating the Reasoning Ability In Real-life Scenarios of Language Models on Life Scapes Reasoning Benchmark~(LSR-Benchmark)

要約

この論文では、現実世界のシナリオ推論を対象とした新しいデータセットである Life Scapes Reasoning Benchmark (LSR-Benchmark) を紹介し、日常の状況における人工ニューラル ネットワークの推論能力のギャップを埋めることを目的としています。
ドメイン知識推論データセットとは対照的に、LSR-Benchmark は、現実のシナリオ、人間の行動、キャラクターの役割に関する豊富な情報を含むフリーテキスト形式の質問で構成されています。
このデータセットは、オープンソースのオンライン ソースから収集された 2,162 の質問で構成されており、品質を向上させるために手動で注釈が付けられています。
実験は、LSR-Benchmark でのパフォーマンスをテストするために、gpt3.5-turbo や命令の微調整された llama モデルなどの最先端の言語モデルを使用して行われます。
この結果は、人間がこれらのモデルを大幅に上回っていることを明らかにしており、人間の日常生活を理解する上で機械学習モデルが依然として課題を抱えていることを示しています。

要約(オリジナル)

This paper introduces the Life Scapes Reasoning Benchmark (LSR-Benchmark), a novel dataset targeting real-life scenario reasoning, aiming to close the gap in artificial neural networks’ ability to reason in everyday contexts. In contrast to domain knowledge reasoning datasets, LSR-Benchmark comprises free-text formatted questions with rich information on real-life scenarios, human behaviors, and character roles. The dataset consists of 2,162 questions collected from open-source online sources and is manually annotated to improve its quality. Experiments are conducted using state-of-the-art language models, such as gpt3.5-turbo and instruction fine-tuned llama models, to test the performance in LSR-Benchmark. The results reveal that humans outperform these models significantly, indicating a persisting challenge for machine learning models in comprehending daily human life.

arxiv情報

著者 Zhouhong Gu,Zihan Li,Lin Zhang,Zhuozhi Xiong,Sihang Jiang,Xiaoxuan Zhu,Shusen Wang,Zili Wang,Jianchen Wang,Haoning Ye,Wenhao Huang,Yikai Zhang,Hongwei Feng,Yanghua Xiao
発行日 2023-07-11 08:45:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク