要約
人間のように推論する大規模言語モデル (LLM) の可能性は、機械学習コミュニティで激しく争われてきたトピックです。
しかし、人間の推論能力は多面的であり、類推、空間的、道徳的推論など、さまざまな形で見ることができます。
この事実は、LLM がこれらの異なるすべてのドメインで同等に機能するかどうかという疑問を提起します。
この研究作業は、類推的および空間的推論に関する既存のデータセットを直接使用またはインスピレーションを引き出す実験を行うことにより、さまざまな推論タスクでの LLM のパフォーマンスを調査することを目的としています。
さらに、LLM が人間のように推論する能力を評価するために、LLM のパフォーマンスは、よりオープンエンドの自然言語の質問で評価されます。
私の調査結果は、LLM が類推的および道徳的な推論に優れていることを示していますが、空間的推論のタスクを上手に実行するには苦労しています。
これらの実験は、特に多様な推論能力を必要とする状況において、LLM の将来の開発を知らせるために重要であると信じています。
この研究は、LLM の推論能力に光を当てることで、LLM が人間の認知能力をよりよくエミュレートする方法についての理解を深めることを目的としています。
要約(オリジナル)
The potential of large language models (LLMs) to reason like humans has been a highly contested topic in Machine Learning communities. However, the reasoning abilities of humans are multifaceted and can be seen in various forms, including analogical, spatial and moral reasoning, among others. This fact raises the question whether LLMs can perform equally well across all these different domains. This research work aims to investigate the performance of LLMs on different reasoning tasks by conducting experiments that directly use or draw inspirations from existing datasets on analogical and spatial reasoning. Additionally, to evaluate the ability of LLMs to reason like human, their performance is evaluted on more open-ended, natural language questions. My findings indicate that LLMs excel at analogical and moral reasoning, yet struggle to perform as proficiently on spatial reasoning tasks. I believe these experiments are crucial for informing the future development of LLMs, particularly in contexts that require diverse reasoning proficiencies. By shedding light on the reasoning abilities of LLMs, this study aims to push forward our understanding of how they can better emulate the cognitive abilities of humans.
arxiv情報
著者 | Shrivats Agrawal |
発行日 | 2023-03-22 22:53:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google