NEWTON: Are Large Language Models Capable of Physical Reasoning?

要約

大規模言語モデル (LLM) は、その文脈化された表現を通じて、構文、意味、単語の意味、および常識的な知識をカプセル化することが経験的に証明されています。
しかし、彼らの身体的推論能力、特に日常の物体を理解するための重要な属性に関する研究は限られています。
このギャップに対処するために、LLM の物理推論スキルを評価するためのリポジトリおよびベンチマークである NEWTON を紹介します。
さらに、このベンチマークのドメイン固有の適応を可能にするために、研究者がアプリケーションに関連するオブジェクトと属性に合わせてカスタマイズされたこのベンチマークのバリアントを生成できるパイプラインを提供します。
NEWTON リポジトリは 2800 のオブジェクトと属性のペアのコレクションで構成され、無限スケールの評価テンプレートを生成するための基盤を提供します。
NEWTON ベンチマークは、基礎的、明示的、暗黙的な推論タスクにわたるいくつかの主流の言語モデルの物理的推論機能を調査するために NEWTON リポジトリを使用して厳選された 160,000 の QA 質問で構成されています。
広範な実証分析を通じて、私たちの結果は物理的推論に対する LLM の機能を強調しています。
GPT-4 のような LLM は、シナリオベースのタスクでは強力な推論能力を発揮しますが、オブジェクト属性の推論では人間と比較して一貫性が低いことがわかりました (50% 対 84%)。
さらに、NEWTON プラットフォームは言語モデルを評価および強化する可能性を実証し、ロボット操作などの物理的に接地された環境への統合への道を開きます。
プロジェクトサイト: https://newtonreasoning.github.io

要約(オリジナル)

Large Language Models (LLMs), through their contextualized representations, have been empirically proven to encapsulate syntactic, semantic, word sense, and common-sense knowledge. However, there has been limited exploration of their physical reasoning abilities, specifically concerning the crucial attributes for comprehending everyday objects. To address this gap, we introduce NEWTON, a repository and benchmark for evaluating the physics reasoning skills of LLMs. Further, to enable domain-specific adaptation of this benchmark, we present a pipeline to enable researchers to generate a variant of this benchmark that has been customized to the objects and attributes relevant for their application. The NEWTON repository comprises a collection of 2800 object-attribute pairs, providing the foundation for generating infinite-scale assessment templates. The NEWTON benchmark consists of 160K QA questions, curated using the NEWTON repository to investigate the physical reasoning capabilities of several mainstream language models across foundational, explicit, and implicit reasoning tasks. Through extensive empirical analysis, our results highlight the capabilities of LLMs for physical reasoning. We find that LLMs like GPT-4 demonstrate strong reasoning capabilities in scenario-based tasks but exhibit less consistency in object-attribute reasoning compared to humans (50% vs. 84%). Furthermore, the NEWTON platform demonstrates its potential for evaluating and enhancing language models, paving the way for their integration into physically grounded settings, such as robotic manipulation. Project site: https://newtonreasoning.github.io

arxiv情報

著者 Yi Ru Wang,Jiafei Duan,Dieter Fox,Siddhartha Srinivasa
発行日 2023-10-10 21:08:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO パーマリンク