要約
人間の学習はより複雑な概念に進む前に物理世界との対話から始まるため、物理的推論は一般的な AI システムの開発において重要な側面です。
研究者はさまざまな特定のベンチマークを通じて AI アプローチの物理的推論を研究および評価してきましたが、進歩を評価および測定するための包括的なアプローチはありません。
したがって、既存のベンチマークとそのソリューションアプローチの概要を提供し、AI システムの物理的推論能力を測定するための統一された観点を提案することを目的としています。
物理的推論タスクにおけるアルゴリズムのパフォーマンスをテストするように設計されたベンチマークを選択します。
選択された各ベンチマークは独自の課題を抱えていますが、そのアンサンブルは、さまざまな物理的推論の概念について測定可能なスキル レベルを持つ AI ジェネラリスト エージェントの包括的な試験場を提供します。
これにより、このようなベンチマークのアンサンブルは、複雑さと多くの概念を絡み合わせて現実世界をシミュレートすることを目的とした他の総合的なベンチマークよりも有利になります。
提示された一連の物理的推論ベンチマークをサブカテゴリーにグループ化して、より限定的なジェネラリスト AI エージェントを最初にこれらのグループでテストできるようにします。
要約(オリジナル)
Physical reasoning is a crucial aspect in the development of general AI systems, given that human learning starts with interacting with the physical world before progressing to more complex concepts. Although researchers have studied and assessed the physical reasoning of AI approaches through various specific benchmarks, there is no comprehensive approach to evaluating and measuring progress. Therefore, we aim to offer an overview of existing benchmarks and their solution approaches and propose a unified perspective for measuring the physical reasoning capacity of AI systems. We select benchmarks that are designed to test algorithmic performance in physical reasoning tasks. While each of the selected benchmarks poses a unique challenge, their ensemble provides a comprehensive proving ground for an AI generalist agent with a measurable skill level for various physical reasoning concepts. This gives an advantage to such an ensemble of benchmarks over other holistic benchmarks that aim to simulate the real world by intertwining its complexity and many concepts. We group the presented set of physical reasoning benchmarks into subcategories so that more narrow generalist AI agents can be tested first on these groups.
arxiv情報
著者 | Andrew Melnik,Robin Schiewer,Moritz Lange,Andrei Muresanu,Mozhgan Saeidi,Animesh Garg,Helge Ritter |
発行日 | 2023-12-17 14:24:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google