HAZARD Challenge: Embodied Decision Making in Dynamically Changing Environments

要約

忠実度の高い仮想環境における最近の進歩は、物理世界を認識し、推論し、対話するためのインテリジェントな実体エージェントを構築するための主要な推進力の 1 つとして機能します。
通常、これらの環境は、エージェントが対話しない限り変更されません。
ただし、現実のシナリオでは、エージェントは予期せぬイベントを特徴とする動的に変化する環境に直面し、それに応じて迅速に行動を起こす必要がある場合もあります。
このギャップを是正するために、私たちは、動的な状況における身体化エージェントの意思決定能力を評価するために特別に設計された、HAZARD と呼ばれる新しいシミュレートされた身体化ベンチマークを提案します。
HAZARD は、火災、洪水、風などの 3 つの予期せぬ災害シナリオで構成されており、特に常識的な推論と意思決定を支援する大規模言語モデル (LLM) の利用をサポートします。
このベンチマークにより、動的に変化する環境における強化学習 (RL)、ルールベース、検索ベースの手法など、さまざまなパイプラインにわたる自律エージェントの意思決定能力を評価できます。
大規模な言語モデルを使用してこの課題に対処するための最初のステップとして、LLM ベースのエージェントをさらに開発し、これらの困難なタスクを解決するというその期待と課題について詳細な分析を実行します。
HAZARD は https://vis-www.cs.umass.edu/hazard/ で入手できます。

要約(オリジナル)

Recent advances in high-fidelity virtual environments serve as one of the major driving forces for building intelligent embodied agents to perceive, reason and interact with the physical world. Typically, these environments remain unchanged unless agents interact with them. However, in real-world scenarios, agents might also face dynamically changing environments characterized by unexpected events and need to rapidly take action accordingly. To remedy this gap, we propose a new simulated embodied benchmark, called HAZARD, specifically designed to assess the decision-making abilities of embodied agents in dynamic situations. HAZARD consists of three unexpected disaster scenarios, including fire, flood, and wind, and specifically supports the utilization of large language models (LLMs) to assist common sense reasoning and decision-making. This benchmark enables us to evaluate autonomous agents’ decision-making capabilities across various pipelines, including reinforcement learning (RL), rule-based, and search-based methods in dynamically changing environments. As a first step toward addressing this challenge using large language models, we further develop an LLM-based agent and perform an in-depth analysis of its promise and challenge of solving these challenging tasks. HAZARD is available at https://vis-www.cs.umass.edu/hazard/.

arxiv情報

著者 Qinhong Zhou,Sunli Chen,Yisong Wang,Haozhe Xu,Weihua Du,Hongxin Zhang,Yilun Du,Joshua B. Tenenbaum,Chuang Gan
発行日 2024-01-23 18:59:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク