要約
大規模な言語モデル(LLMS)の最近の進歩は、特に高レベルのタスク計画とタスク分解に焦点を当てた具体化されたタスクにこれらのテクノロジーを適用するための多くの試みに拍車をかけました。
この領域をさらに探索するために、LLMSを使用した具体的に具体的に標的にしたタスク計画を具体的にターゲットにする新しい具体化されたタスク計画ベンチマークET-Plan-Benchを紹介します。
さまざまなレベルの困難と複雑さで異なる制御可能で多様な具体化されたタスクのセットを備えており、具体化されたタスク理解におけるLLMSのアプリケーションの2つの重要な側面を評価するように設計されています:空間(ターゲットオブジェクトの関係の制約、閉塞)および時間的および因果関係
環境での一連のアクションの理解。
マルチソースシミュレーターをバックエンドシミュレーターとして使用することにより、LLMSに即時の環境フィードバックを提供できます。これにより、LLMは環境と動的に対話し、必要に応じて再計画できます。
提案されたベンチマークで、GPT-4、Llama、Mistralを含む最先端のオープンソースと閉鎖源の基礎モデルを評価しました。
単純なナビゲーションタスクでは適切に機能しますが、空間的、時間的、因果関係をより深く理解する必要があるタスクに直面すると、パフォーマンスが大幅に悪化する可能性があります。
したがって、私たちのベンチマークは、最新の基礎モデルに大きな課題を提示する大規模で、定量化可能、高度に自動化され、微調整された診断フレームワークとして区別されます。
ファンデーションモデルを使用して、具体化されたタスク計画のさらなる研究を引き起こし、推進できることを願っています。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have spurred numerous attempts to apply these technologies to embodied tasks, particularly focusing on high-level task planning and task decomposition. To further explore this area, we introduce a new embodied task planning benchmark, ET-Plan-Bench, which specifically targets embodied task planning using LLMs. It features a controllable and diverse set of embodied tasks varying in different levels of difficulties and complexities, and is designed to evaluate two critical dimensions of LLMs’ application in embodied task understanding: spatial (relation constraint, occlusion for target objects) and temporal & causal understanding of the sequence of actions in the environment. By using multi-source simulators as the backend simulator, it can provide immediate environment feedback to LLMs, which enables LLMs to interact dynamically with the environment and re-plan as necessary. We evaluated the state-of-the-art open source and closed source foundation models, including GPT-4, LLAMA and Mistral on our proposed benchmark. While they perform adequately well on simple navigation tasks, their performance can significantly deteriorate when faced with tasks that require a deeper understanding of spatial, temporal, and causal relationships. Thus, our benchmark distinguishes itself as a large-scale, quantifiable, highly automated, and fine-grained diagnostic framework that presents a significant challenge to the latest foundation models. We hope it can spark and drive further research in embodied task planning using foundation models.
arxiv情報
著者 | Lingfeng Zhang,Yuening Wang,Hongjian Gu,Atia Hamidizadeh,Zhanguang Zhang,Yuecheng Liu,Yutong Wang,David Gamaliel Arcos Bravo,Junyi Dong,Shunbo Zhou,Tongtong Cao,Xingyue Quan,Yuzheng Zhuang,Yingxue Zhang,Jianye Hao |
発行日 | 2025-02-13 14:54:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google