要約
ロボット計画アルゴリズムは、タスクを達成するためにさまざまな環境内でアクションを実行するようにエージェントに指示します。
PaLM 2、GPT-3.5、GPT-4 などの大規模言語モデル (LLM) は、埋め込まれた現実世界の知識を使用して、複数のエージェントやオブジェクトが関与する複雑なタスクに取り組み、この領域に革命をもたらしました。
このペーパーでは、LLM をロボット工学のコンテキストに統合し、タスクに焦点を当てた実行と成功率を高める革新的な計画アルゴリズムを紹介します。
私たちのアルゴリズムの鍵となるのは、リアルタイムの環境状態とエラー メッセージを提供する閉ループ フィードバックであり、矛盾が生じた場合に計画を修正するために重要です。
このアルゴリズムは、人間の神経システムからインスピレーションを得て、構造化された階層的な方法で 2 つの LLM に計画を分割することで、その脳と体のアーキテクチャをエミュレートします。
私たちのメソッドは、VirtualHome 環境内のベースラインを上回り、タスク指向の成功率で平均 35% という顕著な増加を記録しただけでなく、人間レベルのベンチマーク 94% に迫る 85% という素晴らしい実行スコアを達成しました。
さらに、現実的な物理シミュレータと Franka Research 3 Arm を使用して、実際のロボット シナリオにおけるアルゴリズムの有効性が示されています。
要約(オリジナル)
Robotic planning algorithms direct agents to perform actions within diverse environments to accomplish a task. Large Language Models (LLMs) like PaLM 2, GPT-3.5, and GPT-4 have revolutionized this domain, using their embedded real-world knowledge to tackle complex tasks involving multiple agents and objects. This paper introduces an innovative planning algorithm that integrates LLMs into the robotics context, enhancing task-focused execution and success rates. Key to our algorithm is a closed-loop feedback which provides real-time environmental states and error messages, crucial for refining plans when discrepancies arise. The algorithm draws inspiration from the human neural system, emulating its brain-body architecture by dividing planning across two LLMs in a structured, hierarchical fashion. Our method not only surpasses baselines within the VirtualHome Environment, registering a notable 35% average increase in task-oriented success rates, but achieves an impressive execution score of 85%, approaching the human-level benchmark of 94%. Moreover, effectiveness of the algorithm in real robot scenarios is shown using a realistic physics simulator and the Franka Research 3 Arm.
arxiv情報
著者 | Vineet Bhat,Ali Umut Kaypak,Prashanth Krishnamurthy,Ramesh Karri,Farshad Khorrami |
発行日 | 2024-02-13 15:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google