Learning to Reason over Scene Graphs: A Case Study of Finetuning GPT-2 into a Robot Language Model for Grounded Task Planning

要約

インテリジェントな支援ロボットやサービス ロボットの開発には、長期的なタスク計画が不可欠です。
この研究では、プランナーが順番に実行するためのサブ目標仕様にタスクを分解する方法を学習することにより、ロボットのタスク計画における大規模言語モデル (LLM) のより小さいクラス、特に GPT-2 の適用可能性を調査します。
私たちの手法では、LLM の入力をシーン グラフとして表されるドメインに基づいて確立し、人間のリクエストを実行可能なロボット プランに変換できるようにします。これにより、ALFRED ベンチマークで発生したような、長期的なタスクを推論する方法を学習します。
私たちのアプローチを古典的な計画およびベースライン手法と比較して、LLM ベースのプランナーの適用可能性と一般化可能性を検証します。
私たちの研究結果は、LLM に保存された知識を効果的に基礎にして長期的なタスク計画を実行できることを示唆しており、ロボット工学における神経記号計画手法の将来の応用に有望な可能性があることを示しています。

要約(オリジナル)

Long-horizon task planning is essential for the development of intelligent assistive and service robots. In this work, we investigate the applicability of a smaller class of large language models (LLMs), specifically GPT-2, in robotic task planning by learning to decompose tasks into subgoal specifications for a planner to execute sequentially. Our method grounds the input of the LLM on the domain that is represented as a scene graph, enabling it to translate human requests into executable robot plans, thereby learning to reason over long-horizon tasks, as encountered in the ALFRED benchmark. We compare our approach with classical planning and baseline methods to examine the applicability and generalizability of LLM-based planners. Our findings suggest that the knowledge stored in an LLM can be effectively grounded to perform long-horizon task planning, demonstrating the promising potential for the future application of neuro-symbolic planning methods in robotics.

arxiv情報

著者 Georgia Chalvatzaki,Ali Younes,Daljeet Nandha,An Le,Leonardo F. R. Ribeiro,Iryna Gurevych
発行日 2023-05-12 18:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク