A Framework for Neurosymbolic Robot Action Planning using Large Language Models

要約

シンボリック タスク プランニングは、理解が容易でロボット アーキテクチャへの導入が容易なため、ロボットの自律性を強化するために広く使用されているアプローチです。
ただし、シンボリック タスク プランニングの手法は、複雑なプランニング ドメインや頻繁な再計画が必要な場合のパフォーマンスが低いため、現実世界の人間とロボットのコラボレーション シナリオに拡張するのは困難です。
私たちは、特にシンボリック タスク プランニングと機械学習アプローチの間のギャップを埋めることを目的としたフレームワーク、Terigaki を紹介します。
その理論的根拠は、大規模言語モデル (LLM)、つまり GPT-3 を、計画ドメイン定義言語 (PDDL) と互換性のある神経記号的タスク プランナーにトレーニングし、その生成機能を活用して、記号的タスク プランナーに固有の多くの制限を克服することです。
潜在的な利点としては、(i) LLM の応答時間は入力と出力を合わせた長さに比例して直線的に変化するため、計画ドメインの複雑さが増す限りにおいてスケーラビリティが向上すること、(ii) 計画のアクションを合成できることが挙げられます。
-アクションをエンドツーエンドではなく実行することで、計画全体が利用可能になるまで待つのではなく、各アクションが生成されるとすぐに実行できるようになり、計画と実行の同時実行が可能になります。
最近、LLM の認知能力を評価するために研究コミュニティによって多大な努力が払われ、次々と成功を収めています。
その代わりに、Teriyaki では、LLM の機能を活用して先読み予測計画モデルを構築しながら、特定の計画領域で従来のプランナーに匹敵する全体的な計画パフォーマンスを提供することを目指しています。
選択されたドメインでの予備的な結果は、私たちの方法が次のことができることを示しています。(i) 1,000 サンプルのテスト データ セットの問題の 95.5% を解決できます。
(ii) 従来のシンボリック プランナーよりも最大 13.5% 短いプランを作成します。
(iii) プランが利用可能になるまでの平均全体待ち時間を最大 61.4% 削減します。

要約(オリジナル)

Symbolic task planning is a widely used approach to enforce robot autonomy due to its ease of understanding and deployment in robot architectures. However, techniques for symbolic task planning are difficult to scale in real-world, human-robot collaboration scenarios because of the poor performance in complex planning domains or when frequent re-planning is needed. We present a framework, Teriyaki, specifically aimed at bridging the gap between symbolic task planning and machine learning approaches. The rationale is training Large Language Models (LLMs), namely GPT-3, into a neurosymbolic task planner compatible with the Planning Domain Definition Language (PDDL), and then leveraging its generative capabilities to overcome a number of limitations inherent to symbolic task planners. Potential benefits include (i) a better scalability in so far as the planning domain complexity increases, since LLMs’ response time linearly scales with the combined length of the input and the output, and (ii) the ability to synthesize a plan action-by-action instead of end-to-end, making each action available for execution as soon as it is generated instead of waiting for the whole plan to be available, which in turn enables concurrent planning and execution. Recently, significant efforts have been devoted by the research community to evaluate the cognitive capabilities of LLMs, with alternate successes. Instead, with Teriyaki we aim to provide an overall planning performance comparable to traditional planners in specific planning domains, while leveraging LLMs capabilities to build a look-ahead predictive planning model. Preliminary results in selected domains show that our method can: (i) solve 95.5% of problems in a test data set of 1,000 samples; (ii) produce plans up to 13.5% shorter than a traditional symbolic planner; (iii) reduce average overall waiting times for a plan availability by up to 61.4%

arxiv情報

著者 Alessio Capitanelli,Fulvio Mastrogiovanni
発行日 2024-06-04 12:03:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, I.2.6 パーマリンク