Enhancing Robustness in Language-Driven Robotics: A Modular Approach to Failure Reduction

要約

大規模言語モデル (LLM) の最近の進歩により、ロボット工学が大幅に進歩し、身体化されたエージェントが無制限のタスクをよりよく理解し、実行できるようになりました。
ただし、LLM を使用する既存のアプローチは、その出力を物理環境内に固定し、ロボットの機能に合わせるという点で制限に直面しています。
この課題は、計算効率は高くなりますが、タスクの計画と実行の堅牢性が劣る、言語モデルが小さくなるとさらに顕著になります。
この論文では、これらの接地と位置合わせの問題に対処することで、LLM 駆動ロボットの堅牢性を強化するように設計された新しいモジュール式アーキテクチャを紹介します。
私たちは、目標条件付き POMDP フレームワーク内でタスク計画の問題を形式化し、LLM 主導の計画における主要な障害モードを特定し、これらの問題を軽減するための対象を絞った設計原則を提案します。
私たちのアーキテクチャでは、サブ目標の誤った評価を防ぐための「期待される結果」モジュールと、リアルタイムのエラー回復を可能にするフィードバック メカニズムが導入されています。
シミュレーションと物理ロボットの両方における実験結果は、私たちのアプローチが、大規模な LLM と標準ベースラインの両方と比較して、ピック アンド プレイスおよび操作タスクのタスク成功率を大幅に向上させることを示しています。
また、ハードウェア実験を通じて、アーキテクチャがどのように効率的かつローカルで実行できるかを実証します。
この研究は、ロボット工学におけるより小型でローカルで実行可能な LLM の可能性を強調し、堅牢なタス​​ク実行のためのスケーラブルで効率的なソリューションを提供します。

要約(オリジナル)

Recent advances in large language models (LLMs) have led to significant progress in robotics, enabling embodied agents to better understand and execute open-ended tasks. However, existing approaches using LLMs face limitations in grounding their outputs within the physical environment and aligning with the capabilities of the robot. This challenge becomes even more pronounced with smaller language models, which are more computationally efficient but less robust in task planning and execution. In this paper, we present a novel modular architecture designed to enhance the robustness of LLM-driven robotics by addressing these grounding and alignment issues. We formalize the task planning problem within a goal-conditioned POMDP framework, identify key failure modes in LLM-driven planning, and propose targeted design principles to mitigate these issues. Our architecture introduces an “expected outcomes” module to prevent mischaracterization of subgoals and a feedback mechanism to enable real-time error recovery. Experimental results, both in simulation and on physical robots, demonstrate that our approach significantly improves task success rates for pick-and-place and manipulation tasks compared to both larger LLMs and standard baselines. Through hardware experiments, we also demonstrate how our architecture can be run efficiently and locally. This work highlights the potential of smaller, locally-executable LLMs in robotics and provides a scalable, efficient solution for robust task execution.

arxiv情報

著者 Émiland Garrabé,Pierre Teixeira,Mahdi Khoramshahi,Stéphane Doncieux
発行日 2024-11-08 11:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), cs.RO パーマリンク