Enhancing Robustness in Language-Driven Robotics: A Modular Approach to Failure Reduction

要約

大規模な言語モデル(LLM)の最近の進歩により、ロボット工学の大きな進歩が生じ、具体化されたエージェントがオープンエンドのタスクをよりよく理解して実行できるようになりました。
ただし、LLMSを使用した既存のアプローチは、物理的環境内での出力を接地し、ロボットの機能に合わせて出力を接地する際の制限に直面しています。
この課題は、より小さな言語モデルでさらに顕著になります。これは、より計算効率が良くなりますが、タスクの計画と実行においては堅牢ではありません。
このホワイトペーパーでは、これらの接地およびアライメントの問題に対処することにより、LLM駆動型ロボット工学の堅牢性を高めるように設計された新しいモジュラーアーキテクチャを紹介します。
目標条件付けされたPOMDPフレームワーク内のタスク計画の問題を正式化し、LLM駆動型計画の重要な障害モードを特定し、これらの問題を軽減するためのターゲット設計原則を提案します。
当社のアーキテクチャでは、「予想される結果」モジュールを紹介して、サブゴールの誤った特性とリアルタイムエラー回復を可能にするフィードバックメカニズムを防ぎます。
シミュレーションと物理ロボットの両方での実験結果は、このアプローチが、より大きなLLMSと標準ベースラインの両方と比較して、ピックアンド操作および操作タスクのタスクの成功率を大幅に改善することを示しています。
ハードウェア実験を通じて、アーキテクチャを効率的かつローカルで実行する方法も示します。
この作業は、ロボット工学におけるより小さく、局所的に実行可能なLLMの可能性を強調し、堅牢なタス​​ク実行のためのスケーラブルで効率的なソリューションを提供します。

要約(オリジナル)

Recent advances in large language models (LLMs) have led to significant progress in robotics, enabling embodied agents to better understand and execute open-ended tasks. However, existing approaches using LLMs face limitations in grounding their outputs within the physical environment and aligning with the capabilities of the robot. This challenge becomes even more pronounced with smaller language models, which are more computationally efficient but less robust in task planning and execution. In this paper, we present a novel modular architecture designed to enhance the robustness of LLM-driven robotics by addressing these grounding and alignment issues. We formalize the task planning problem within a goal-conditioned POMDP framework, identify key failure modes in LLM-driven planning, and propose targeted design principles to mitigate these issues. Our architecture introduces an “expected outcomes” module to prevent mischaracterization of subgoals and a feedback mechanism to enable real-time error recovery. Experimental results, both in simulation and on physical robots, demonstrate that our approach significantly improves task success rates for pick-and-place and manipulation tasks compared to both larger LLMs and standard baselines. Through hardware experiments, we also demonstrate how our architecture can be run efficiently and locally. This work highlights the potential of smaller, locally-executable LLMs in robotics and provides a scalable, efficient solution for robust task execution.

arxiv情報

著者 Émiland Garrabé,Pierre Teixeira,Mahdi Khoramshahi,Stéphane Doncieux
発行日 2025-04-28 13:22:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), cs.RO パーマリンク