In-Context Learning Enables Robot Action Prediction in LLMs

要約

最近、大規模言語モデル (LLM) は、言語ドメインでコンテキスト内学習 (ICL) を使用して目覚ましい成功を収めています。
ただし、LLM 内の ICL 機能を活用してロボットの動作を直接予測する方法は、まだほとんど解明されていません。
このペーパーでは、既製のテキスト専用 LLM がトレーニングなしで ICL を通じてロボットの動作を直接予測できるようにするフレームワークである RoboPrompt を紹介します。
私たちのアプローチでは、まずエピソードから重要な瞬間を捉えたキーフレームをヒューリスティックに特定します。
次に、これらのキーフレームと推定されたオブジェクトの初期ポーズからエンドエフェクターのアクションを抽出し、両方ともテキストの説明に変換します。
最後に、これらのテキスト説明とタスク指示から ICL デモンストレーションを形成するための構造化テンプレートを構築します。
これにより、LLM はテスト時にロボットの動作を直接予測できるようになります。
広範な実験と分析を通じて、RoboPrompt は、シミュレーション設定および現実世界の設定において、ゼロショットおよび ICL ベースラインを超える優れたパフォーマンスを示しています。

要約(オリジナル)

Recently, Large Language Models (LLMs) have achieved remarkable success using in-context learning (ICL) in the language domain. However, leveraging the ICL capabilities within LLMs to directly predict robot actions remains largely unexplored. In this paper, we introduce RoboPrompt, a framework that enables off-the-shelf text-only LLMs to directly predict robot actions through ICL without training. Our approach first heuristically identifies keyframes that capture important moments from an episode. Next, we extract end-effector actions from these keyframes as well as the estimated initial object poses, and both are converted into textual descriptions. Finally, we construct a structured template to form ICL demonstrations from these textual descriptions and a task instruction. This enables an LLM to directly predict robot actions at test time. Through extensive experiments and analysis, RoboPrompt shows stronger performance over zero-shot and ICL baselines in simulated and real-world settings.

arxiv情報

著者 Yida Yin,Zekai Wang,Yuvan Sharma,Dantong Niu,Trevor Darrell,Roei Herzig
発行日 2024-10-16 17:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク