In-Context Learning Enables Robot Action Prediction in LLMs

要約

最近、大規模な言語モデル(LLMS)は、言語ドメインでコンテキスト内学習(ICL)を使用して顕著な成功を収めています。
ただし、LLMS内のICL機能を活用してロボットアクションを直接予測することは、ほとんど未踏のままです。
このペーパーでは、RobopRomptを紹介します。これは、既製のテキストのみのLLMがトレーニングなしでICLを介してロボットアクションを直接予測できるようにするフレームワークです。
私たちのアプローチは、最初にエピソードから重要な瞬間を捉えたキーフレームをヒューリスト的に識別します。
次に、これらのキーフレームと推定初期オブジェクトポーズからエンドエフェクターアクションを抽出し、両方がテキストの説明に変換されます。
最後に、これらのテキストの説明とタスク命令からICLデモンストレーションを形成するための構造化されたテンプレートを構築します。
これにより、LLMはテスト時にロボットアクションを直接予測できます。
広範な実験と分析を通じて、RobopRomptは、シミュレーションおよび実世界の設定でゼロショットおよびICLベースラインよりも強力なパフォーマンスを示しています。
プロジェクトページは、https://davidyyd.github.io/robopromptで入手できます。

要約(オリジナル)

Recently, Large Language Models (LLMs) have achieved remarkable success using in-context learning (ICL) in the language domain. However, leveraging the ICL capabilities within LLMs to directly predict robot actions remains largely unexplored. In this paper, we introduce RoboPrompt, a framework that enables off-the-shelf text-only LLMs to directly predict robot actions through ICL without training. Our approach first heuristically identifies keyframes that capture important moments from an episode. Next, we extract end-effector actions from these keyframes as well as the estimated initial object poses, and both are converted into textual descriptions. Finally, we construct a structured template to form ICL demonstrations from these textual descriptions and a task instruction. This enables an LLM to directly predict robot actions at test time. Through extensive experiments and analysis, RoboPrompt shows stronger performance over zero-shot and ICL baselines in simulated and real-world settings. Our project page is available at https://davidyyd.github.io/roboprompt.

arxiv情報

著者 Yida Yin,Zekai Wang,Yuvan Sharma,Dantong Niu,Trevor Darrell,Roei Herzig
発行日 2025-03-17 10:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO パーマリンク