要約
最近、大規模な言語モデル(LLMS)は、言語ドメインでコンテキスト内学習(ICL)を使用して顕著な成功を収めています。
ただし、LLMS内のICL機能を活用してロボットアクションを直接予測することは、ほとんど未踏のままです。
このペーパーでは、RobopRomptを紹介します。これは、既製のテキストのみのLLMがトレーニングなしでICLを介してロボットアクションを直接予測できるようにするフレームワークです。
私たちのアプローチは、最初にエピソードから重要な瞬間を捉えたキーフレームをヒューリスト的に識別します。
次に、これらのキーフレームと推定初期オブジェクトポーズからエンドエフェクターアクションを抽出し、両方がテキストの説明に変換されます。
最後に、これらのテキストの説明とタスク命令からICLデモンストレーションを形成するための構造化されたテンプレートを構築します。
これにより、LLMはテスト時にロボットアクションを直接予測できます。
広範な実験と分析を通じて、RobopRomptは、シミュレーションおよび実世界の設定でゼロショットおよびICLベースラインよりも強力なパフォーマンスを示しています。
プロジェクトページは、https://davidyyd.github.io/robopromptで入手できます。
要約(オリジナル)
Recently, Large Language Models (LLMs) have achieved remarkable success using in-context learning (ICL) in the language domain. However, leveraging the ICL capabilities within LLMs to directly predict robot actions remains largely unexplored. In this paper, we introduce RoboPrompt, a framework that enables off-the-shelf text-only LLMs to directly predict robot actions through ICL without training. Our approach first heuristically identifies keyframes that capture important moments from an episode. Next, we extract end-effector actions from these keyframes as well as the estimated initial object poses, and both are converted into textual descriptions. Finally, we construct a structured template to form ICL demonstrations from these textual descriptions and a task instruction. This enables an LLM to directly predict robot actions at test time. Through extensive experiments and analysis, RoboPrompt shows stronger performance over zero-shot and ICL baselines in simulated and real-world settings. Our project page is available at https://davidyyd.github.io/roboprompt.
arxiv情報
著者 | Yida Yin,Zekai Wang,Yuvan Sharma,Dantong Niu,Trevor Darrell,Roei Herzig |
発行日 | 2025-03-17 10:43:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google