From LLMs to Actions: Latent Codes as Bridges in Hierarchical Robot Control

要約

ロボット工学の階層制御は、高レベルのタスク プランナーと低レベルのポリシーの間で通信するための、明確に定義されたインターフェイス層の必要性によって長い間悩まされてきました。
LLM の出現により、言語が将来のインターフェイス層として浮上してきました。
ただし、これにはいくつかの制限があります。
すべてのタスクを自然言語で簡単に表現できるステップに分解できるわけではありません (ダンス ルーチンの実行など)。
さらに、ドメインのシフトや壊滅的な忘却により、具体化されたデータに対するエンドツーエンドの微調整が困難になります。
これらの制限を克服するための代替アーキテクチャとして、私たちの手法であるブリッジとしての学習可能な潜在コード (LCB) を紹介します。
\method~は、学習可能な潜在コードを使用して、LLM と低レベルのポリシーの間のブリッジとして機能します。
これにより、LLM は言語の制限に完全に束縛されることなく、タスク プランの目標を柔軟に伝達できるようになります。
さらに、事前トレーニング中に学習された単語トークンの埋め込みスペースを破壊することなく、エンドツーエンドの微調整が可能になります。
身体エージェント向けの 2 つの一般的な言語ベースのベンチマークである Language Table と Calvin での実験を通じて、\method~ は、推論と複数の言語を必要とするタスクのインターフェイス層として純粋な言語を利用するベースライン (GPT-4V を使用したものを含む) よりも優れていることがわかりました。
ステップ動作。

要約(オリジナル)

Hierarchical control for robotics has long been plagued by the need to have a well defined interface layer to communicate between high-level task planners and low-level policies. With the advent of LLMs, language has been emerging as a prospective interface layer. However, this has several limitations. Not all tasks can be decomposed into steps that are easily expressible in natural language (e.g. performing a dance routine). Further, it makes end-to-end finetuning on embodied data challenging due to domain shift and catastrophic forgetting. We introduce our method — Learnable Latent Codes as Bridges (LCB) — as an alternate architecture to overcome these limitations. \method~uses a learnable latent code to act as a bridge between LLMs and low-level policies. This enables LLMs to flexibly communicate goals in the task plan without being entirely constrained by language limitations. Additionally, it enables end-to-end finetuning without destroying the embedding space of word tokens learned during pre-training. Through experiments on Language Table and Calvin, two common language based benchmarks for embodied agents, we find that \method~outperforms baselines (including those w/ GPT-4V) that leverage pure language as the interface layer on tasks that require reasoning and multi-step behaviors.

arxiv情報

著者 Yide Shentu,Philipp Wu,Aravind Rajeswaran,Pieter Abbeel
発行日 2024-07-08 21:02:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク