Language-Conditioned Offline RL for Multi-Robot Navigation

要約

自然言語の指示を解釈して従うマルチロボット チーム向けのナビゲーション ポリシーを開発する方法を紹介します。
これらのポリシーは、事前トレーニング済みの大規模言語モデル (LLM) からの埋め込みに条件付けされ、ランダムに収集されたわずか 20 分のデータを使用したオフライン強化学習によってトレーニングされます。
5 台の実際のロボットのチームでの実験では、これらのポリシーが目に見えないコマンドによく一般化することが示され、LLM 潜在空間の理解を示しています。
私たちの方法はシミュレーターや環境モデルを必要とせず、微調整することなく実際のロボットに直接展開できる低遅延の制御ポリシーを生成します。
実験のビデオは https://sites.google.com/view/llm-marl で提供されています。

要約(オリジナル)

We present a method for developing navigation policies for multi-robot teams that interpret and follow natural language instructions. We condition these policies on embeddings from pretrained Large Language Models (LLMs), and train them via offline reinforcement learning with as little as 20 minutes of randomly-collected data. Experiments on a team of five real robots show that these policies generalize well to unseen commands, indicating an understanding of the LLM latent space. Our method requires no simulators or environment models, and produces low-latency control policies that can be deployed directly to real robots without finetuning. We provide videos of our experiments at https://sites.google.com/view/llm-marl.

arxiv情報

著者 Steven Morad,Ajay Shankar,Jan Blumenkamp,Amanda Prorok
発行日 2024-07-29 16:49:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク