Scalable Multi-Robot Collaboration with Large Language Models: Centralized or Decentralized Systems?

要約

最近の一連の研究により、事前トレーニングされた大規模言語モデル (LLM) が、単一ロボットのさまざまなタスクに対して効果的なタスク プランナーとなり得ることが実証されました。
LLM の計画パフォーマンスは、コンテキスト内学習や状態フィードバックによる再プロンプトなどのプロンプト手法によって大幅に向上し、コンテキスト ウィンドウのトークン バジェットが新たに重要視されます。
十分に研究されていませんが、自然な次の方向性は、マルチロボット タスク プランナーとしての LLM を研究することです。
ただし、長期にわたる異種マルチロボットの計画では、調整という新たな課題が発生すると同時に、コンテキスト ウィンドウの長さの制限にも挑戦します。
したがって、複数のロボットの調整の複雑さを推論できる、トークン効率の高い LLM 計画フレームワークを見つけることが重要です。
この研究では、エージェント数が増加する場合の 4 つの調整依存マルチエージェント 2D タスク シナリオに適用された 4 つのマルチエージェント通信フレームワーク (集中型、分散型、および 2 つのハイブリッド) のタスク成功率とトークン効率を比較します。
ハイブリッド フレームワークは 4 つのタスクすべてでより高いタスク成功率を達成し、より多くのエージェントに適切に拡張できることがわかりました。
さらに、視覚からテキストへの問題と動的エラーが考慮される 3D シミュレーションにおけるハイブリッド フレームワークを実証します。
プロンプト、ビデオ、コードについては、プロジェクト Web サイト https://yongchao98.github.io/MIT-REALM-Multi-Robot/ を参照してください。

要約(オリジナル)

A flurry of recent work has demonstrated that pre-trained large language models (LLMs) can be effective task planners for a variety of single-robot tasks. The planning performance of LLMs is significantly improved via prompting techniques, such as in-context learning or re-prompting with state feedback, placing new importance on the token budget for the context window. An under-explored but natural next direction is to investigate LLMs as multi-robot task planners. However, long-horizon, heterogeneous multi-robot planning introduces new challenges of coordination while also pushing up against the limits of context window length. It is therefore critical to find token-efficient LLM planning frameworks that are also able to reason about the complexities of multi-robot coordination. In this work, we compare the task success rate and token efficiency of four multi-agent communication frameworks (centralized, decentralized, and two hybrid) as applied to four coordination-dependent multi-agent 2D task scenarios for increasing numbers of agents. We find that a hybrid framework achieves better task success rates across all four tasks and scales better to more agents. We further demonstrate the hybrid frameworks in 3D simulations where the vision-to-text problem and dynamical errors are considered. See our project website https://yongchao98.github.io/MIT-REALM-Multi-Robot/ for prompts, videos, and code.

arxiv情報

著者 Yongchao Chen,Jacob Arkin,Yang Zhang,Nicholas Roy,Chuchu Fan
発行日 2024-03-22 00:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク