要約
大規模言語モデル (LLM) は、強力な意味理解機能とコード生成機能にもかかわらず、複雑なタスクを処理する際に依然として課題に直面しています。
マルチエージェント戦略の生成と動作制御は非常に複雑な領域であり、本質的に複数の分野の専門家が協力する必要があります。
マルチエージェント戦略の生成とモーション制御を強化するために、クラウド エッジ エンドの階層構造の概念を採用した革新的なアーキテクチャを提案します。
専門分野が異なる複数の大規模な言語モデルを活用することで、効率的に戦略を生成し、タスクの分解を実行できます。
コサイン類似度アプローチを導入し、タスク分解命令とロボットのタスク シーケンスをベクトル レベルで調整することで、不完全なタスク分解を持つサブタスクを特定し、それらを複数回反復して、最終的に実行可能なマシン タスク シーケンスを生成できます。ロボットは、これらのタスク シーケンスを通じて次のことを行うように誘導されます。
より複雑なタスクを完了します。
このアーキテクチャにより、複雑なタスクを実行するロボットの自然言語制御プロセスを実装し、オープン シナリオでのオープン タスクのマルチ エージェント実行の課題とタスクの分解の問題にうまく対処します。
要約(オリジナル)
Despite their powerful semantic understanding and code generation capabilities, Large Language Models (LLMs) still face challenges when dealing with complex tasks. Multi agent strategy generation and motion control are highly complex domains that inherently require experts from multiple fields to collaborate. To enhance multi agent strategy generation and motion control, we propose an innovative architecture that employs the concept of a cloud edge end hierarchical structure. By leveraging multiple large language models with distinct areas of expertise, we can efficiently generate strategies and perform task decomposition. Introducing the cosine similarity approach,aligning task decomposition instructions with robot task sequences at the vector level, we can identify subtasks with incomplete task decomposition and iterate on them multiple times to ultimately generate executable machine task sequences.The robot is guided through these task sequences to complete tasks of higher complexity. With this architecture, we implement the process of natural language control of robots to perform complex tasks, and successfully address the challenge of multi agent execution of open tasks in open scenarios and the problem of task decomposition.
arxiv情報
著者 | Zhirong Luan,Yujun Lai |
発行日 | 2024-02-06 04:47:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google