GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games

要約

GPT-4V などの事前トレーニング済み視覚言語モデル (VLM) は、優れたシーン理解機能と推論機能により、ロボットのタスク計画においてますます注目を集めています。
従来のタスク計画戦略と比較して、VLM はマルチモーダルな情報解析とコード生成に優れており、驚くべき効率を示します。
VLM はロボットのタスク計画において大きな可能性を示していますが、幻覚、意味論的な複雑さ、限定されたコンテキストなどの課題に悩まされています。
このような問題に対処するために、この論文では、ロボットタスク計画における意思決定プロセスを強化するマルチエージェントフレームワーク、つまりGameVLMを提案します。
この研究では、タスク計画を実行するための VLM ベースの意思決定エージェントとエキスパート エージェントが紹介されています。
具体的には、意思決定エージェントを使用してタスクを計画し、エキスパート エージェントを使用してこれらのタスク計画を評価します。
ゼロサム ゲーム理論は、さまざまなエージェント間の不一致を解決し、最適な解決策を決定するために導入されます。
実際のロボットでの実験結果では、提案されたフレームワークの有効性が実証され、平均成功率は 83.3% でした。

要約(オリジナル)

With their prominent scene understanding and reasoning capabilities, pre-trained visual-language models (VLMs) such as GPT-4V have attracted increasing attention in robotic task planning. Compared with traditional task planning strategies, VLMs are strong in multimodal information parsing and code generation and show remarkable efficiency. Although VLMs demonstrate great potential in robotic task planning, they suffer from challenges like hallucination, semantic complexity, and limited context. To handle such issues, this paper proposes a multi-agent framework, i.e., GameVLM, to enhance the decision-making process in robotic task planning. In this study, VLM-based decision and expert agents are presented to conduct the task planning. Specifically, decision agents are used to plan the task, and the expert agent is employed to evaluate these task plans. Zero-sum game theory is introduced to resolve inconsistencies among different agents and determine the optimal solution. Experimental results on real robots demonstrate the efficacy of the proposed framework, with an average success rate of 83.3%.

arxiv情報

著者 Aoran Mei,Jianhua Wang,Guo-Niu Zhu,Zhongxue Gan
発行日 2024-05-22 15:37:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク