要約
ビヘイビア ツリー (BT) を生成するための大規模言語モデル (LLM) の使用は、最近ロボット工学コミュニティで注目を集めていますが、まだ開発の初期段階にあります。
この論文では、視覚言語モデル (VLM) を活用して、視覚条件に対処する BT を対話的に生成および編集し、視覚的に複雑な環境でコンテキスト認識型のロボット操作を可能にする新しいフレームワークを提案します。
私たちのアプローチの重要な特徴は、自発的な視覚条件による条件付き制御にあります。
具体的には、VLM は視覚条件ノードを含む BT を生成します。条件は自由形式のテキストとして表現されます。
別の VLM プロセスは、テキストをプロンプトに統合し、ロボットの実行中に現実世界の画像に対して条件を評価します。
私たちは現実世界のカフェのシナリオでフレームワークを検証し、その実現可能性と限界の両方を実証しました。
要約(オリジナル)
The use of Large Language Models (LLMs) for generating Behavior Trees (BTs) has recently gained attention in the robotics community, yet remains in its early stages of development. In this paper, we propose a novel framework that leverages Vision-Language Models (VLMs) to interactively generate and edit BTs that address visual conditions, enabling context-aware robot operations in visually complex environments. A key feature of our approach lies in the conditional control through self-prompted visual conditions. Specifically, the VLM generates BTs with visual condition nodes, where conditions are expressed as free-form text. Another VLM process integrates the text into its prompt and evaluates the conditions against real-world images during robot execution. We validated our framework in a real-world cafe scenario, demonstrating both its feasibility and limitations.
arxiv情報
著者 | Naoki Wake,Atsushi Kanehira,Jun Takamatsu,Kazuhiro Sasabuchi,Katsushi Ikeuchi |
発行日 | 2025-01-07 18:06:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google