Time is on my sight: scene graph filtering for dynamic environment perception in an LLM-driven robot

要約

職場、病院、家庭などの動的な環境でロボットが使用されることが増えています。
その結果、ロボットとのインタラクションはシンプルかつ直観的であり、ロボットの認識は人間が引き起こす変化に効率的に適応する必要があります。
この論文では、特にロボットの状態表現の動的な作成と継続的な更新に焦点を当て、人間とロボットのインタラクションにおける重要な課題に対処するロボット制御アーキテクチャを紹介します。
このアーキテクチャでは、大規模言語モデルを使用して、自然言語コマンド、ロボットのスキル表現、認識されたシーンのリアルタイムの動的セマンティック マッピングなど、さまざまな情報ソースを統合します。
これにより、複雑で動的な環境におけるロボットの柔軟で適応的な動作が可能になります。
従来のロボット システムは、多くの場合、事前にプログラムされた静的な命令や設定に依存しており、動的な環境やリアルタイムのコラボレーションへの適応性が限られています。
対照的に、このアーキテクチャでは、LLM を使用して複雑で高レベルの命令を解釈し、人間とロボットのコラボレーションを強化する実行可能な計画を生成します。
その中核となるシステム知覚モジュールは、RGB-D センサー データを使用してセマンティック シーン グラフを生成し、継続的に更新し、環境の詳細で構造化された表現を提供します。
粒子フィルターを使用して、動的な現実世界の設定でオブジェクトの位置を正確に特定します。
プランナー モジュールは、この最新のセマンティック マップを活用して、高レベルのタスクをサブタスクに分割し、それらをナビゲーション、オブジェクト操作 (PICK や PLACE など)、移動 (GOTO など) などのロボット スキルにリンクします。

このアーキテクチャは、リアルタイムの認識、状態追跡、LLM 主導の通信とタスク計画を組み合わせることで、動的環境における適応性、タスク効率、および人間とロボットのコラボレーションを強化します。

要約(オリジナル)

Robots are increasingly being used in dynamic environments like workplaces, hospitals, and homes. As a result, interactions with robots must be simple and intuitive, with robots perception adapting efficiently to human-induced changes. This paper presents a robot control architecture that addresses key challenges in human-robot interaction, with a particular focus on the dynamic creation and continuous update of the robot state representation. The architecture uses Large Language Models to integrate diverse information sources, including natural language commands, robotic skills representation, real-time dynamic semantic mapping of the perceived scene. This enables flexible and adaptive robotic behavior in complex, dynamic environments. Traditional robotic systems often rely on static, pre-programmed instructions and settings, limiting their adaptability to dynamic environments and real-time collaboration. In contrast, this architecture uses LLMs to interpret complex, high-level instructions and generate actionable plans that enhance human-robot collaboration. At its core, the system Perception Module generates and continuously updates a semantic scene graph using RGB-D sensor data, providing a detailed and structured representation of the environment. A particle filter is employed to ensure accurate object localization in dynamic, real-world settings. The Planner Module leverages this up-to-date semantic map to break down high-level tasks into sub-tasks and link them to robotic skills such as navigation, object manipulation (e.g., PICK and PLACE), and movement (e.g., GOTO). By combining real-time perception, state tracking, and LLM-driven communication and task planning, the architecture enhances adaptability, task efficiency, and human-robot collaboration in dynamic environments.

arxiv情報

著者 Simone Colombani,Luca Brini,Dimitri Ognibene,Giuseppe Boccignone
発行日 2024-11-22 15:58:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO パーマリンク