TalkWithMachines: Enhancing Human-Robot Interaction for Interpretable Industrial Robotics Through Large/Vision Language Models

要約

TalkWithMachines は、特に安全性が重要なアプリケーション向けに、解釈可能な産業用ロボット システムに貢献することで、人間とロボットのインタラクションを強化することを目指しています。
発表された論文では、ロボットの認識および制御と組み合わせた、大規模言語モデル (LLM) および視覚言語モデル (VLM) の最近の進歩を調査します。
この統合により、ロボットは自然言語で与えられたコマンドを理解して実行し、視覚的および/または説明的な入力を通じて環境を認識できるようになります。
さらに、LLM の内部状態と推論を人間が容易に理解できるテキストに翻訳することで、オペレーターはロボットの現在の状態と意図をより明確に把握できるようになり、効果的かつ安全な操作に不可欠です。
私たちの論文では、LLM を利用した 4 つのシミュレートされたロボット制御ワークフローの概要を説明します。これらのワークフローでは、(i) 低レベルの制御、(ii) ロボットの内部状態を記述する言語ベースのフィードバックの生成、(iii) 追加入力としての視覚情報の使用を検討します。
(iv) ロボットの身体的能力と制限を考慮した、タスク計画とフィードバックを生成するためのロボット構造情報の使用。
提案された概念は、簡単な説明とともに一連の実験で示されます。
プロジェクトの説明、ビデオ、補足資料は、プロジェクト Web サイト (https://talk-machines.github.io) で入手できます。

要約(オリジナル)

TalkWithMachines aims to enhance human-robot interaction by contributing to interpretable industrial robotic systems, especially for safety-critical applications. The presented paper investigates recent advancements in Large Language Models (LLMs) and Vision Language Models (VLMs), in combination with robotic perception and control. This integration allows robots to understand and execute commands given in natural language and to perceive their environment through visual and/or descriptive inputs. Moreover, translating the LLM’s internal states and reasoning into text that humans can easily understand ensures that operators gain a clearer insight into the robot’s current state and intentions, which is essential for effective and safe operation. Our paper outlines four LLM-assisted simulated robotic control workflows, which explore (i) low-level control, (ii) the generation of language-based feedback that describes the robot’s internal states, (iii) the use of visual information as additional input, and (iv) the use of robot structure information for generating task plans and feedback, taking the robot’s physical capabilities and limitations into account. The proposed concepts are presented in a set of experiments, along with a brief discussion. Project description, videos, and supplementary materials will be available on the project website: https://talk-machines.github.io.

arxiv情報

著者 Ammar N. Abbas,Csaba Beleznai
発行日 2024-12-19 23:43:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG, cs.RO パーマリンク