Enhancing Robot Explanation Capabilities through Vision-Language Models: a Preliminary Study by Interpreting Visual Inputs for Improved Human-Robot Interaction

要約

この論文では、ヒューマンロボットインタラクション(HRI)中の自律ロボット動作の説明を作成するように設計された、以前の研究に基づいた改良されたシステムを紹介します。
以前は、大規模言語モデル (LLM) を使用してログを解釈し、自然言語の説明を生成するシステムを開発しました。
この研究では、視覚言語モデル (VLM) を組み込むことでアプローチを拡張し、システムが視覚入力のコンテキストを追加してテキスト ログを分析できるようにします。
この方法により、ロボットのログからのデータとロボットがキャプチャした画像を組み合わせた説明を生成できます。
私たちは、ロボットが人間の障害物を回避する必要がある基本的なナビゲーション タスクで、この強化されたシステムをテストしました。
この予備調査の結果は、視覚的な解釈を追加すると、障害物を正確に特定し、提供される説明の精度が向上するため、システムの説明が改善されることを示しています。

要約(オリジナル)

This paper presents an improved system based on our prior work, designed to create explanations for autonomous robot actions during Human-Robot Interaction (HRI). Previously, we developed a system that used Large Language Models (LLMs) to interpret logs and produce natural language explanations. In this study, we expand our approach by incorporating Vision-Language Models (VLMs), enabling the system to analyze textual logs with the added context of visual input. This method allows for generating explanations that combine data from the robot’s logs and the images it captures. We tested this enhanced system on a basic navigation task where the robot needs to avoid a human obstacle. The findings from this preliminary study indicate that adding visual interpretation improves our system’s explanations by precisely identifying obstacles and increasing the accuracy of the explanations provided.

arxiv情報

著者 David Sobrín-Hidalgo,Miguel Ángel González-Santamarta,Ángel Manuel Guerrero-Higueras,Francisco Javier Rodríguez-Lera,Vicente Matellán-Olivera
発行日 2024-04-15 12:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク