I Can Tell What I am Doing: Toward Real-World Natural Language Grounding of Robot Experiences

要約

自然言語を通じてロボットの動作と経験を理解することは、インテリジェントで透過的なロボット システムを開発するために重要です。
大規模言語モデル (LLM) の最近の進歩により、複雑でマルチモーダルなロボットのエクスペリエンスを、一貫した人間が読める物語に翻訳できるようになりました。
ただし、現実世界のロボットのエクスペリエンスを自然言語に根付かせることは、データのマルチモーダルな性質、サンプル レートの違い、データ量などの多くの理由により困難です。
ロボットのエクスペリエンスから自然言語ナレーションを生成する LLM ベースのシステムである RONAR を紹介します。これは、動作アナウンス、障害分析、および障害を回復するための人間の対話を支援します。
さまざまなシナリオにわたって評価された RONAR は、最先端の手法を上回り、障害回復効率を向上させます。
私たちの貢献には、ロボット エクスペリエンス ナレーションのためのマルチモーダル フレームワーク、包括的な実際のロボット データセット、システムの透明性と障害分析におけるユーザー エクスペリエンスの向上における RONAR の有効性の実証的証拠が含まれます。

要約(オリジナル)

Understanding robot behaviors and experiences through natural language is crucial for developing intelligent and transparent robotic systems. Recent advancement in large language models (LLMs) makes it possible to translate complex, multi-modal robotic experiences into coherent, human-readable narratives. However, grounding real-world robot experiences into natural language is challenging due to many reasons, such as multi-modal nature of data, differing sample rates, and data volume. We introduce RONAR, an LLM-based system that generates natural language narrations from robot experiences, aiding in behavior announcement, failure analysis, and human interaction to recover failure. Evaluated across various scenarios, RONAR outperforms state-of-the-art methods and improves failure recovery efficiency. Our contributions include a multi-modal framework for robot experience narration, a comprehensive real-robot dataset, and empirical evidence of RONAR’s effectiveness in enhancing user experience in system transparency and failure analysis.

arxiv情報

著者 Zihan Wang,Brian Liang,Varad Dhat,Zander Brumbaugh,Nick Walker,Ranjay Krishna,Maya Cakmak
発行日 2024-11-20 01:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク