‘What did the Robot do in my Absence?’ Video Foundation Models to Enhance Intermittent Supervision

要約

この論文では、ロボット チームに対する人間による断続的な監視を強化するために、ロボット データの概要を生成するためのビデオ ファンデーション モデル (ViFM) のアプリケーションを調査します。
私たちは、ストーリーボード、短いビデオ、テキストの 3 つの形式で、長期間のロボット ビジョン データの一般的な概要とクエリ駆動の概要の両方を生成する新しいフレームワークを提案します。
30 人の参加者を対象としたユーザー調査を通じて、ロボットが長時間 (40 分) 監視なしで動作している間にオペレーターが発生した観察とアクションを正確に取得できるようにするこれらの要約手法の有効性を評価しました。
私たちの調査結果では、タスク期間は長くなりますが、クエリ駆動の要約は一般的な要約や生データと比較して検索精度が大幅に向上することが明らかになりました。
ストーリーボードは、特にオブジェクト関連のクエリの場合、最も効果的なプレゼンテーション モダリティであることがわかっています。
この研究は、私たちの知る限り、断続的な監視コンテキストでマルチモーダルなロボット対人間のコミュニケーションを生成するための ViFM の最初のゼロショット アプリケーションを表しており、ヒューマン ロボット インタラクション (HRI) シナリオにおけるこれらのモデルの有望性と限界の両方を実証しています。

要約(オリジナル)

This paper investigates the application of Video Foundation Models (ViFMs) for generating robot data summaries to enhance intermittent human supervision of robot teams. We propose a novel framework that produces both generic and query-driven summaries of long-duration robot vision data in three modalities: storyboards, short videos, and text. Through a user study involving 30 participants, we evaluate the efficacy of these summary methods in allowing operators to accurately retrieve the observations and actions that occurred while the robot was operating without supervision over an extended duration (40 min). Our findings reveal that query-driven summaries significantly improve retrieval accuracy compared to generic summaries or raw data, albeit with increased task duration. Storyboards are found to be the most effective presentation modality, especially for object-related queries. This work represents, to our knowledge, the first zero-shot application of ViFMs for generating multi-modal robot-to-human communication in intermittent supervision contexts, demonstrating both the promise and limitations of these models in human-robot interaction (HRI) scenarios.

arxiv情報

著者 Kavindie Katuwandeniya,Leimin Tian,Dana Kulić
発行日 2024-11-15 07:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク