要約
我々は、長期および中期間にわたる高レベルの推論に使用でき、従来の狭いトップダウンの段階的な収集と比較して 2.2 倍高いスループットを備えた、スケーラブルでボトムアップで本質的に多様なデータ収集スキームを提案します。
私たちは、3 つのオフィスビル全体でユーザーのリクエストを実行し、複数のロボットと人間の実施形態を使用して、現実的なデータを収集します。
このデータを使用して、ロボット エピソードのみで評価した場合でも、すべての実施形態でトレーニングされたモデルの方が、ロボット データのみでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを示します。
収集予算が固定されている場合、ロボットによる収集と併せて、より安価な人間による収集を利用することが有益であることがわかりました。
私たちは、ロボット工学に焦点を当てた視覚的な質問応答のための 829,502 (ビデオ、テキスト) ペアを含む、RoboVQA と呼ばれる大規模で非常に多様な (29,520 の固有の命令) データセットをリリースします。
また、介入メカニズムを使用して実際のロボット実験を評価することで、タスクを最後まで実行できるようになり、不完全であっても人間の監視下で展開できるようにすると同時に、単一のパフォーマンス指標を提供できることも示します。
私たちは、データセットでトレーニングされた RoboVQA-VideoCoCa という名前の単一のビデオ条件付きモデルを実証します。このモデルは、幅広い現実的な設定で、ゼロショット状態より 46% 低い認知介入率で、さまざまな根拠に基づいた高レベルの推論タスクを実行できます。
アート ビジュアル ランゲージ モデル (VLM) ベースラインであり、長期的なタスクを通じて実際のロボットをガイドできます。
ゼロショットの最先端モデルとのパフォーマンスのギャップは、実際の展開に向けて多くの根拠のあるデータがまだ収集されていないことを示しており、スケーラブルなデータ収集アプローチの重要な必要性が強調されています。
最後に、ビデオ VLM は単一画像 VLM よりも大幅に優れており、すべての VQA タスクにわたって平均エラー率が 19% 減少していることを示します。
データとビデオは https://robovqa.github.io で入手できます
要約(オリジナル)
We present a scalable, bottom-up and intrinsically diverse data collection scheme that can be used for high-level reasoning with long and medium horizons and that has 2.2x higher throughput compared to traditional narrow top-down step-by-step collection. We collect realistic data by performing any user requests within the entirety of 3 office buildings and using multiple robot and human embodiments. With this data, we show that models trained on all embodiments perform better than ones trained on the robot data only, even when evaluated solely on robot episodes. We find that for a fixed collection budget it is beneficial to take advantage of cheaper human collection along with robot collection. We release a large and highly diverse (29,520 unique instructions) dataset dubbed RoboVQA containing 829,502 (video, text) pairs for robotics-focused visual question answering. We also demonstrate how evaluating real robot experiments with an intervention mechanism enables performing tasks to completion, making it deployable with human oversight even if imperfect while also providing a single performance metric. We demonstrate a single video-conditioned model named RoboVQA-VideoCoCa trained on our dataset that is capable of performing a variety of grounded high-level reasoning tasks in broad realistic settings with a cognitive intervention rate 46% lower than the zero-shot state of the art visual language model (VLM) baseline and is able to guide real robots through long-horizon tasks. The performance gap with zero-shot state-of-the-art models indicates that a lot of grounded data remains to be collected for real-world deployment, emphasizing the critical need for scalable data collection approaches. Finally, we show that video VLMs significantly outperform single-image VLMs with an average error rate reduction of 19% across all VQA tasks. Data and videos available at https://robovqa.github.io
arxiv情報
著者 | Pierre Sermanet,Tianli Ding,Jeffrey Zhao,Fei Xia,Debidatta Dwibedi,Keerthana Gopalakrishnan,Christine Chan,Gabriel Dulac-Arnold,Sharath Maddineni,Nikhil J Joshi,Pete Florence,Wei Han,Robert Baruch,Yao Lu,Suvir Mirchandani,Peng Xu,Pannag Sanketi,Karol Hausman,Izhak Shafran,Brian Ichter,Yuan Cao |
発行日 | 2023-11-01 23:40:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google