A Data-Efficient Visual-Audio Representation with Intuitive Fine-tuning for Voice-Controlled Robots

要約

日常生活で人々にサービスを提供するコマンド追従ロボットは、エンジニアではなくエンドユーザーからの最小限の助けを借りて、展開領域で継続的に自己改善する必要があります。
以前の方法では、展開後に継続的に改善することが困難であるか、微調整中に多数の新しいラベルが必要になります。
(自己)教師あり対比学習を動機として、画像と音声コマンドを関連付けることにより、コマンドに従うロボットタスクに対する固有の報酬関数を生成する新しい表現を提案します。
ロボットが新しいドメインにデプロイされた後は、手動で報酬関数を作成することなく、専門家でなくても表現を直観的にデータ効率よく更新できます。
生のセンサー入力によるナビゲーションや操作など、さまざまな種類のサウンドとロボット タスクに対するアプローチを実証します。
シミュレーションおよび現実世界の実験では、新しいラベル付けされたデータが少ない場合でも、以前の方法よりも優れたパフォーマンスを達成しながら、システムがこれまで見たことのないシナリオで継続的に自己改善できることを示しました。

要約(オリジナル)

A command-following robot that serves people in everyday life must continually improve itself in deployment domains with minimal help from its end users, instead of engineers. Previous methods are either difficult to continuously improve after the deployment or require a large number of new labels during fine-tuning. Motivated by (self-)supervised contrastive learning, we propose a novel representation that generates an intrinsic reward function for command-following robot tasks by associating images with sound commands. After the robot is deployed in a new domain, the representation can be updated intuitively and data-efficiently by non-experts without any hand-crafted reward functions. We demonstrate our approach on various sound types and robotic tasks, including navigation and manipulation with raw sensor inputs. In simulated and real-world experiments, we show that our system can continually self-improve in previously unseen scenarios given fewer new labeled data, while still achieving better performance over previous methods.

arxiv情報

著者 Peixin Chang,Shuijing Liu,Tianchen Ji,Neeloy Chakraborty,Kaiwen Hong,Katherine Driggs-Campbell
発行日 2023-10-16 22:22:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク