Contrastive Learning from Demonstrations

要約

本論文では、複数の視点から撮影されたラベル付けされていないビデオデモから視覚表現を学習するためのフレームワークを紹介する。我々は、これらの表現が、ピックアンドプレースを含むいくつかのロボットタスクの模倣に適用可能であることを示す。我々は、最近提案された自己教師付き学習アルゴリズムを最適化し、特徴量の埋め込みにおいて、無関係な情報を抑制しつつタスクに関連する情報を強化する対照的学習を適用する。提案手法を一般に公開されているMulti-View PouringとカスタムPick and Placeのデータセットで検証し、TCN tripletベースラインと比較する。また、学習した表現について、視点合わせ、ステージ分類、強化学習の3つの指標を用いて評価した結果、全てのケースで、学習反復回数の削減という利点を持ちながら、最先端のアプローチと比較して結果が改善された。

要約(オリジナル)

This paper presents a framework for learning visual representations from unlabeled video demonstrations captured from multiple viewpoints. We show that these representations are applicable for imitating several robotic tasks, including pick and place. We optimize a recently proposed self-supervised learning algorithm by applying contrastive learning to enhance task-relevant information while suppressing irrelevant information in the feature embeddings. We validate the proposed method on the publicly available Multi-View Pouring and a custom Pick and Place data sets and compare it with the TCN triplet baseline. We evaluate the learned representations using three metrics: viewpoint alignment, stage classification and reinforcement learning, and in all cases the results improve when compared to state-of-the-art approaches, with the added benefit of reduced number of training iterations.

arxiv情報

著者 André Correia,Luís A. Alexandre
発行日 2022-11-07 16:03:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク