ALP: Action-Aware Embodied Learning for Perception

要約

ビジョン モデルのトレーニングとベンチマークにおける現在の方法は、受動的で厳選されたデータセットに過度に依存していることが示されています。
これらのデータセットでトレーニングされたモデルは、分類、検出、セグメンテーションなどのさまざまなタスクで優れたパフォーマンスを示していますが、入力データの分布外のシフトが絶え間なく続くため、基本的に進化し続ける世界に一般化することはできません。
したがって、固定データセットでトレーニングする代わりに、より人間中心で適応的な方法で学習にアプローチできるのでしょうか?
この論文では、強化学習ポリシーの最適化と逆ダイナミクス予測目標の組み合わせを通じて、アクション情報を表現学習に組み込む身体化学習フレームワークである、知覚のためのアクション認識身体学習 (ALP) を紹介します。
私たちの手法は、複雑な 3D 環境を積極的に探索して、一般化可能なタスクに依存しない視覚表現を学習するだけでなく、下流のトレーニング データを収集します。
我々は、ALP がいくつかの下流の認識タスクにおいて既存のベースラインを上回るパフォーマンスを示すことを示します。
さらに、環境やタスクにより関連性の高いアクティブに収集されたデータでトレーニングすることにより、ImageNet などの固定データセットで事前トレーニングされたモデルと比較して、私たちの方法が下流のタスクに対してより堅牢に一般化されることを示します。

要約(オリジナル)

Current methods in training and benchmarking vision models exhibit an over-reliance on passive, curated datasets. Although models trained on these datasets have shown strong performance in a wide variety of tasks such as classification, detection, and segmentation, they fundamentally are unable to generalize to an ever-evolving world due to constant out-of-distribution shifts of input data. Therefore, instead of training on fixed datasets, can we approach learning in a more human-centric and adaptive manner? In this paper, we introduce Action-Aware Embodied Learning for Perception (ALP), an embodied learning framework that incorporates action information into representation learning through a combination of optimizing a reinforcement learning policy and an inverse dynamics prediction objective. Our method actively explores in complex 3D environments to both learn generalizable task-agnostic visual representations as well as collect downstream training data. We show that ALP outperforms existing baselines in several downstream perception tasks. In addition, we show that by training on actively collected data more relevant to the environment and task, our method generalizes more robustly to downstream tasks compared to models pre-trained on fixed datasets such as ImageNet.

arxiv情報

著者 Xinran Liang,Anthony Han,Wilson Yan,Aditi Raghunathan,Pieter Abbeel
発行日 2023-10-17 15:44:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク