Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?

要約

我々は、Embodied AIのための事前訓練された視覚表現(PVR)または視覚「基盤モデル」に関する最大かつ最も包括的な実証研究を発表する。まず、ロコモーション、ナビゲーション、器用な操作、移動操作にまたがる17の異なるタスクからなるCortexBenchをキュレートする。次に、既存のPVRを系統的に評価し、普遍的に支配的なものはないことを発見する。事前学習データのサイズと多様性の効果を調べるために、7つの異なるソースからの4,000時間を超える自心ビデオ(430万枚以上)とImageNetを組み合わせ、このデータのスライスに対してマスクドオートエンコーディング(MAE)を用いて異なるサイズの視覚変換器を学習する。先行研究からの推測に反して、データセットサイズと多様性を拡大しても、普遍的に性能が向上するわけではない(しかし平均的には向上する)ことがわかった。VC-1と名付けられた我々の最大のモデルは、全ての先行PVRを平均的に上回るが、普遍的に優位に立つわけでもない。次に、VC-1をタスクまたはドメインに特化して適応させることで、大幅な性能向上が得られることを示し、CortexBenchのすべてのベンチマークにおいて、VC-1(適応済み)が既知の最良の結果と同等またはそれ以上の性能を達成することを示す。最後に、VC-1およびVC-1(適合)が既存の最強のPVRを凌駕する実ハードウェア実験を示す。全体として、本論文は、新しい技術ではなく、厳密な体系的評価、PVRに関する広範な知見(場合によっては、先行研究の狭い領域でなされた知見に反論する)、研究コミュニティのためにオープンソース化されたコードとモデル(学習に1万GPU時間以上を要した)を提示する。

要約(オリジナル)

We present the largest and most comprehensive empirical study of pre-trained visual representations (PVRs) or visual ‘foundation models’ for Embodied AI. First, we curate CortexBench, consisting of 17 different tasks spanning locomotion, navigation, dexterous, and mobile manipulation. Next, we systematically evaluate existing PVRs and find that none are universally dominant. To study the effect of pre-training data size and diversity, we combine over 4,000 hours of egocentric videos from 7 different sources (over 4.3M images) and ImageNet to train different-sized vision transformers using Masked Auto-Encoding (MAE) on slices of this data. Contrary to inferences from prior work, we find that scaling dataset size and diversity does not improve performance universally (but does so on average). Our largest model, named VC-1, outperforms all prior PVRs on average but does not universally dominate either. Next, we show that task- or domain-specific adaptation of VC-1 leads to substantial gains, with VC-1 (adapted) achieving competitive or superior performance than the best known results on all of the benchmarks in CortexBench. Finally, we present real-world hardware experiments, in which VC-1 and VC-1 (adapted) outperform the strongest pre-existing PVR. Overall, this paper presents no new techniques but a rigorous systematic evaluation, a broad set of findings about PVRs (that in some cases, refute those made in narrow domains in prior work), and open-sourced code and models (that required over 10,000 GPU-hours to train) for the benefit of the research community.

arxiv情報

著者 Arjun Majumdar,Karmesh Yadav,Sergio Arnaud,Yecheng Jason Ma,Claire Chen,Sneha Silwal,Aryan Jain,Vincent-Pierre Berges,Pieter Abbeel,Jitendra Malik,Dhruv Batra,Yixin Lin,Oleksandr Maksymets,Aravind Rajeswaran,Franziska Meier
発行日 2024-02-01 19:42:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク