Theia: Distilling Diverse Vision Foundation Models for Robot Learning

要約

視覚入力をアクションにマッピングする視覚ベースのロボット ポリシー学習では、分類やセグメンテーションなどの単一タスクのニーズを超えて、多様な視覚タスクを全体的に理解する必要があります。
これに触発されて、さまざまな視覚タスクで訓練された複数の既製の視覚基盤モデルを抽出した、ロボット学習用の視覚基盤モデルである Theia を紹介します。
Theia の豊富な視覚表現は多様な視覚的知識をエンコードし、下流のロボット学習を強化します。
広範な実験により、Theia は、少ないトレーニング データと小さなモデル サイズを使用して、教師モデルや以前のロボット学習モデルよりも優れたパフォーマンスを発揮することが実証されました。
さらに、事前トレーニングされた視覚表現の品質を定量化し、特徴のノルム分布のエントロピーが高いほどロボットの学習パフォーマンスが向上すると仮説を立てます。
コードとモデルは https://github.com/bdaiinstitute/theia で入手できます。

要約(オリジナル)

Vision-based robot policy learning, which maps visual inputs to actions, necessitates a holistic understanding of diverse visual tasks beyond single-task needs like classification or segmentation. Inspired by this, we introduce Theia, a vision foundation model for robot learning that distills multiple off-the-shelf vision foundation models trained on varied vision tasks. Theia’s rich visual representations encode diverse visual knowledge, enhancing downstream robot learning. Extensive experiments demonstrate that Theia outperforms its teacher models and prior robot learning models using less training data and smaller model sizes. Additionally, we quantify the quality of pre-trained visual representations and hypothesize that higher entropy in feature norm distributions leads to improved robot learning performance. Code and models are available at https://github.com/bdaiinstitute/theia.

arxiv情報

著者 Jinghuan Shang,Karl Schmeckpeper,Brandon B. May,Maria Vittoria Minniti,Tarik Kelestemur,David Watkins,Laura Herlant
発行日 2024-07-29 17:08:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク