Lossless Adaptation of Pretrained Vision Models For Robotic Manipulation

要約

タイトル:ロボット操作のための事前学習された視覚モデルのロスレス適応
要約:
– 一般的な視覚学習タスクで事前学習された大型モデルが、専門の知覚問題や多様なロボット操作タスクに有用な表現を提供することができることが示されている。
– 従来のロボット操作に関する先行研究では、凍結した事前学習済み特徴量が主に使用されてきたが、このアプローチでは最適なパフォーマンスに達することができず、フルモデルの微調整が重要であることが示されている。
– しかし、微調整は事前学習の視覚表現を妨げ、微調整タスクに向けて表現のドリフトを引き起こすため、元のモデルの多用性を失わせる。
– ‘ロスレス適応’を導入して、古典的な微調整のこの欠点を解決する。当社のパラメータ効率的なアダプターの適切な配置により、元の表現の変更なしに、凍結した事前学習済み表現と完全なエンドツーエンドの微調整の間のパフォーマンスギャップを大幅に減少させることができ、事前学習済みモデルの元の機能を保持することができる。
– ViTs、NFNets、およびResNetsの3つの主要なモデルアーキテクチャ(ImageNet-1K分類の教師あり学習、CLIP、BYOL、Visual MAEの自己教師ありの事前学習済みウェイト)について、3つのタスクドメインと35の個別のタスクで包括的な調査を行い、当社の主張がさまざまな設定で強く検証されていることを示す。

要約(オリジナル)

Recent works have shown that large models pretrained on common visual learning tasks can provide useful representations for a wide range of specialized perception problems, as well as a variety of robotic manipulation tasks. While prior work on robotic manipulation has predominantly used frozen pretrained features, we demonstrate that in robotics this approach can fail to reach optimal performance, and that fine-tuning of the full model can lead to significantly better results. Unfortunately, fine-tuning disrupts the pretrained visual representation, and causes representational drift towards the fine-tuned task thus leading to a loss of the versatility of the original model. We introduce ‘lossless adaptation’ to address this shortcoming of classical fine-tuning. We demonstrate that appropriate placement of our parameter efficient adapters can significantly reduce the performance gap between frozen pretrained representations and full end-to-end fine-tuning without changes to the original representation and thus preserving original capabilities of the pretrained model. We perform a comprehensive investigation across three major model architectures (ViTs, NFNets, and ResNets), supervised (ImageNet-1K classification) and self-supervised pretrained weights (CLIP, BYOL, Visual MAE) in 3 task domains and 35 individual tasks, and demonstrate that our claims are strongly validated in various settings.

arxiv情報

著者 Mohit Sharma,Claudio Fantacci,Yuxiang Zhou,Skanda Koppula,Nicolas Heess,Jon Scholz,Yusuf Aytar
発行日 2023-04-13 15:06:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク