ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models

要約

大規模な言語モデルの最近の進歩と大規模なロボットデータセットへのアクセスは、ロボットモデルのパラダイムシフトを引き起こし、それらをさまざまなタスク、シーン、ロボットのモダリティに適応できるジェネラリストに変換されました。
コミュニティにとって大きなステップは、さまざまなタスクで強力なパフォーマンスを示すオープンビジョン言語アクションモデルです。
この作業では、3つの既存のロボット基礎モデルの視覚的一般化機能を研究し、対応する評価フレームワークを提案します。
私たちの研究は、既存のモデルが視覚的な領域外シナリオに堅牢性を示さないことを示しています。
これは、トレーニングデータの限られた変動および/または壊滅的な忘却によって引き起こされる可能性があり、Vision Foundationモデルのドメインの制限につながります。
さらに、2つの事前に訓練されたVision Foundationモデルを使用しているOpenVLAを探索し、したがって、ドメイン外の実験に一般化することが期待されています。
ただし、深度回帰のタスクを満たすことができないことにより、dino-V2による壊滅的な忘却をOpenVLAに忘れてしまいます。
視覚壊滅的な忘却の前述の問題を克服するために、モデルの合併に基づいた漸進的なバックボーン反転アプローチを提案します。
これにより、視覚的な一般化能力を取り戻すために、最初のトレーニング中に視覚的なバックボーンを適応させる必要があるOpenVLAが可能になります。
この機能を取り戻すことにより、REVLAモデルは、視覚的なoodタスクでの把握と持ち上げのために、OpenVLAを77%、66%増加させることができます。

要約(オリジナル)

Recent progress in large language models and access to large-scale robotic datasets has sparked a paradigm shift in robotics models transforming them into generalists able to adapt to various tasks, scenes, and robot modalities. A large step for the community are open Vision Language Action models which showcase strong performance in a wide variety of tasks. In this work, we study the visual generalization capabilities of three existing robotic foundation models, and propose a corresponding evaluation framework. Our study shows that the existing models do not exhibit robustness to visual out-of-domain scenarios. This is potentially caused by limited variations in the training data and/or catastrophic forgetting, leading to domain limitations in the vision foundation models. We further explore OpenVLA, which uses two pre-trained vision foundation models and is, therefore, expected to generalize to out-of-domain experiments. However, we showcase catastrophic forgetting by DINO-v2 in OpenVLA through its failure to fulfill the task of depth regression. To overcome the aforementioned issue of visual catastrophic forgetting, we propose a gradual backbone reversal approach founded on model merging. This enables OpenVLA which requires the adaptation of the visual backbones during initial training — to regain its visual generalization ability. Regaining this capability enables our ReVLA model to improve over OpenVLA by a factor of 77% and 66% for grasping and lifting in visual OOD tasks .

arxiv情報

著者 Sombit Dey,Jan-Nico Zaech,Nikolay Nikolov,Luc Van Gool,Danda Pani Paudel
発行日 2025-03-13 12:18:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク