Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust

要約

大規模なインターネットデータやロボットのデモンストレーションで学習された視覚言語行動(VLA)モデルは、汎用のロボット政策として役立つ可能性がある。しかし、大規模な学習にもかかわらず、VLAはしばしば、注意散漫な物体や背景色などのタスクに無関係な視覚的詳細に対して脆弱である。我々は、BYOVLA(Bring Your Own VLA)を紹介する。BYOVLAは、(1)モデルが敏感な入力画像の領域を動的に特定し、(2)自動画像編集ツールを用いて、モデルの感度を下げるためにタスクに無関係な領域を最小限に変更する、実行時介入スキームである。我々のアプローチは、モデルの微調整やモデルの重みへのアクセスを必要としない、市販のVLAと互換性がある。言語で指示された操作タスクに関するハードウェア実験では、BYOVLAを使用することで、タスクの成功率を最大40%低下させるような注意散漫な物体や背景が存在する場合でも、最先端のVLAモデルが公称性能をほぼ維持できることが実証されています。追加情報、ビデオ、コードを含むウェブサイト: https://aasherh.github.io/byovla/ .

要約(オリジナル)

Vision-language-action (VLA) models trained on large-scale internet data and robot demonstrations have the potential to serve as generalist robot policies. However, despite their large-scale training, VLAs are often brittle to task-irrelevant visual details such as distractor objects or background colors. We introduce Bring Your Own VLA (BYOVLA): a run-time intervention scheme that (1) dynamically identifies regions of the input image that the model is sensitive to, and (2) minimally alters task-irrelevant regions to reduce the model’s sensitivity using automated image editing tools. Our approach is compatible with any off the shelf VLA without model fine-tuning or access to the model’s weights. Hardware experiments on language-instructed manipulation tasks demonstrate that BYOVLA enables state-of-the-art VLA models to nearly retain their nominal performance in the presence of distractor objects and backgrounds, which otherwise degrade task success rates by up to 40%. Website with additional information, videos, and code: https://aasherh.github.io/byovla/ .

arxiv情報

著者 Asher J. Hancock,Allen Z. Ren,Anirudha Majumdar
発行日 2024-10-02 19:29:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク