MResT: Multi-Resolution Sensing for Real-Time Control with Vision-Language Models

要約

さまざまな空間的および時間的解像度にわたってセンシング モダリティを活用すると、ロボット操作タスクのパフォーマンスを向上させることができます。
マルチ空間解像度センシングは、さまざまな空間スケールでキャプチャされた階層情報を提供し、粗い動きと正確な動きの両方を可能にします。
同時に複数の時間分解能をセンシングすることにより、エージェントは高い反応性とリアルタイム制御を発揮できるようになります。
この研究では、さまざまな容量のネットワークを使用して、さまざまな空間的および時間的解像度でのセンシングを利用して、正確で正確なリアルタイム制御を効果的に実行する、一般化可能な言語条件付きマルチタスクポリシーを学習するためのフレームワーク、MResT (Multi-Resolution Transformer) を提案します。
リアクティブなタスク。
私たちは、既製の事前トレーニング済み視覚言語モデルを活用して、低周波のグローバルな特徴を操作するとともに、事前トレーニングされていない小さなモデルを高周波のローカル フィードバックに適応させます。
3 つのドメイン (粗い操作タスク、精密な操作タスク、動的操作タスク) での広範な実験を通じて、私たちのアプローチが最近のマルチタスクのベースラインに比べて大幅に改善 (平均 2 倍) することを示しました。
さらに、私たちのアプローチは、ターゲットオブジェクトの視覚的および幾何学的変化、およびさまざまな相互作用力をよく一般化します。

要約(オリジナル)

Leveraging sensing modalities across diverse spatial and temporal resolutions can improve performance of robotic manipulation tasks. Multi-spatial resolution sensing provides hierarchical information captured at different spatial scales and enables both coarse and precise motions. Simultaneously multi-temporal resolution sensing enables the agent to exhibit high reactivity and real-time control. In this work, we propose a framework, MResT (Multi-Resolution Transformer), for learning generalizable language-conditioned multi-task policies that utilize sensing at different spatial and temporal resolutions using networks of varying capacities to effectively perform real time control of precise and reactive tasks. We leverage off-the-shelf pretrained vision-language models to operate on low-frequency global features along with small non-pretrained models to adapt to high frequency local feedback. Through extensive experiments in 3 domains (coarse, precise and dynamic manipulation tasks), we show that our approach significantly improves (2X on average) over recent multi-task baselines. Further, our approach generalizes well to visual and geometric variations in target objects and to varying interaction forces.

arxiv情報

著者 Saumya Saxena,Mohit Sharma,Oliver Kroemer
発行日 2024-01-25 20:39:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク