RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model

要約

ミニゴルフは、無数のコート レイアウトと複雑なボールの動きを備えたゲームで、身体化された知能の研究のための魅力的な現実世界のテストベッドを構成します。
空間的および運動力学的推論に挑戦するだけでなく、誤って設計されたコースに対処するための反射的および修正的な能力も必要とされるためです。
RoboGolf は、ネストされた VLM を活用した閉ループ制御と反射平衡ループでデュアルカメラの視覚入力を認識する VLM ベースのフレームワークです。
広範な実験により、フィニッシュ不可能なコートを含む難度の高いミニゴルフ コートにおけるロボゴルフの有効性が実証されています。

要約(オリジナル)

Minigolf, a game with countless court layouts, and complex ball motion, constitutes a compelling real-world testbed for the study of embodied intelligence. As it not only challenges spatial and kinodynamic reasoning but also requires reflective and corrective capacities to address erroneously designed courses. We introduce RoboGolf, a VLM-based framework that perceives dual-camera visual inputs with nested VLM-empowered closed-loop control and reflective equilibrium loop. Extensive experiments demonstrate the effectiveness of RoboGolf on challenging minigolf courts including those that are impossible to finish.

arxiv情報

著者 Hantao Zhou,Tianying Ji,Lukas Sommerhalder,Michael Goerner,Norman Hendrich,Jianwei Zhang,Fuchun Sun,Huazhe Xu
発行日 2024-07-15 15:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク