RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model

要約

ミニゴルフは、身体化された知性を調べるための模範的な現実世界のゲームであり、ボールをパットするには困難な空間的および運動力学的理解を必要とします。
さらに、挑戦の実現可能性が保証されていない場合には、反省的な推論が必要です。
RoboGolf は、デュアル カメラの認識と閉ループ アクションの洗練を組み合わせ、反射平衡ループによって強化された VLM ベースのフレームワークです。
両方のループのコアは、微調整された VLM によって強化されています。
記録された広範な軌跡に基づいて、オフライン推論設定でフレームワークの機能を分析します。
分析された問題ドメインの例示的なデモンストレーションは、https://jity16.github.io/RoboGolf/ で入手できます。

要約(オリジナル)

Minigolf is an exemplary real-world game for examining embodied intelligence, requiring challenging spatial and kinodynamic understanding to putt the ball. Additionally, reflective reasoning is required if the feasibility of a challenge is not ensured. We introduce RoboGolf, a VLM-based framework that combines dual-camera perception with closed-loop action refinement, augmented by a reflective equilibrium loop. The core of both loops is powered by finetuned VLMs. We analyze the capabilities of the framework in an offline inference setting, relying on an extensive set of recorded trajectories. Exemplary demonstrations of the analyzed problem domain are available at https://jity16.github.io/RoboGolf/

arxiv情報

著者 Hantao Zhou,Tianying Ji,Lukas Sommerhalder,Michael Goerner,Norman Hendrich,Jianwei Zhang,Fuchun Sun,Huazhe Xu
発行日 2024-07-18 15:40:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク