Language-Driven Closed-Loop Grasping with Model-Predictive Trajectory Replanning

要約

操作タスクにおけるロボットの \emph{シームレスな動作} のために、閉ループ制御システム内にビジョン モジュールを組み合わせるのは、使用するモジュール間で更新レートが一貫していないため、困難です。
このタスクは、オブジェクトが動いているなど、動的な環境ではさらに困難になります。
この論文では、リアルタイムの軌道再計画とオンライン 6D オブジェクトの姿勢位置特定を備えた閉ループ制御システムを介して、(動的) オブジェクトを言語駆動で操作するための \emph{modular} ゼロショット フレームワークを紹介します。
言語コマンドを介して視覚言語モデルを活用することで、$\SI{0.5}{\second}$ 内のオブジェクトをセグメント化します。
次に、自然言語コマンドに基づいて、統合された姿勢推定と追跡、およびオンライン軌道計画を含む閉ループ システムを利用して、このオブジェクトを継続的に追跡し、最適な軌道をリアルタイムで計算します。
私たちが提案するゼロショット フレームワークは、ぎくしゃくした動きを回避し、ロボットが非静止物体を確実に把握できるようにする滑らかな軌道を提供します。
実験結果は、軌道最適化モジュール用に提案されたゼロショット モジュラー フレームワークのリアルタイム機能、つまりオンライン 6D 姿勢位置特定の最大 \SI{30}{\hertz} 更新レートで移動物体を正確かつ効率的に把握できることを示しています。
モジュールと \SI{10}{\hertz} は、後退地平線軌道の最適化のためのレートを更新します。
これらの利点は、ロボット工学および人間とロボットのインタラクションにおけるモジュラー フレームワークの潜在的なアプリケーションを強調しています。
https://www.acin.tuwien.ac.at/en/6e64/ のビデオをご覧ください。

要約(オリジナル)

Combining a vision module inside a closed-loop control system for a \emph{seamless movement} of a robot in a manipulation task is challenging due to the inconsistent update rates between utilized modules. This task is even more difficult in a dynamic environment, e.g., objects are moving. This paper presents a \emph{modular} zero-shot framework for language-driven manipulation of (dynamic) objects through a closed-loop control system with real-time trajectory replanning and an online 6D object pose localization. We segment an object within $\SI{0.5}{\second}$ by leveraging a vision language model via language commands. Then, guided by natural language commands, a closed-loop system, including a unified pose estimation and tracking and online trajectory planning, is utilized to continuously track this object and compute the optimal trajectory in real-time. Our proposed zero-shot framework provides a smooth trajectory that avoids jerky movements and ensures the robot can grasp a non-stationary object. Experiment results exhibit the real-time capability of the proposed zero-shot modular framework for the trajectory optimization module to accurately and efficiently grasp moving objects, i.e., up to \SI{30}{\hertz} update rates for the online 6D pose localization module and \SI{10}{\hertz} update rates for the receding-horizon trajectory optimization. These advantages highlight the modular framework’s potential applications in robotics and human-robot interaction; see the video in https://www.acin.tuwien.ac.at/en/6e64/.

arxiv情報

著者 Huy Hoang Nguyen,Minh Nhat Vu,Florian Beck,Gerald Ebmer,Anh Nguyen,Andreas Kugi
発行日 2024-06-19 11:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク