Imagine2Servo: Intelligent Visual Servoing with Diffusion-Driven Goal Generation for Robotic Tasks

要約

視覚サーボは、視覚センサーからのフィードバックを通じてロボットの動きを制御する方法であり、オプティカル フロー ベースの方法の統合により大幅に進歩しました。
ただし、その用途は、テスト時のターゲット画像の必要性、初期画像とターゲット画像間の大幅な重複の要件、単一カメラからのフィードバックへの依存など、固有の課題によって依然として制限されています。
このペーパーでは、拡散ベースの画像編集技術を活用し、中間目標画像を生成することで視覚的サーボ アルゴリズムを強化する革新的なアプローチである Imagine2Servo を紹介します。
この方法論により、従来の制約を超えたビジュアル サーボ アプリケーションの拡張が可能になり、事前定義されたゴール画像なしで長距離ナビゲーションや操作などのタスクが可能になります。
私たちは、当面のタスクに基づいてサブゴール画像を合成するパイプラインを提案します。これにより、初期画像とターゲット画像の重複を最小限に抑えたシナリオでのサーボ処理が容易になり、包括的なタスク実行のためにマルチカメラのフィードバックが統合されます。
私たちの貢献は、ロボット制御への画像生成の新しい応用を実証し、ビジュアル サーボ システムの機能を大幅に拡大します。
実世界の実験では、さまざまなタスクを実行する際の Imagine2Servo フレームワークの有効性と多用途性が検証され、ビジュアル サーボの分野で顕著な進歩が見られます。

要約(オリジナル)

Visual servoing, the method of controlling robot motion through feedback from visual sensors, has seen significant advancements with the integration of optical flow-based methods. However, its application remains limited by inherent challenges, such as the necessity for a target image at test time, the requirement of substantial overlap between initial and target images, and the reliance on feedback from a single camera. This paper introduces Imagine2Servo, an innovative approach leveraging diffusion-based image editing techniques to enhance visual servoing algorithms by generating intermediate goal images. This methodology allows for the extension of visual servoing applications beyond traditional constraints, enabling tasks like long-range navigation and manipulation without predefined goal images. We propose a pipeline that synthesizes subgoal images grounded in the task at hand, facilitating servoing in scenarios with minimal initial and target image overlap and integrating multi-camera feedback for comprehensive task execution. Our contributions demonstrate a novel application of image generation to robotic control, significantly broadening the capabilities of visual servoing systems. Real-world experiments validate the effectiveness and versatility of the Imagine2Servo framework in accomplishing a variety of tasks, marking a notable advancement in the field of visual servoing.

arxiv情報

著者 Pranjali Pathre,Gunjan Gupta,M. Nomaan Qureshi,Mandyam Brunda,Samarth Brahmbhatt,K. Madhava Krishna
発行日 2024-12-08 02:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク