Innovative Integration of Visual Foundation Model with a Robotic Arm on a Mobile Platform

要約

急速に進歩するロボット工学の分野では、最先端のビジュアルテクノロジーとモバイルロボットアームの融合が重要な統合として浮上しています。
この論文では、トランスフォーマーベースの視覚基盤モデルであるセグメント エニシング モデル (SAM) とモバイル プラットフォーム上のロボット アームを組み合わせた新しいシステムを紹介します。
ロボットアームのエンドエフェクターに深度カメラを統合する設計により、継続的な物体追跡が保証され、環境の不確実性が大幅に軽減されます。
モバイル プラットフォームに展開することで、当社の把握システムは機動性が向上し、適応性が重要となる動的な環境で重要な役割を果たします。
この合成により、動的なオブジェクトのセグメント化、追跡、および把握が可能になります。
また、ユーザー インタラクションも向上し、従来のロボット システムを超えて、ロボットがクリック、描画、音声コマンドなどのさまざまなモダリティに直感的に応答できるようになります。
シミュレーションと現実世界の両方での経験的評価により、システムの機能が実証されます。
この構成により、産業環境、農業、家事から専門的な任務まで、幅広い用途に道が開かれます。

要約(オリジナル)

In the rapidly advancing field of robotics, the fusion of state-of-the-art visual technologies with mobile robotic arms has emerged as a critical integration. This paper introduces a novel system that combines the Segment Anything model (SAM) — a transformer-based visual foundation model — with a robotic arm on a mobile platform. The design of integrating a depth camera on the robotic arm’s end-effector ensures continuous object tracking, significantly mitigating environmental uncertainties. By deploying on a mobile platform, our grasping system has an enhanced mobility, playing a key role in dynamic environments where adaptability are critical. This synthesis enables dynamic object segmentation, tracking, and grasping. It also elevates user interaction, allowing the robot to intuitively respond to various modalities such as clicks, drawings, or voice commands, beyond traditional robotic systems. Empirical assessments in both simulated and real-world demonstrate the system’s capabilities. This configuration opens avenues for wide-ranging applications, from industrial settings, agriculture, and household tasks, to specialized assignments and beyond.

arxiv情報

著者 Shimian Zhang,Qiuhong Lu
発行日 2024-04-29 14:10:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク