Bi-VLA: Vision-Language-Action Model-Based System for Bimanual Robotic Dexterous Manipulations

要約

この研究では、視覚、言語理解、身体動作をシームレスに統合する両手ロボットの器用な操作のために設計された新しいシステムである Bi-VLA (Vision-Language-Action) モデルを紹介します。
このシステムの機能は、人間の要求に応じて希望のサラダを準備するなど、一連の家事を通じて評価されました。
Bi-VLA は、複雑な人間の指示を解釈し、食材の視覚的なコンテキストを認識して理解し、要求されたサラダを組み立てるために正確な両手操作を実行する能力を実証します。
一連の実験を通じて、精度、効率、さまざまなサラダのレシピや人間の好みへの適応性の観点からシステムのパフォーマンスを評価します。
私たちの結果は、ユーザーが要求したタスクから言語モジュールによって正しい実行可能コードを生成する際の 100% という高い成功率を示しています。
ビジョン モジュールは、特定の成分の検出では 96.06% の成功率を達成し、複数の成分のリストの検出では 83.4% の成功率を達成しました。

要約(オリジナル)

This research introduces the Bi-VLA (Vision-Language-Action) model, a novel system designed for bimanual robotic dexterous manipulations that seamlessly integrate vision, language understanding, and physical action. The system’s functionality was evaluated through a set of household tasks, including the preparation of a desired salad upon human request. Bi-VLA demonstrates the ability to interpret complex human instructions, perceive and understand the visual context of ingredients, and execute precise bimanual actions to assemble the requested salad. Through a series of experiments, we evaluate the system’s performance in terms of accuracy, efficiency, and adaptability to various salad recipes and human preferences. Our results indicate a high success rate of 100% in generating the correct executable code by the Language module from the user-requested tasks. The Vision Module achieved a success rate of 96.06% in detecting specific ingredients and an 83.4% success rate in detecting a list of multiple ingredients.

arxiv情報

著者 Koffivi Fidèle Gbagbe,Miguel Altamirano Cabrera,Ali Alabbas,Oussama Alyunes,Artem Lykov,Dzmitry Tsetserukou
発行日 2024-05-09 18:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク