要約
この研究では、Bi-VLA (Vision-Language-Action) モデルを導入します。これは、シーンを理解するための視覚、人間の指示を実行可能なコードに変換するための言語理解、および物理的アクションの生成をシームレスに統合する、両手ロボットの器用な操作のために設計された新しいシステムです。
人間の要求に応じて好みのサラダを準備するなど、一連の家事を通じてシステムの機能を評価しました。
Bi-VLA は、複雑な人間の指示を解釈し、食材の視覚的なコンテキストを認識して理解し、要求されたサラダを準備するために正確な両手操作を実行する能力を実証します。
私たちは一連の実験を通じて、精度、効率、さまざまなサラダのレシピや人間の好みへの適応性の観点からシステムのパフォーマンスを評価しました。
その結果、言語モジュールによる正しい実行可能コードの生成の成功率は 100%、ビジョン モジュールによる特定の要素の検出の成功率は 96.06%、ユーザーが要求したタスクを正しく実行する全体の成功率は 83.4% であることがわかりました。
要約(オリジナル)
This research introduces the Bi-VLA (Vision-Language-Action) model, a novel system designed for bimanual robotic dexterous manipulation that seamlessly integrates vision for scene understanding, language comprehension for translating human instructions into executable code, and physical action generation. We evaluated the system’s functionality through a series of household tasks, including the preparation of a desired salad upon human request. Bi-VLA demonstrates the ability to interpret complex human instructions, perceive and understand the visual context of ingredients, and execute precise bimanual actions to prepare the requested salad. We assessed the system’s performance in terms of accuracy, efficiency, and adaptability to different salad recipes and human preferences through a series of experiments. Our results show a 100% success rate in generating the correct executable code by the Language Module, a 96.06% success rate in detecting specific ingredients by the Vision Module, and an overall success rate of 83.4% in correctly executing user-requested tasks.
arxiv情報
著者 | Koffivi Fidèle Gbagbe,Miguel Altamirano Cabrera,Ali Alabbas,Oussama Alyunes,Artem Lykov,Dzmitry Tsetserukou |
発行日 | 2024-08-19 14:05:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google