要約
私たちは、ジェネレーティブAIによって駆動されるロボット工学の進化を表す、新しいコンセプト「エボリューション6.0」を提案する。ロボットが人間から要求されたタスクを達成するために必要な道具が不足している場合、ロボットは自律的に必要な道具を設計し、目標を達成するための道具の使い方を学習する。エボリューション6.0は、視覚言語モデル(VLM)、視覚言語アクション(VLA)モデル、および道具の設計とタスク実行のためのテキストから3Dへの生成モデルによって駆動される自律ロボットシステムである。このシステムは2つの主要なモジュールから構成される。視覚とテキストデータからタスクに特化したツールを作成するツール生成モジュールと、自然言語の指示をロボットのアクションに変換するアクション生成モジュールである。環境理解のためのQwenVLM、タスク実行のためのOpenVLA、3Dツール生成のためのLlama-Meshが統合されている。評価結果は、10秒の推論時間で90%の道具生成成功率を示し、行動生成は物理的・視覚的汎化で83.5%、動作汎化で70%、意味的汎化で37%を達成した。今後の改良点としては、実世界への適応性を向上させるため、両手操作、タスク機能の拡張、環境解釈の強化に焦点を当てる。
要約(オリジナル)
We propose a new concept, Evolution 6.0, which represents the evolution of robotics driven by Generative AI. When a robot lacks the necessary tools to accomplish a task requested by a human, it autonomously designs the required instruments and learns how to use them to achieve the goal. Evolution 6.0 is an autonomous robotic system powered by Vision-Language Models (VLMs), Vision-Language Action (VLA) models, and Text-to-3D generative models for tool design and task execution. The system comprises two key modules: the Tool Generation Module, which fabricates task-specific tools from visual and textual data, and the Action Generation Module, which converts natural language instructions into robotic actions. It integrates QwenVLM for environmental understanding, OpenVLA for task execution, and Llama-Mesh for 3D tool generation. Evaluation results demonstrate a 90% success rate for tool generation with a 10-second inference time, and action generation achieving 83.5% in physical and visual generalization, 70% in motion generalization, and 37% in semantic generalization. Future improvements will focus on bimanual manipulation, expanded task capabilities, and enhanced environmental interpretation to improve real-world adaptability.
arxiv情報
著者 | Muhammad Haris Khan,Artyom Myshlyaev,Artem Lykov,Miguel Altamirano Cabrera,Dzmitry Tsetserukou |
発行日 | 2025-04-04 10:42:39+00:00 |
arxivサイト | arxiv_id(pdf) |