要約
デュアルシステムVLA(Vision-Language-action)アーキテクチャは、具体化されたインテリジェンス研究のホットトピックとなっていますが、さらなるパフォーマンス分析と最適化に十分なオープンソース作業が不足しています。
この問題に対処するために、このペーパーでは、既存のデュアルシステムアーキテクチャの構造設計を要約および比較し、既存のデュアルシステムアーキテクチャのコア設計要素に関する体系的な経験的評価を実施します。
最終的には、さらなる調査のための低コストのオープンソースモデルを提供します。
もちろん、このプロジェクトは、より実験的な結論とオープンソースモデルで引き続き更新され、誰もが選択できるパフォーマンスが向上します。
プロジェクトページ:https://openhelix-robot.github.io/。
要約(オリジナル)
Dual-system VLA (Vision-Language-Action) architectures have become a hot topic in embodied intelligence research, but there is a lack of sufficient open-source work for further performance analysis and optimization. To address this problem, this paper will summarize and compare the structural designs of existing dual-system architectures, and conduct systematic empirical evaluations on the core design elements of existing dual-system architectures. Ultimately, it will provide a low-cost open-source model for further exploration. Of course, this project will continue to update with more experimental conclusions and open-source models with improved performance for everyone to choose from. Project page: https://openhelix-robot.github.io/.
arxiv情報
著者 | Can Cui,Pengxiang Ding,Wenxuan Song,Shuanghao Bai,Xinyang Tong,Zirui Ge,Runze Suo,Wanqi Zhou,Yang Liu,Bofang Jia,Han Zhao,Siteng Huang,Donglin Wang |
発行日 | 2025-05-06 18:35:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google