HiBerNAC: Hierarchical Brain-emulated Robotic Neural Agent Collective for Disentangling Complex Manipulation

要約

マルチモーダルビジョン言語アクション(VLA)モデルの最近の進歩により、従来のロボット学習に革命をもたらし、システムが複雑なタスク計画のための統一フレームワークでビジョン、言語、およびアクションを解釈できるようになりました。
ただし、複雑な操作タスクの習得は、永続的なコンテキストメモリの制限、不確実性の下でのマルチエージェント調整、およびさまざまなシーケンス全体の動的な長期計画によって制約されるオープンな課題のままです。
この課題に対処するために、\ textbf {hibernac}、a \ textbf {hi} erarchical \ textbf {b} rain- \ textbf {e} mulated \ textbf {r} obotic \ textbf {n} eural \ eural \ textbf {a} gent \ textbf {cs} cs \ by by by by by cs
特に神経回路のメカニズムと階層的な意思決定における神経科学。
私たちのフレームワークは、(1)複雑なロボット操作タスクのために特別に設計された(2)ニューロ風の反射とマルチエージェントメカニズムを使用したマルチモーダルVLA計画と推論を組み合わせています。
分散化されたマルチエージェントコラボレーションでニューロ風の機能モジュールを活用することにより、このアプローチにより、複雑な操作タスクの堅牢でリアルタイムの実行が強化されます。
さらに、エージェントシステムは、ダイナミックエージェントの専門化を介してスケーラブルな集合インテリジェンスを示し、その調整戦略をさまざまなタスクの視野と複雑さに適応させます。
最先端のVLAモデルと比較して複雑な操作タスクに関する広範な実験を通じて、\ textBF {hibernac}が平均長距離タスクの完了時間を23%削減し、マルチパスのタスクで非ゼロの成功率(12 \ textendash 31 \%)を達成することを実証します。
これらの結果は、生物学的認知とロボット学習メカニズムを橋渡しするための示唆的な証拠を提供します。

要約(オリジナル)

Recent advances in multimodal vision-language-action (VLA) models have revolutionized traditional robot learning, enabling systems to interpret vision, language, and action in unified frameworks for complex task planning. However, mastering complex manipulation tasks remains an open challenge, constrained by limitations in persistent contextual memory, multi-agent coordination under uncertainty, and dynamic long-horizon planning across variable sequences. To address this challenge, we propose \textbf{HiBerNAC}, a \textbf{Hi}erarchical \textbf{B}rain-\textbf{e}mulated \textbf{r}obotic \textbf{N}eural \textbf{A}gent \textbf{C}ollective, inspired by breakthroughs in neuroscience, particularly in neural circuit mechanisms and hierarchical decision-making. Our framework combines: (1) multimodal VLA planning and reasoning with (2) neuro-inspired reflection and multi-agent mechanisms, specifically designed for complex robotic manipulation tasks. By leveraging neuro-inspired functional modules with decentralized multi-agent collaboration, our approach enables robust and enhanced real-time execution of complex manipulation tasks. In addition, the agentic system exhibits scalable collective intelligence via dynamic agent specialization, adapting its coordination strategy to variable task horizons and complexity. Through extensive experiments on complex manipulation tasks compared with state-of-the-art VLA models, we demonstrate that \textbf{HiBerNAC} reduces average long-horizon task completion time by 23\%, and achieves non-zero success rates (12\textendash 31\%) on multi-path tasks where prior state-of-the-art VLA models consistently fail. These results provide indicative evidence for bridging biological cognition and robotic learning mechanisms.

arxiv情報

著者 Hongjun Wu,Heng Zhang,Pengsong Zhang,Jin Wang,Cong Wang
発行日 2025-06-11 14:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク