CognitiveOS: Large Multimodal Model based System to Endow Any Type of Robot with Generative AI

要約

この文書では、多様なロボット プラットフォームにわたって機能できる認知ロボット用に設計された最初のオペレーティング システムである CognitiveOS について紹介します。
CognitiveOS は、トランスフォーマー アーキテクチャに基づいて構築されたモジュールで構成されるマルチエージェント システムとして構造化されており、内部モノローグ形式を介した通信を容易にします。
これらのモジュールを組み合わせることで、ロボットが現実世界の複雑なタスクに取り組むことができるようになります。
この文書では、システムの動作原理とその 9 つの異なるモジュールの説明が説明されています。
モジュラー設計により、特に適応性と拡張性の点で、従来のエンドツーエンドの方法論に比べて顕著な利点がシステムに与えられます。
システムのモジュールは、タスクの要件に応じて構成、変更、または無効化が可能であり、新しいモジュールはシームレスに統合できます。
このシステムは、認知ロボット分野の研究者や開発者にとって基礎的なリソースとして機能し、認知ロボット システムをゼロから構築する負担を軽減します。
実験結果は、このシステムの高度なタスク理解力と、さまざまなタスク、ロボット プラットフォーム、モジュール構成にわたる適応性を実証し、現実世界のアプリケーションでの可能性を強調しています。
さらに、Reasoning のカテゴリーでは CognitiveDog (15%) や RT2 (31%) を上回り、これまでで最高の 77% を達成しました。
CognitiveOS のレプリケーション用のコード リポジトリとデータセットを提供します。リンクはカメラ対応の提出で提供されます。

要約(オリジナル)

This paper introduces CognitiveOS, the first operating system designed for cognitive robots capable of functioning across diverse robotic platforms. CognitiveOS is structured as a multi-agent system comprising modules built upon a transformer architecture, facilitating communication through an internal monologue format. These modules collectively empower the robot to tackle intricate real-world tasks. The paper delineates the operational principles of the system along with descriptions of its nine distinct modules. The modular design endows the system with distinctive advantages over traditional end-to-end methodologies, notably in terms of adaptability and scalability. The system’s modules are configurable, modifiable, or deactivatable depending on the task requirements, while new modules can be seamlessly integrated. This system serves as a foundational resource for researchers and developers in the cognitive robotics domain, alleviating the burden of constructing a cognitive robot system from scratch. Experimental findings demonstrate the system’s advanced task comprehension and adaptability across varied tasks, robotic platforms, and module configurations, underscoring its potential for real-world applications. Moreover, in the category of Reasoning it outperformed CognitiveDog (by 15%) and RT2 (by 31%), achieving the highest to date rate of 77%. We provide a code repository and dataset for the replication of CognitiveOS: link will be provided in camera-ready submission.

arxiv情報

著者 Artem Lykov,Mikhail Konenkov,Koffivi Fidèle Gbagbe,Mikhail Litvinov,Denis Davletshin,Aleksey Fedoseev,Miguel Altamirano Cabrera,Robinroy Peter,Dzmitry Tsetserukou
発行日 2024-03-19 14:54:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク