A Survey on Vision-Language-Action Models for Embodied AI

要約

ディープラーニングは、コンピュータービジョン、自然言語処理、強化学習など、多くの分野で目覚ましい成功を収めています。
これらの分野における代表的な人工ニューラル ネットワークには、畳み込みニューラル ネットワーク、トランスフォーマー、ディープ Q ネットワークがあります。
ユニモーダル ニューラル ネットワークに基づいて構築され、視覚的な質問応答、画像キャプション、音声認識などのさまざまなタスクに対処するために、多数のマルチモーダル モデルが導入されています。
身体化された AI における命令に従うロボット ポリシーの台頭により、ビジョン-言語-アクション モデル (VLA) として知られる新しいカテゴリのマルチモーダル モデルの開発が促進されました。
そのマルチモダリティ機能は、ロボット学習の基礎的な要素となっています。
多用途性、器用さ、汎用性などの特性を強化するために、さまざまな方法が提案されています。
一部のモデルは、事前トレーニングを通じて特定のコンポーネントを改良することに重点を置いています。
低レベルのアクションを予測することに優れた制御ポリシーを開発することを目的とするものもあります。
特定の VLA は、長期にわたるタスクを実行可能なサブタスクに分解できる高レベルのタスク プランナーとして機能します。
過去数年間で、身体化型 AI の急速な進歩を反映して、無数の VLA が登場しました。
したがって、包括的な調査を通じて進化する状況を把握することが不可欠です。

要約(オリジナル)

Deep learning has demonstrated remarkable success across many domains, including computer vision, natural language processing, and reinforcement learning. Representative artificial neural networks in these fields span convolutional neural networks, Transformers, and deep Q-networks. Built upon unimodal neural networks, numerous multi-modal models have been introduced to address a range of tasks such as visual question answering, image captioning, and speech recognition. The rise of instruction-following robotic policies in embodied AI has spurred the development of a novel category of multi-modal models known as vision-language-action models (VLAs). Their multi-modality capability has become a foundational element in robot learning. Various methods have been proposed to enhance traits such as versatility, dexterity, and generalizability. Some models focus on refining specific components through pretraining. Others aim to develop control policies adept at predicting low-level actions. Certain VLAs serve as high-level task planners capable of decomposing long-horizon tasks into executable subtasks. Over the past few years, a myriad of VLAs have emerged, reflecting the rapid advancement of embodied AI. Therefore, it is imperative to capture the evolving landscape through a comprehensive survey.

arxiv情報

著者 Yueen Ma,Zixing Song,Yuzheng Zhuang,Jianye Hao,Irwin King
発行日 2024-05-23 01:43:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.RO パーマリンク