要約
視覚入力を持つLLM、すなわち視覚言語モデル(VLM)は、状態情報を視覚的-テキスト的プロンプトとして処理し、テキストで方針決定を応答する能力を持つ。我々は、LLaRA: Large Language and Robotics Assistantを提案する。LLaRAは、ロボットの行動方針を会話として定式化するフレームワークであり、方針学習を補完する補助データを用いて訓練することで、より改善された行動出力を提供する。我々はまず、既存の行動クローニングデータから会話形式の命令チューニングデータを生成する自動化パイプラインを導入する。次に、6つの補助タスクを定式化することにより、自己教師ありの方法でデータセットを充実させる。得られたデータセットを用いて微調整されたVLMは、意味のあるロボットの行動方針決定を生成することができる。複数のシミュレーション環境と実環境における実験により、提案するLLaRAフレームワークの最先端の性能が実証された。コード、データセット、事前学習済みモデルはhttps://github.com/LostXine/LLaRA。
要約(オリジナル)
LLMs with visual inputs, i.e., Vision Language Models (VLMs), have the capacity to process state information as visual-textual prompts and respond with policy decisions in text. We propose LLaRA: Large Language and Robotics Assistant, a framework that formulates robot action policy as conversations and provides improved action outputs when trained with auxiliary data that complements policy learning. We first introduce an automated pipeline to generate conversation-style instruction tuning data from existing behavior cloning data. Then we enrich the dataset in a self-supervised fashion by formulating six auxiliary tasks. A VLM finetuned with the resulting collection of datasets can generate meaningful robot action policy decisions. Our experiments across multiple simulated and real-world environments demonstrate the state-of-the-art performance of the proposed LLaRA framework. The code, datasets, and pretrained models are available at https://github.com/LostXine/LLaRA.
arxiv情報
著者 | Xiang Li,Cristina Mata,Jongwoo Park,Kumara Kahatapitiya,Yoo Sung Jang,Jinghuan Shang,Kanchana Ranasinghe,Ryan Burgert,Mu Cai,Yong Jae Lee,Michael S. Ryoo |
発行日 | 2024-10-04 03:28:30+00:00 |
arxivサイト | arxiv_id(pdf) |