要約
基盤モデル、たとえば大規模な言語モデルは、実際の複雑で構造化されていないタスクをナビゲートするために必要な文脈の理解をロボットに与えることを約束する知性の属性を備えています。
宇宙ロボット工学の将来には、宇宙ベースのアプリケーションに適応した基礎モデルの使用を動機付ける 3 つの主要な課題があると考えられます。 1) 地上での運用の拡張性。
2) 事前の知識を新しい環境に一般化する。
3) タスクとセンサーデータのマルチモダリティ。
したがって、宇宙ベースのアプリケーションの基礎モデルの構築に向けた最初のステップとして、AI4Mars データセットに自動的にラベルを付け、視覚的な質問と回答のタプルの言語注釈付きデータセットをキュレーションします。
このデータセットで事前トレーニングされた LLaVA チェックポイントを微調整して、視覚言語モデルに火星の表面で空間推論とナビゲーションを実行する機能を与えます。
この研究では、1) 既存の視覚言語モデルは宇宙ベースのアプリケーションでは視覚的推論が不十分であること、2) 地球外データに基づいて視覚言語モデルを微調整することで、限られたトレーニング データセットでも応答の品質が大幅に向上することを実証します。
わずか数千のサンプルから。
要約(オリジナル)
Foundation models, e.g., large language models, possess attributes of intelligence which offer promise to endow a robot with the contextual understanding necessary to navigate complex, unstructured tasks in the wild. In the future of space robotics, we see three core challenges which motivate the use of a foundation model adapted to space-based applications: 1) Scalability of ground-in-the-loop operations; 2) Generalizing prior knowledge to novel environments; and 3) Multi-modality in tasks and sensor data. Therefore, as a first-step towards building a foundation model for space-based applications, we automatically label the AI4Mars dataset to curate a language annotated dataset of visual-question-answer tuples. We fine-tune a pretrained LLaVA checkpoint on this dataset to endow a vision-language model with the ability to perform spatial reasoning and navigation on Mars’ surface. In this work, we demonstrate that 1) existing vision-language models are deficient visual reasoners in space-based applications, and 2) fine-tuning a vision-language model on extraterrestrial data significantly improves the quality of responses even with a limited training dataset of only a few thousand samples.
arxiv情報
著者 | Matthew Foutter,Praneet Bhoj,Rohan Sinha,Amine Elhafsi,Somrita Banerjee,Christopher Agia,Justin Kruger,Tommaso Guffanti,Daniele Gammelli,Simone D’Amico,Marco Pavone |
発行日 | 2024-08-12 05:07:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google