Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets

要約

命令アクション(IA)データペアは、ロボットシステム、特に自動運転車(AV)のトレーニングに役立ちますが、人間が手動でこのデータを注釈付けすることは、費用がかかり、時間がかかりません。
このホワイトペーパーでは、モバイルアプリケーショングローバルポジショニングシステム(GPS)参照と自然言語処理(NLP)を使用して、人間が生成または遡及的にデータを生成または遡及的にタグ付けすることなく、大量のIAコマンドと応答を自動的に生成する可能性を調査します。
パイロットデータの収集では、さまざまな目的地まで走行し、GPSアプリケーションから音声命令を収集することにより、多様な一連の命令を収集および分類する手段を実証し、さらにビデオデータを伴って完全なビジョン言語アクショントライアドを形成します。
完全に自動化されたデータ収集プロトタイプシステムであるAdvlat-Engineの詳細を提供します。
収集されたGPSの音声命令を8つの異なる分類に特徴付け、自由に利用可能なモバイルアプリケーションからのキュレーションに利用できるコマンドと参照性の幅を強調しています。
GPS参照を使用してIAデータペアの自動化の研究と調査を通じて、高品質のIAデータセットが作成される速度と量を増やす可能性がありますが、コストを最小限に抑えながら、堅牢な視覚言語アクション(VLA)モデルが視覚障害ナビゲーション(VLN)と人間のインタラクティブな自動的なシステムのタスクを提供する方法を開くことができます。

要約(オリジナル)

Instruction-Action (IA) data pairs are valuable for training robotic systems, especially autonomous vehicles (AVs), but having humans manually annotate this data is costly and time-inefficient. This paper explores the potential of using mobile application Global Positioning System (GPS) references and Natural Language Processing (NLP) to automatically generate large volumes of IA commands and responses without having a human generate or retroactively tag the data. In our pilot data collection, by driving to various destinations and collecting voice instructions from GPS applications, we demonstrate a means to collect and categorize the diverse sets of instructions, further accompanied by video data to form complete vision-language-action triads. We provide details on our completely automated data collection prototype system, ADVLAT-Engine. We characterize collected GPS voice instructions into eight different classifications, highlighting the breadth of commands and referentialities available for curation from freely available mobile applications. Through research and exploration into the automation of IA data pairs using GPS references, the potential to increase the speed and volume at which high-quality IA datasets are created, while minimizing cost, can pave the way for robust vision-language-action (VLA) models to serve tasks in vision-language navigation (VLN) and human-interactive autonomous systems.

arxiv情報

著者 Guillermo Roque,Erika Maquiling,Jose Giovanni Tapia Lopez,Ross Greer
発行日 2025-05-06 04:38:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク