Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs

要約

本論文では、生成AIを用いた地図不要のオフロードナビゲーションのための大規模言語モデルの活用を探求し、従来のデータ収集とアノテーションの必要性を低減する。ロボットが口頭で指示を受け、Whisperを通してテキストに変換し、大規模言語モデル(LLM)モデルがランドマーク、好みの地形、制約のあるナビゲーションのための速度設定に変換された重要な副詞を抽出する方法を提案する。言語駆動型セマンティックセグメンテーションモデルは、画像内のランドマークや地形タイプを識別するためのテキストベースのマスクを生成する。カメラパラメータを用いて2次元画像点を車両の運動平面に変換することで、MPCコントローラは車両を目的の地形に向けて誘導することができる。このアプローチは、多様な環境への適応を強化し、複雑で困難な地形をナビゲートするための高レベル命令の使用を容易にする。

要約(オリジナル)

This paper explores leveraging large language models for map-free off-road navigation using generative AI, reducing the need for traditional data collection and annotation. We propose a method where a robot receives verbal instructions, converted to text through Whisper, and a large language model (LLM) model extracts landmarks, preferred terrains, and crucial adverbs translated into speed settings for constrained navigation. A language-driven semantic segmentation model generates text-based masks for identifying landmarks and terrain types in images. By translating 2D image points to the vehicle’s motion plane using camera parameters, an MPC controller can guides the vehicle towards the desired terrain. This approach enhances adaptation to diverse environments and facilitates the use of high-level instructions for navigating complex and challenging terrains.

arxiv情報

著者 Faraz Lotfi,Farnoosh Faraji,Nikhil Kakodkar,Travis Manderson,David Meger,Gregory Dudek
発行日 2024-04-02 20:46:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.RO パーマリンク