Neuro-LIFT: A Neuromorphic, LLM-based Interactive Framework for Autonomous Drone FlighT at the Edge

要約

自律システムへの人間の直感的な相互作用の統合は限られています。
従来の自然言語処理(NLP)システムは、人間とロボットの相互作用を厳しく制限し、コンテキストと意図的な理解と闘っています。
大規模な言語モデル(LLMS)の最近の進歩により、この動的なものが変化し、音声とテキストを通じて直感的で高レベルのコミュニケーションが可能になり、人間のコマンドとロボットアクションのギャップが架かることができました。
さらに、自律的なナビゲーションは、ロボット研究の中心的な焦点として浮上しており、これらのシステムを強化するために人工知能(AI)がますます活用されています。
ただし、既存のAIベースのナビゲーションアルゴリズムは、迅速な意思決定が重要な潜在的な批判的なタスクの重要な課題に直面しています。
従来のフレームベースのビジョンシステムは、高レベルの意思決定に効果的ですが、高エネルギー消費と遅延に悩まされ、リアルタイムシナリオでの適用性を制限します。
イベントベースのカメラとスパイクニューラルネットワーク(SNNS)を組み合わせた神経型ビジョンシステムは、エネルギー効率の低い低遅延ナビゲーションを可能にすることにより、有望な代替手段を提供します。
その可能性にもかかわらず、これらのシステムの実世界の実装、特にドローンなどの物理的なプラットフォームでは、依然として不足しています。
この作業では、Parrot Bebop2四肢装置に実装されたリアルタイムの神経型ナビゲーションフレームワークであるNeuro-Liftを提示します。
Neuro-Liftは、自然言語処理のためにLLMを活用して、人間のスピーチを高レベルの計画コマンドに変換し、イベントベースの神経視力視と物理学駆動型計画を使用して自律的に実行されます。
私たちのフレームワークは、動的な環境でのナビゲート、障害を回避し、人間の指示にリアルタイムで適応する能力を示しています。

要約(オリジナル)

The integration of human-intuitive interactions into autonomous systems has been limited. Traditional Natural Language Processing (NLP) systems struggle with context and intent understanding, severely restricting human-robot interaction. Recent advancements in Large Language Models (LLMs) have transformed this dynamic, allowing for intuitive and high-level communication through speech and text, and bridging the gap between human commands and robotic actions. Additionally, autonomous navigation has emerged as a central focus in robotics research, with artificial intelligence (AI) increasingly being leveraged to enhance these systems. However, existing AI-based navigation algorithms face significant challenges in latency-critical tasks where rapid decision-making is critical. Traditional frame-based vision systems, while effective for high-level decision-making, suffer from high energy consumption and latency, limiting their applicability in real-time scenarios. Neuromorphic vision systems, combining event-based cameras and spiking neural networks (SNNs), offer a promising alternative by enabling energy-efficient, low-latency navigation. Despite their potential, real-world implementations of these systems, particularly on physical platforms such as drones, remain scarce. In this work, we present Neuro-LIFT, a real-time neuromorphic navigation framework implemented on a Parrot Bebop2 quadrotor. Leveraging an LLM for natural language processing, Neuro-LIFT translates human speech into high-level planning commands which are then autonomously executed using event-based neuromorphic vision and physics-driven planning. Our framework demonstrates its capabilities in navigating in a dynamic environment, avoiding obstacles, and adapting to human instructions in real-time.

arxiv情報

著者 Amogh Joshi,Sourav Sanyal,Kaushik Roy
発行日 2025-01-31 16:17:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.NE, cs.RO, cs.SY, eess.SY パーマリンク