TypeFly: Flying Drones with Large Language Model

要約

大規模言語モデル (LLM) を使用したロボット制御の最近の進歩は、主に自然言語コマンドを理解し、さまざまな言語で実行可能なプランを生成する LLM の機能により、大きな可能性を示しています。
ただし、モバイル ロボット、特にドローンを含むリアルタイムのインタラクティブなアプリケーションでは、LLM に固有の逐次トークン生成プロセスにより、制御計画の生成に大幅な遅延、つまり応答時間が生じます。
この論文では、MiniSpec と呼ばれる新しいプログラミング言語とそのランタイムを組み合わせてこの問題に取り組み、計画の生成時間とドローンの応答時間を短縮する ChatFly と呼ばれるシステムを紹介します。
つまり、ChatFly は、一般的だが冗長な Python でプログラム (ロボット計画) を書くように LLM に依頼するのではなく、トークン効率とストリーム解釈のために特別に設計された MiniSpec でそれを実行させます。
一連の困難なドローン タスクを使用して、ChatFly による設計の選択により、応答時間を最大 62% 短縮し、より一貫したユーザー エクスペリエンスを提供し、応答性が高くインテリジェントな LLM ベースのドローン制御を効率的に完了できることを示します。

要約(オリジナル)

Recent advancements in robot control using large language models (LLMs) have demonstrated significant potential, primarily due to LLMs’ capabilities to understand natural language commands and generate executable plans in various languages. However, in real-time and interactive applications involving mobile robots, particularly drones, the sequential token generation process inherent to LLMs introduces substantial latency, i.e. response time, in control plan generation. In this paper, we present a system called ChatFly that tackles this problem using a combination of a novel programming language called MiniSpec and its runtime to reduce the plan generation time and drone response time. That is, instead of asking an LLM to write a program (robotic plan) in the popular but verbose Python, ChatFly gets it to do it in MiniSpec specially designed for token efficiency and stream interpretation. Using a set of challenging drone tasks, we show that design choices made by ChatFly can reduce up to 62% response time and provide a more consistent user experience, enabling responsive and intelligent LLM-based drone control with efficient completion.

arxiv情報

著者 Guojun Chen,Xiaojing Yu,Neiwen Ling,Lin Zhong
発行日 2024-09-26 15:45:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO パーマリンク