要約
ロボット工学内での言語理解に生成 AI (大規模言語モデルなど) を活用すると、LLM 駆動のロボットのエンドユーザー開発 (EUD) の可能性が広がります。
このテクノロジが提供する設計の機会は数多くあるにもかかわらず、ロボット プログラム ロジックを構築する際にこのテクノロジをどのように利用できるかについてはほとんど理解されていません。
このペーパーでは、自然言語のエンドユーザーの意図を捉える背景を概説し、EUD 内での LLM のこれまでの使用例を要約します。
映画製作のコンテキストを例として、特定のシーンを撮影するという映画撮影者の意図を自然言語を使用して表現し、LLM によってキャプチャし、低レベルのロボット アームの動きとしてさらにパラメータ化する方法を検討します。
反復的なプログラム開発のプロセスにおいて、エンドユーザーの意図を解釈し、自然言語を事前定義されたクロスモーダル データにマッピングする LLM の機能を調査します。
最後に、言語駆動型のロボット カメラ ナビゲーションをサポートするために、映画撮影を超えた領域を探求する将来の機会を提案します。
要約(オリジナル)
Leveraging generative AI (for example, Large Language Models) for language understanding within robotics opens up possibilities for LLM-driven robot end-user development (EUD). Despite the numerous design opportunities it provides, little is understood about how this technology can be utilized when constructing robot program logic. In this paper, we outline the background in capturing natural language end-user intent and summarize previous use cases of LLMs within EUD. Taking the context of filmmaking as an example, we explore how a cinematography practitioner’s intent to film a certain scene can be articulated using natural language, captured by an LLM, and further parametrized as low-level robot arm movement. We explore the capabilities of an LLM interpreting end-user intent and mapping natural language to predefined, cross-modal data in the process of iterative program development. We conclude by suggesting future opportunities for domain exploration beyond cinematography to support language-driven robotic camera navigation.
arxiv情報
著者 | Yuna Hwang,Arissa J. Sato,Pragathi Praveena,Nathan Thomas White,Bilge Mutlu |
発行日 | 2024-11-06 21:32:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google