ROSGPT_Vision: Commanding Robots Using Only Language Models’ Prompts

要約

この論文では、言語モデルのプロンプトのみを使用して次世代ロボットを命令できると主張します。
すべてのプロンプトは、モダリティ言語モデル (MLM) を介して特定のロボット モダリティを個別に問い合わせます。
中央のタスク モダリティは、大規模言語モデル (LLM) を介してロボット ミッションを実行するための通信全体を仲介します。
この論文では、この新しいロボット設計パターンに「プロンプティング ロボット モダリティ (PRM)」という名前を付けました。
さらに、この論文では、この PRM 設計パターンを、ROSGPT_Vision という名前の新しいロボット フレームワークの構築に適用します。
ROSGPT_Vision では、Visual プロンプトと LLM プロンプトの 2 つのプロンプトのみを使用してロボット タスクを実行できます。
ビジュアル プロンプトは、検討中のタスクに関連する視覚的意味論的特徴を自然言語で抽出します (ビジュアル ロボット モダリティ)。
一方、LLM プロンプトは、視覚的な説明 (タスク モダリティ) に対するロボットの反応を制御します。
このフレームワークは、これら 2 つのプロンプトの背後にあるすべてのメカニズムを自動化します。
このフレームワークにより、ロボットは視覚データを処理し、情報に基づいた意思決定を行い、アクションを自動的に実行することで、複雑な現実世界のシナリオに対処できるようになります。
このフレームワークは、1 つの汎用ビジョン モジュールと 2 つの独立した ROS ノードで構成されます。
テスト アプリケーションとして、ROSGPT_Vision を使用して CarMate を開発しました。CarMate は、道路上のドライバーの注意散漫を監視し、ドライバーにリアルタイムで音声通知を行います。
ROSGPT_Vision が従来の方法と比較して開発コストを大幅に削減する方法を示しました。
技術的な詳細には立ち入らずに、プロンプト戦略を最適化することでアプリケーションの品質を向上させる方法を示しました。
ROSGPT_Vision はコミュニティ (リンク: https://github.com/bilel-bj/ROSGPT_Vision) と共有され、この方向でロボット研究を推進し、PRM 設計パターンを実装し、プロンプトのみを使用してロボットを制御できるようにする、より多くのロボット フレームワークを構築します。

要約(オリジナル)

In this paper, we argue that the next generation of robots can be commanded using only Language Models’ prompts. Every prompt interrogates separately a specific Robotic Modality via its Modality Language Model (MLM). A central Task Modality mediates the whole communication to execute the robotic mission via a Large Language Model (LLM). This paper gives this new robotic design pattern the name of: Prompting Robotic Modalities (PRM). Moreover, this paper applies this PRM design pattern in building a new robotic framework named ROSGPT_Vision. ROSGPT_Vision allows the execution of a robotic task using only two prompts: a Visual and an LLM prompt. The Visual Prompt extracts, in natural language, the visual semantic features related to the task under consideration (Visual Robotic Modality). Meanwhile, the LLM Prompt regulates the robotic reaction to the visual description (Task Modality). The framework automates all the mechanisms behind these two prompts. The framework enables the robot to address complex real-world scenarios by processing visual data, making informed decisions, and carrying out actions automatically. The framework comprises one generic vision module and two independent ROS nodes. As a test application, we used ROSGPT_Vision to develop CarMate, which monitors the driver’s distraction on the roads and makes real-time vocal notifications to the driver. We showed how ROSGPT_Vision significantly reduced the development cost compared to traditional methods. We demonstrated how to improve the quality of the application by optimizing the prompting strategies, without delving into technical details. ROSGPT_Vision is shared with the community (link: https://github.com/bilel-bj/ROSGPT_Vision) to advance robotic research in this direction and to build more robotic frameworks that implement the PRM design pattern and enables controlling robots using only prompts.

arxiv情報

著者 Bilel Benjdira,Anis Koubaa,Anas M. Ali
発行日 2023-08-22 07:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク