An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems

要約

この論文では、無向の定常グラフ上で対話するマルチエージェント システム (MAS) の分散到達可能集合計算の問題を検討します。
このような MAS に対する完全な状態フィードバック制御入力は、現在のエージェントの状態だけでなく、その隣接エージェントの状態にも依存します。
ただし、ほとんどの MAS アプリケーションでは、ダイナミクスは個々のエージェントによって隠蔽されます。
このため、完全に分散された方法での到達可能な集合の計算は困難な問題になります。
ポリトピック到達可能集合近似のアイデアを利用し、それを MAS セットアップに一般化します。
結果として生じる部分問題を完全に分散された方法で定式化し、関連する計算の収束保証を提供します。
提案されたアルゴリズムの収束は、静的 MAS グラフと特定の制限の下での時間変化グラフの 2 つのケースで証明されます。

要約(オリジナル)

In this paper, we consider the problem of distributed reachable set computation for multi-agent systems (MASs) interacting over an undirected, stationary graph. A full state-feedback control input for such MASs depends no only on the current agent’s state, but also of its neighbors. However, in most MAS applications, the dynamics are obscured by individual agents. This makes reachable set computation, in a fully distributed manner, a challenging problem. We utilize the ideas of polytopic reachable set approximation and generalize it to a MAS setup. We formulate the resulting sub-problems in a fully distributed manner and provide convergence guarantees for the associated computations. The proposed algorithm’s convergence is proved for two cases: static MAS graphs, and time-varying graphs under certain restrictions.

arxiv情報

著者 Omanshu Thapliyal,Shanelle Clarke,Inseok Hwang
発行日 2024-10-08 19:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | An Algorithm for Distributed Computation of Reachable Sets for Multi-Agent Systems はコメントを受け付けていません

Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors

要約

自律飛行における大きな課題は未知の外乱であり、特に障害物が多い環境では、安全性が脅かされ、衝突につながる可能性があります。
この論文では、自律飛行用に設計された外乱を認識した動作計画および制御フレームワークについて説明します。
このフレームワークは、外乱を認識するモーション プランナーと追跡コントローラーという 2 つの主要なコンポーネントで構成されています。
外乱を認識するモーション プランナーは、予測制御スキームと、オンラインで適応される外乱の学習済みモデルで構成されます。
トラッキング コントローラーは、外乱を考慮した動作計画に関して、障害物付近のクアッドローターの動作に安全限界を提供するために、収縮制御手法を使用して設計されています。
最後に、このアルゴリズムは、クアローターが強い横風と地面に起因する外乱に直面するシミュレーション シナリオでテストされます。

要約(オリジナル)

A major challenge in autonomous flights is unknown disturbances, which can jeopardize safety and lead to collisions, especially in obstacle-rich environments. This paper presents a disturbance-aware motion planning and control framework designed for autonomous aerial flights. The framework is composed of two key components: a disturbance-aware motion planner and a tracking controller. The disturbance-aware motion planner consists of a predictive control scheme and a learned model of disturbances that is adapted online. The tracking controller is designed using contraction control methods to provide safety bounds on the quadrotor behaviour in the vicinity of the obstacles with respect to the disturbance-aware motion plan. Finally, the algorithm is tested in simulation scenarios with a quadrotor facing strong crosswind and ground-induced disturbances.

arxiv情報

著者 Dženan Lapandić,Fengze Xie,Christos K. Verginis,Soon-Jo Chung,Dimos V. Dimarogonas,Bo Wahlberg
発行日 2024-10-08 20:02:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Meta-Learning Augmented MPC for Disturbance-Aware Motion Planning and Control of Quadrotors はコメントを受け付けていません

Solving Multi-Goal Robotic Tasks with Decision Transformer

要約

人工知能はロボット工学において重要な役割を果たしており、強化学習 (RL) はロボット制御の最も有望なアプローチの 1 つとして浮上しています。
しかし、いくつかの重要な課題がその広範な応用を妨げています。
まず、多くの RL 手法はオンライン学習に依存しており、これには現実世界のハードウェアまたは高度なシミュレーション環境が必要ですが、どちらもコストと時間がかかり、非現実的です。
オフライン強化学習は、物理的なロボットやシミュレーションに継続的にアクセスせずにモデルをトレーニングできるソリューションを提供します。
2 番目の課題は、ロボットが複数の目標を同時に達成する必要がある複数の目標タスクを学習することです。
モデルはさまざまな目標にわたって一般化する必要があるため、トレーニング プロセスがさらに複雑になります。
同時に、トランスフォーマー アーキテクチャは、強化学習を含むさまざまな分野で大きな人気を得ています。
しかし、オフライン トレーニング、複数目標学習、トランスフォーマー ベースのアーキテクチャを効果的に組み合わせた既存の方法はありません。
この論文では、ロボット工学におけるオフラインのマルチゴール強化学習にデシジョントランスフォーマーアーキテクチャを新たに適応させたものを導入することで、これらの課題に対処します。
私たちのアプローチは、目標固有の情報を意思決定トランスフォーマーに統合し、オフライン設定で複雑なタスクを処理できるようにします。
私たちの方法を検証するために、シミュレーションで Panda ロボット プラットフォームを使用して、新しいオフライン強化学習データセットを開発しました。
私たちの広範な実験により、意思決定変換器が最先端のオンライン強化学習手法を上回るパフォーマンスを発揮できることが実証されました。

要約(オリジナル)

Artificial intelligence plays a crucial role in robotics, with reinforcement learning (RL) emerging as one of the most promising approaches for robot control. However, several key challenges hinder its broader application. First, many RL methods rely on online learning, which requires either real-world hardware or advanced simulation environments–both of which can be costly, time-consuming, and impractical. Offline reinforcement learning offers a solution, enabling models to be trained without ongoing access to physical robots or simulations. A second challenge is learning multi-goal tasks, where robots must achieve multiple objectives simultaneously. This adds complexity to the training process, as the model must generalize across different goals. At the same time, transformer architectures have gained significant popularity across various domains, including reinforcement learning. Yet, no existing methods effectively combine offline training, multi-goal learning, and transformer-based architectures. In this paper, we address these challenges by introducing a novel adaptation of the decision transformer architecture for offline multi-goal reinforcement learning in robotics. Our approach integrates goal-specific information into the decision transformer, allowing it to handle complex tasks in an offline setting. To validate our method, we developed a new offline reinforcement learning dataset using the Panda robotic platform in simulation. Our extensive experiments demonstrate that the decision transformer can outperform state-of-the-art online reinforcement learning methods.

arxiv情報

著者 Paul Gajewski,Dominik Żurek,Marcin Pietroń,Kamil Faber
発行日 2024-10-08 20:35:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Solving Multi-Goal Robotic Tasks with Decision Transformer はコメントを受け付けていません

Context-Aware Command Understanding for Tabletop Scenarios

要約

この論文では、卓上シナリオで人間の自然なコマンドを解釈するように設計された新しいハイブリッド アルゴリズムを紹介します。
音声、ジェスチャー、シーンのコンテキストなどの複数の情報ソースを統合することで、システムはロボットに対する実行可能な指示を抽出し、関連するオブジェクトとアクションを識別します。
このシステムは、事前定義されたオブジェクト モデルに依存せずにゼロショット方式で動作するため、さまざまな環境での柔軟で適応的な使用が可能になります。
複数の深層学習モデルの統合を評価し、現実世界のロボット設定への展開への適合性を評価します。
私たちのアルゴリズムは、言語処理と視覚的根拠を組み合わせて、さまざまなタスクにわたって堅牢に実行します。
さらに、システムの評価に使用されるビデオ録画の小規模なデータセットをリリースします。
このデータセットは、人間がロボットに自然言語で指示を与える現実世界のインタラクションをキャプチャしており、人間とロボットのインタラクションに関する将来の研究に貢献します。
このシステムの長所と限界について、特にマルチモーダルなコマンド解釈を処理する方法と、安全で説明可能な意思決定を実現するための記号ロボット フレームワークに統合できる機能に焦点を当てて説明します。

要約(オリジナル)

This paper presents a novel hybrid algorithm designed to interpret natural human commands in tabletop scenarios. By integrating multiple sources of information, including speech, gestures, and scene context, the system extracts actionable instructions for a robot, identifying relevant objects and actions. The system operates in a zero-shot fashion, without reliance on predefined object models, enabling flexible and adaptive use in various environments. We assess the integration of multiple deep learning models, evaluating their suitability for deployment in real-world robotic setups. Our algorithm performs robustly across different tasks, combining language processing with visual grounding. In addition, we release a small dataset of video recordings used to evaluate the system. This dataset captures real-world interactions in which a human provides instructions in natural language to a robot, a contribution to future research on human-robot interaction. We discuss the strengths and limitations of the system, with particular focus on how it handles multimodal command interpretation, and its ability to be integrated into symbolic robotic frameworks for safe and explainable decision-making.

arxiv情報

著者 Paul Gajewski,Antonio Galiza Cerdeira Gonzalez,Bipin Indurkhya
発行日 2024-10-08 20:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Context-Aware Command Understanding for Tabletop Scenarios はコメントを受け付けていません

Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots

要約

捜索や救助などのタスクのために、移動ロボットの異種チームを調整することは非常に困難です。
これは、エージェントの非同期操作、制約された通信、および限られた計算リソースを伴う、このような環境における認識、意思決定、および計画の複雑さによるものです。
このペーパーでは、マルチエージェント強化学習 (MARL) を活用して、異種のセンシング、動作、および作動機能を備えたエージェントを効果的に調整する、協調的かつ非同期のトランスフォーマーベースのミッション計画 (CATMiP) フレームワークについて説明します。
このフレームワークでは、クラスベースのマクロアクション分散部分観察マルコフ決定プロセス (CMD-POMDP) モデルが導入され、マクロアクションを介してさまざまなエージェント クラス間の非同期意思決定を処理します。
また、Multi-Agent Transformer (MAT) アーキテクチャを拡張して、エージェント間の分散アドホック通信を容易にします。
CATMiP は、ミッションの複雑さや通信の制約に簡単に適応し、さまざまな環境の規模やチーム構成に合わせて拡張できます。
シミュレーションでは、厳しい通信制約下でも、その拡張性と、2 つのクラスの探検家エージェントと救助エージェントと協力してミッション目標を達成できる能力を実証しています。
コードは https://github.com/mylad13/CATMiP で入手できます。

要約(オリジナル)

Coordinating heterogeneous teams of mobile robots for tasks such as search and rescue is highly challenging. This is due to the complexities of perception, decision making and planning in such environments, with agents’ non-synchronous operation, constrained communication, and limited computational resources. This paper presents the Cooperative and Asynchronous Transformer-based Mission Planning (CATMiP) framework, which leverages multi-agent reinforcement learning (MARL) to effectively coordinate agents with heterogeneous sensing, motion, and actuation capabilities. The framework introduces a Class-based Macro-Action Decentralized Partially Observable Markov Decision Process (CMD-POMDP) model to handle asynchronous decision-making among different agent classes via macro-actions. It also extends the Multi-Agent Transformer (MAT) architecture to facilitate distributed, ad hoc communication among the agents. CATMiP easily adapts to mission complexities and communication constraints, and scales to varying environment sizes and team compositions. Simulations demonstrate its scalability and ability to achieve cooperative mission objectives with two classes of explorer and rescuer agents, even under severe communication constraints. The code is available at https://github.com/mylad13/CATMiP.

arxiv情報

著者 Milad Farjadnasab,Shahin Sirouspour
発行日 2024-10-08 21:14:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, I.2.11 | Cooperative and Asynchronous Transformer-based Mission Planning for Heterogeneous Teams of Mobile Robots はコメントを受け付けていません

Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions

要約

悪天候は、LiDAR やカメラなどのセンサーに影響を与え、自動運転車 (AV) の普及に大きな課題をもたらします。
Collaborative Perception (CP) は困難な状況での AV 知覚を改善しますが、既存の CP データセットには悪天候がありません。
これに対処するために、悪天候条件に焦点を当てた初のオープンソース合成 CP データセットである Adver-City を紹介します。
OpenCDA を使用した CARLA でシミュレートされたこのバージョンには、24,000 を超えるフレーム、890,000 を超える注釈、6 つの異なる気象条件 (晴天、小雨、大雨、霧、霧状の大雨、そして初めての天気) にわたる 110 のユニークなシナリオが含まれています。
合成 CP データセット、グレア。
歩行者や自転車を含む 6 つのオブジェクト カテゴリがあり、LiDAR、RGB およびセマンティック セグメンテーション カメラ、GNSS、IMU を備えた車両および路側ユニットからのデータを使用します。
実際の衝突レポートに基づいたそのシナリオは、物体の密度が異なる、密集したシーンと疎なシーンの両方で、悪天候や視界不良の状況に最も適切な道路構成を描写し、CP モデルの新しいテスト条件を可能にします。
データセットに対してベンチマークを実行したところ、気象条件により知覚モデルにとって困難な状況が生じ、マルチモーダル物体検出パフォーマンスが最大 19% 低下し、物体密度が LiDAR ベースの検出に最大 29% 影響を与えたことがわかりました。
データセット、コード、ドキュメントは https://labs.cs.queensu.ca/quarrg/datasets/adver-city/ で入手できます。

要約(オリジナル)

Adverse weather conditions pose a significant challenge to the widespread adoption of Autonomous Vehicles (AVs) by impacting sensors like LiDARs and cameras. Even though Collaborative Perception (CP) improves AV perception in difficult conditions, existing CP datasets lack adverse weather conditions. To address this, we introduce Adver-City, the first open-source synthetic CP dataset focused on adverse weather conditions. Simulated in CARLA with OpenCDA, it contains over 24 thousand frames, over 890 thousand annotations, and 110 unique scenarios across six different weather conditions: clear weather, soft rain, heavy rain, fog, foggy heavy rain and, for the first time in a synthetic CP dataset, glare. It has six object categories including pedestrians and cyclists, and uses data from vehicles and roadside units featuring LiDARs, RGB and semantic segmentation cameras, GNSS, and IMUs. Its scenarios, based on real crash reports, depict the most relevant road configurations for adverse weather and poor visibility conditions, varying in object density, with both dense and sparse scenes, allowing for novel testing conditions of CP models. Benchmarks run on the dataset show that weather conditions created challenging conditions for perception models, reducing multi-modal object detection performance by up to 19%, while object density affected LiDAR-based detection by up to 29%. The dataset, code and documentation are available at https://labs.cs.queensu.ca/quarrg/datasets/adver-city/.

arxiv情報

著者 Mateus Karvat,Sidney Givigi
発行日 2024-10-08 21:26:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | Adver-City: Open-Source Multi-Modal Dataset for Collaborative Perception Under Adverse Weather Conditions はコメントを受け付けていません

Trajectory Improvement and Reward Learning from Comparative Language Feedback

要約

人間のフィードバックから学ぶことは、近年ロボット工学や自然言語処理などの分野で注目を集めています。
これまでの研究は主に比較という形で人間によるフィードバックに依存していましたが、言語はユーザーの好みについてより有益な洞察を提供する好ましい手段です。
この研究では、比較言語フィードバックを組み込んでロボットの軌道を反復的に改善し、人間の好みをエンコードする報酬関数を学習することを目指しています。
この目標を達成するために、私たちは軌跡データと言語フィードバックを統合する共有潜在空間を学習し、その後、学習した潜在空間を活用して軌跡を改善し、人間の好みを学習します。
私たちの知る限り、比較言語フィードバックを報酬学習に組み込んだのは私たちが初めてです。
私たちのシミュレーション実験は、学習された潜在空間の有効性と学習アルゴリズムの成功を実証しています。
また、人間を対象とした研究も行っており、報酬学習アルゴリズムが好みに基づく報酬学習と比較して平均で 23.9% 高い主観スコアを達成し、時間効率が 11.3% 高いことが示されており、この手法の優れたパフォーマンスが強調されています。
私たちのウェブサイトは https://liralab.usc.edu/comparative- language-フィードバック/ です。

要約(オリジナル)

Learning from human feedback has gained traction in fields like robotics and natural language processing in recent years. While prior works mostly rely on human feedback in the form of comparisons, language is a preferable modality that provides more informative insights into user preferences. In this work, we aim to incorporate comparative language feedback to iteratively improve robot trajectories and to learn reward functions that encode human preferences. To achieve this goal, we learn a shared latent space that integrates trajectory data and language feedback, and subsequently leverage the learned latent space to improve trajectories and learn human preferences. To the best of our knowledge, we are the first to incorporate comparative language feedback into reward learning. Our simulation experiments demonstrate the effectiveness of the learned latent space and the success of our learning algorithms. We also conduct human subject studies that show our reward learning algorithm achieves a 23.9% higher subjective score on average and is 11.3% more time-efficient compared to preference-based reward learning, underscoring the superior performance of our method. Our website is at https://liralab.usc.edu/comparative-language-feedback/

arxiv情報

著者 Zhaojing Yang,Miru Jun,Jeremy Tien,Stuart J. Russell,Anca Dragan,Erdem Bıyık
発行日 2024-10-08 22:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Trajectory Improvement and Reward Learning from Comparative Language Feedback はコメントを受け付けていません

BEVLoc: Cross-View Localization and Matching via Birds-Eye-View Synthesis

要約

屋外ロボット工学において、特に GPS が存在しない、または信頼性が低い場合、地上と空中のマッチングは重要かつ困難な作業です。
建物や大きく密集した森林などの構造物は干渉を引き起こすため、全地球測位推定には GNSS の置き換えが必要になります。
本当の難しさは、許容可能な位置特定を実現するために、地上画像と航空画像の遠近感の違いを調整することにあります。
自動運転コミュニティからインスピレーションを得て、オフロード環境で航空地図と照合して位置特定するための鳥瞰図 (BEV) シーン表現を合成するための新しいフレームワークを提案します。
ドメイン固有のハード ネガティブ マイニングによる対照学習を活用して、合成された BEV と航空地図の間の類似した表現を学習するようにネットワークをトレーニングします。
推論中、BEVLoc は、粗いものから細かいものへのマッチング戦略を通じて、航空地図内で最も可能性の高い場所の特定をガイドします。
私たちの結果は、意味の多様性が限られた非常に困難な森林環境における有望な初期結果を示しています。
私たちはモデルの粗いマッチングと細かいマッチングのパフォーマンスを分析し、モデルの生のマッチング能力と GNSS の代替としてのパフォーマンスの両方を評価します。
私たちの仕事は、オフロードマップのローカリゼーションを掘り下げながら、ローカリゼーションの将来の開発のための基礎的なベースラインを確立します。
コードは https://github.com/rpl-cmu/bevloc から入手できます。

要約(オリジナル)

Ground to aerial matching is a crucial and challenging task in outdoor robotics, particularly when GPS is absent or unreliable. Structures like buildings or large dense forests create interference, requiring GNSS replacements for global positioning estimates. The true difficulty lies in reconciling the perspective difference between the ground and air images for acceptable localization. Taking inspiration from the autonomous driving community, we propose a novel framework for synthesizing a birds-eye-view (BEV) scene representation to match and localize against an aerial map in off-road environments. We leverage contrastive learning with domain specific hard negative mining to train a network to learn similar representations between the synthesized BEV and the aerial map. During inference, BEVLoc guides the identification of the most probable locations within the aerial map through a coarse-to-fine matching strategy. Our results demonstrate promising initial outcomes in extremely difficult forest environments with limited semantic diversity. We analyze our model’s performance for coarse and fine matching, assessing both the raw matching capability of our model and its performance as a GNSS replacement. Our work delves into off-road map localization while establishing a foundational baseline for future developments in localization. Our code is available at: https://github.com/rpl-cmu/bevloc

arxiv情報

著者 Christopher Klammer,Michael Kaess
発行日 2024-10-08 22:45:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.9 | BEVLoc: Cross-View Localization and Matching via Birds-Eye-View Synthesis はコメントを受け付けていません

LocoVR: Multiuser Indoor Locomotion Dataset in Virtual Reality

要約

人間の移動運動を理解することは、特に複雑な屋内家庭環境において、ロボットなどの AI エージェントにとって重要です。
これらの空間における人間の軌跡をモデル化するには、個人が物理的な障害物を回避して社会的ナビゲーションのダイナミクスを管理する方法についての洞察が必要です。
これらのダイナミクスには、他の人が通過できるように脇に寄ったり、衝突を避けるために長いルートを選択したりするなど、近接性(空間の社会的利用)に影響された微妙な行動が含まれます。
これまでの研究では、屋内シーンにおける人間の動きのデータセットが開発されてきましたが、多くの場合、その規模は限られており、家庭環境で一般的な微妙なソーシャル ナビゲーション ダイナミクスが欠けています。
これに対処するために、130 以上の異なる屋内家庭環境から仮想現実でキャプチャされた 7,000 以上の 2 人の軌跡のデータセットである LocoVR を紹介します。
LocoVR は、全身のポーズ データと正確な空間情報に加え、社会的動機に基づいた運動行動の豊富な例を提供します。
たとえば、このデータセットは、狭い空間で互いに移動し、生活エリアで個人の境界を尊重するように経路を調整し、玄関やキッチンなどの交通量の多いゾーンで動きを調整する個人のインスタンスをキャプチャします。
私たちの評価では、LocoVR が人間の軌跡を利用した 3 つの実践的な屋内タスクにおいてモデルのパフォーマンスを大幅に向上させ、家庭環境における社会を意識したナビゲーション パターンの予測を実証していることが示されています。

要約(オリジナル)

Understanding human locomotion is crucial for AI agents such as robots, particularly in complex indoor home environments. Modeling human trajectories in these spaces requires insight into how individuals maneuver around physical obstacles and manage social navigation dynamics. These dynamics include subtle behaviors influenced by proxemics – the social use of space, such as stepping aside to allow others to pass or choosing longer routes to avoid collisions. Previous research has developed datasets of human motion in indoor scenes, but these are often limited in scale and lack the nuanced social navigation dynamics common in home environments. To address this, we present LocoVR, a dataset of 7000+ two-person trajectories captured in virtual reality from over 130 different indoor home environments. LocoVR provides full body pose data and precise spatial information, along with rich examples of socially-motivated movement behaviors. For example, the dataset captures instances of individuals navigating around each other in narrow spaces, adjusting paths to respect personal boundaries in living areas, and coordinating movements in high-traffic zones like entryways and kitchens. Our evaluation shows that LocoVR significantly enhances model performance in three practical indoor tasks utilizing human trajectories, and demonstrates predicting socially-aware navigation patterns in home environments.

arxiv情報

著者 Kojiro Takeyama,Yimeng Liu,Misha Sra
発行日 2024-10-09 00:45:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.RO | LocoVR: Multiuser Indoor Locomotion Dataset in Virtual Reality はコメントを受け付けていません

Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent

要約

ロボット システムの進歩は多くの業界に革命をもたらしましたが、その操作には専門的な技術知識が必要となることが多く、専門家以外のユーザーがアクセスできるのは限られています。
このペーパーでは、ロボット オペレーティング システム (ROS) と自然言語インターフェイスの間のギャップを埋める AI 搭載エージェントである ROSA (ロボット オペレーティング システム エージェント) について紹介します。
ROSA は、最先端の言語モデルを活用し、オープンソース フレームワークを統合することにより、オペレーターが自然言語を使用してロボットと対話し、コマンドをアクションに変換し、明確に定義されたツールを通じて ROS とインターフェイスできるようにします。
ROSA の設計はモジュール式で拡張可能で、ROS1 と ROS2 の両方とのシームレスな統合に加え、パラメータ検証や制約強制などの安全メカニズムを提供して、安全で信頼性の高い動作を保証します。
ROSA はもともと ROS 用に設計されていますが、他のロボティクス ミドルウェアと連携して動作するように拡張して、ミッション全体での互換性を最大限に高めることができます。
ROSA は、複雑なロボット システムへのアクセスを民主化し、あらゆる専門レベルのユーザーに音声統合や視覚認識などのマルチモーダル機能を提供することで、人間とロボットのインタラクションを強化します。
アシモフのロボット工学三原則などの基本原則に基づいて倫理的配慮が徹底されており、AI の統合により安全性、透明性、プライバシー、説明責任が確実に促進されます。
ROSA は、ロボット技術をよりユーザーフレンドリーでアクセスしやすいものにすることで、運用効率を向上させるだけでなく、ロボット工学および将来のミッション運用における責任ある AI の使用に関する新しい標準を確立します。
このペーパーでは、ROSA のアーキテクチャを紹介し、JPL のマーズ ヤード、実験室での初期モックアップ操作、および 3 つの異なるロボットを使用したシミュレーションを紹介します。
コア ROSA ライブラリはオープンソースとして入手できます。

要約(オリジナル)

The advancement of robotic systems has revolutionized numerous industries, yet their operation often demands specialized technical knowledge, limiting accessibility for non-expert users. This paper introduces ROSA (Robot Operating System Agent), an AI-powered agent that bridges the gap between the Robot Operating System (ROS) and natural language interfaces. By leveraging state-of-the-art language models and integrating open-source frameworks, ROSA enables operators to interact with robots using natural language, translating commands into actions and interfacing with ROS through well-defined tools. ROSA’s design is modular and extensible, offering seamless integration with both ROS1 and ROS2, along with safety mechanisms like parameter validation and constraint enforcement to ensure secure, reliable operations. While ROSA is originally designed for ROS, it can be extended to work with other robotics middle-wares to maximize compatibility across missions. ROSA enhances human-robot interaction by democratizing access to complex robotic systems, empowering users of all expertise levels with multi-modal capabilities such as speech integration and visual perception. Ethical considerations are thoroughly addressed, guided by foundational principles like Asimov’s Three Laws of Robotics, ensuring that AI integration promotes safety, transparency, privacy, and accountability. By making robotic technology more user-friendly and accessible, ROSA not only improves operational efficiency but also sets a new standard for responsible AI use in robotics and potentially future mission operations. This paper introduces ROSA’s architecture and showcases initial mock-up operations in JPL’s Mars Yard, a laboratory, and a simulation using three different robots. The core ROSA library is available as open-source.

arxiv情報

著者 Rob Royce,Marcel Kaufmann,Jonathan Becktor,Sangwoo Moon,Kalind Carpenter,Kai Pak,Amanda Towler,Rohan Thakker,Shehryar Khattak
発行日 2024-10-09 01:54:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO | Enabling Novel Mission Operations and Interactions with ROSA: The Robot Operating System Agent はコメントを受け付けていません