QMP: Q-switch Mixture of Policies for Multi-Task Behavior Sharing

要約

マルチタスク強化学習 (MTRL) は、複数のタスクを同時に学習して、個別に学習するよりもサンプル効率を高めることを目的としています。
従来の方法では、タスク間でパラメーターまたは再ラベル付けされたデータを共有することでこれを実現します。
この作業では、タスク間で行動ポリシーを共有するための新しいフレームワークを導入します。これは、既存の MTRL メソッドに加えて使用できます。
重要なアイデアは、他のタスク ポリシーの動作を採用することで、各タスクのオフポリシー データ収集を改善することです。
1 つのタスクで取得された役立つ行動を選択的に共有して、別のタスクのトレーニング データを収集すると、より高品質な軌跡が得られ、サンプル効率の高い MTRL につながります。
したがって、タスクの Q 関数を使用して有用な共有可能な動作を評価および選択することにより、異なるタスク ポリシー間で動作を選択的に共有する、Q スイッチ混合ポリシー (QMP) と呼ばれるシンプルで原理的なフレームワークを導入します。
QMP が基礎となる RL アルゴリズムのサンプル効率をどのように向上させるかを理論的に分析します。
私たちの実験によると、QMP の行動ポリシー共有は、多くの一般的な MTRL アルゴリズムを補完する利点を提供し、さまざまな操作、移動、ナビゲーション環境で行動を共有する代替方法よりも優れたパフォーマンスを発揮します。
ビデオは https://qmp-mtrl.github.io でご覧いただけます。

要約(オリジナル)

Multi-task reinforcement learning (MTRL) aims to learn several tasks simultaneously for better sample efficiency than learning them separately. Traditional methods achieve this by sharing parameters or relabeled data between tasks. In this work, we introduce a new framework for sharing behavioral policies across tasks, which can be used in addition to existing MTRL methods. The key idea is to improve each task’s off-policy data collection by employing behaviors from other task policies. Selectively sharing helpful behaviors acquired in one task to collect training data for another task can lead to higher-quality trajectories, leading to more sample-efficient MTRL. Thus, we introduce a simple and principled framework called Q-switch mixture of policies (QMP) that selectively shares behavior between different task policies by using the task’s Q-function to evaluate and select useful shareable behaviors. We theoretically analyze how QMP improves the sample efficiency of the underlying RL algorithm. Our experiments show that QMP’s behavioral policy sharing provides complementary gains over many popular MTRL algorithms and outperforms alternative ways to share behaviors in various manipulation, locomotion, and navigation environments. Videos are available at https://qmp-mtrl.github.io.

arxiv情報

著者 Grace Zhang,Ayush Jain,Injune Hwang,Shao-Hua Sun,Joseph J. Lim
発行日 2024-10-07 10:04:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | コメントする

A Survey of Optimization-based Task and Motion Planning: From Classical To Learning Approaches

要約

Task and Motion Planning (TAMP) は、高レベルのタスク計画と低レベルの動作計画を統合し、長期にわたる動的なタスクを効果的に推論するための自律性をロボットに提供します。
最適化ベースの TAMP は、目的関数によって目標条件を定義するハイブリッド最適化アプローチに焦点を当てており、オープンエンドの目標、ロボットのダイナミクス、およびロボットと環境間の物理的な相互作用を処理できます。
したがって、最適化ベースの TAMP は、非常に複雑で接触の多い移動および操作の問題を解決するのに特に適しています。
この調査では、最適化ベースの TAMP に関する包括的なレビューを提供します。対象となるのは、(i) アクション記述言語と時相論理を含むプランニング ドメイン表現、(ii) AI プランニングと軌道最適化 (TO) を含む、TAMP コンポーネントの個別のソリューション戦略、および
(iii) ロジックベースのタスク計画とモデルベースの TO の間の動的な相互作用。
この調査の特に焦点は、TAMP を効率的に解決するためのアルゴリズム構造、特に階層型および分散型アプローチに焦点を当てることです。
さらに、この調査では、古典的な手法と大規模言語モデルなどの現代の学習ベースのイノベーションとの間の相乗効果が強調されています。
さらに、この調査では TAMP の将来の研究の方向性について議論されており、アルゴリズムとアプリケーション固有の課題の両方が強調されています。

要約(オリジナル)

Task and Motion Planning (TAMP) integrates high-level task planning and low-level motion planning to equip robots with the autonomy to effectively reason over long-horizon, dynamic tasks. Optimization-based TAMP focuses on hybrid optimization approaches that define goal conditions via objective functions and are capable of handling open-ended goals, robotic dynamics, and physical interaction between the robot and the environment. Therefore, optimization-based TAMP is particularly suited to solve highly complex, contact-rich locomotion and manipulation problems. This survey provides a comprehensive review on optimization-based TAMP, covering (i) planning domain representations, including action description languages and temporal logic, (ii) individual solution strategies for components of TAMP, including AI planning and trajectory optimization (TO), and (iii) the dynamic interplay between logic-based task planning and model-based TO. A particular focus of this survey is to highlight the algorithm structures to efficiently solve TAMP, especially hierarchical and distributed approaches. Additionally, the survey emphasizes the synergy between the classical methods and contemporary learning-based innovations such as large language models. Furthermore, the future research directions for TAMP is discussed in this survey, highlighting both algorithmic and application-specific challenges.

arxiv情報

著者 Zhigen Zhao,Shuo Cheng,Yan Ding,Ziyi Zhou,Shiqi Zhang,Danfei Xu,Ye Zhao
発行日 2024-10-07 10:09:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

Cloud-Based Scheduling Mechanism for Scalable and Resource-Efficient Centralized Controllers

要約

この論文では、大規模システム、つまりマルチエージェント システム用の集中型非線形モデル予測コントローラー (CNMPC) に複雑なロボット ソフトウェアを導入する際の課題に対処するための新しいアプローチを提案します。
提案されたアプローチは、集中制御スキームのスケーラビリティ制限に対処しながら、CNMPC の動作を監視および最適化するように設計された Kubernetes ベースのスケジューリング メカニズムに基づいています。
リアルタイム クラウド環境でクラスターを活用することにより、提案されたメカニズムは CNMPC の計算負荷を効果的に軽減します。
実験を通じて、特にロボットの数が変化する可能性があるシナリオにおけるシステムの有効性とパフォーマンスを実証しました。
私たちの取り組みは、クラウドベースの制御戦略の進歩に貢献し、クラウド制御のロボット システムのパフォーマンス向上の基礎を築きます。

要約(オリジナル)

This paper proposes a novel approach to address the challenges of deploying complex robotic software in large-scale systems, i.e., Centralized Nonlinear Model Predictive Controllers (CNMPCs) for multi-agent systems. The proposed approach is based on a Kubernetes-based scheduling mechanism designed to monitor and optimize the operation of CNMPCs, while addressing the scalability limitation of centralized control schemes. By leveraging a cluster in a real-time cloud environment, the proposed mechanism effectively offloads the computational burden of CNMPCs. Through experiments, we have demonstrated the effectiveness and performance of our system, especially in scenarios where the number of robots is subject to change. Our work contributes to the advancement of cloud-based control strategies and lays the foundation for enhanced performance in cloud-controlled robotic systems.

arxiv情報

著者 Achilleas Santi Seisa,Sumeet Gajanan Satpute,George Nikolakopoulos
発行日 2024-10-07 11:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.MA, cs.RO, cs.SY, eess.SY | コメントする

Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control

要約

MPCはタイムステップごとに最適な制御問題を解くことで非線形フィードバック制御を実現しますが、計算負荷が非常に大きくなる傾向があり、制御周期内で政策を最適化することが困難です。
この問題に対処するために、考えられるアプローチの 1 つは、最終値学習を利用して計算コストを削減することです。
ただし、元の MPC セットアップでタスクが動的に変更される状況では、学習した値を他のタスクに使用することはできません。
この研究では、計算時間を削減しながらマルチタスク ポリシーの最適化を達成するために、目標条件付き最終値学習を備えた MPC フレームワークを開発します。
さらに、上位レベルの軌道プランナーが適切な目標条件付き軌道を出力できるようにする階層制御構造を使用することで、ロボット モデルが多様な動作を生成できることを実証します。
二足倒立振子ロボットモデルで提案手法を評価し、目標条件付き最終値学習と上位レベルの軌道プランナーを組み合わせることでリアルタイム制御が可能になることを確認します。
したがって、ロボットは傾斜地でもターゲットの軌道をうまく追跡します。

要約(オリジナル)

While MPC enables nonlinear feedback control by solving an optimal control problem at each timestep, the computational burden tends to be significantly large, making it difficult to optimize a policy within the control period. To address this issue, one possible approach is to utilize terminal value learning to reduce computational costs. However, the learned value cannot be used for other tasks in situations where the task dynamically changes in the original MPC setup. In this study, we develop an MPC framework with goal-conditioned terminal value learning to achieve multitask policy optimization while reducing computational time. Furthermore, by using a hierarchical control structure that allows the upper-level trajectory planner to output appropriate goal-conditioned trajectories, we demonstrate that a robot model is able to generate diverse motions. We evaluate the proposed method on a bipedal inverted pendulum robot model and confirm that combining goal-conditioned terminal value learning with an upper-level trajectory planner enables real-time control; thus, the robot successfully tracks a target trajectory on sloped terrain.

arxiv情報

著者 Mitsuki Morita,Satoshi Yamamori,Satoshi Yagi,Norikazu Sugimoto,Jun Morimoto
発行日 2024-10-07 11:19:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY | コメントする

VILENS: Visual, Inertial, Lidar, and Leg Odometry for All-Terrain Legged Robots

要約

ファクターグラフに基づいた脚式ロボットのオドメトリシステムである視覚慣性ライダー脚式ナビゲーションシステム(VILENS)を紹介します。
主な新しさは、4 つの異なるセンサー モダリティを緊密に融合して、個別のセンサーが縮退した推定を生成する場合に信頼性の高い動作を実現することです。
脚のオドメトリ ドリフトを最小限に抑えるために、オンラインで推定される線形速度バイアス項を使用してロボットの状態を拡張します。
この偏りは、この事前に統合された速度係数と視覚、ライダー、および慣性測定装置 (IMU) 係数が緊密に融合しているために観察可能です。
合計 2 時間、移動距離 1.8 km にわたる、さまざまな ANYmal 四足歩行ロボットに関する広範な実験検証が示されています。
実験には、緩い岩、斜面、泥の上での動的移動が含まれており、滑りや地形の変形などの課題が発生しました。
知覚上の課題には、暗くてほこりっぽい地下洞窟や、開けた何もない場所などが含まれます。
最先端の疎結合アプローチと比較して、並進誤差が 62%、回転誤差が 51% 平均で改善されることがわかりました。
その堅牢性を実証するために、VILEENS は知覚コントローラーとローカル パス プランナーとも統合されました。

要約(オリジナル)

We present visual inertial lidar legged navigation system (VILENS), an odometry system for legged robots based on factor graphs. The key novelty is the tight fusion of four different sensor modalities to achieve reliable operation when the individual sensors would otherwise produce degenerate estimation. To minimize leg odometry drift, we extend the robot’s state with a linear velocity bias term, which is estimated online. This bias is observable because of the tight fusion of this preintegrated velocity factor with vision, lidar, and inertial measurement unit (IMU) factors. Extensive experimental validation on different ANYmal quadruped robots is presented, for a total duration of 2 h and 1.8 km traveled. The experiments involved dynamic locomotion over loose rocks, slopes, and mud, which caused challenges such as slippage and terrain deformation. Perceptual challenges included dark and dusty underground caverns, and open and feature-deprived areas. We show an average improvement of 62% translational and 51% rotational errors compared to a state-of-the-art loosely coupled approach. To demonstrate its robustness, VILENS was also integrated with a perceptive controller and a local path planner.

arxiv情報

著者 David Wisth,Marco Camurri,Maurice Fallon
発行日 2024-10-07 11:27:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

Entropy-Based Uncertainty Modeling for Trajectory Prediction in Autonomous Driving

要約

自動運転では、安全かつ効率的な動作計画を立てるために正確な動作予測が不可欠です。
安全を確保するために、計画立案者は周囲のエージェントの予測される将来の行動に関する信頼できる不確実性情報に依存する必要がありますが、この側面への注目は限定的です。
この論文は、これまで無視されてきた軌道予測における不確実性モデリングの問題に取り組みます。
私たちは、不確実性の定量化、分解、モデル構成の影響に焦点を当てた総合的なアプローチを採用しています。
私たちの方法は、不確実性を測定するための理論に基づいた情報理論的アプローチに基づいており、全体的な不確実性を偶然性と認識性の要素に分解することができます。
私たちは、さまざまなモデル アーキテクチャと構成が不確実性の定量化とモデルの堅牢性にどのような影響を与えるかを評価するために、nuScenes データセットに対して広範な実験を実施しました。

要約(オリジナル)

In autonomous driving, accurate motion prediction is essential for safe and efficient motion planning. To ensure safety, planners must rely on reliable uncertainty information about the predicted future behavior of surrounding agents, yet this aspect has received limited attention. This paper addresses the so-far neglected problem of uncertainty modeling in trajectory prediction. We adopt a holistic approach that focuses on uncertainty quantification, decomposition, and the influence of model composition. Our method is based on a theoretically grounded information-theoretic approach to measure uncertainty, allowing us to decompose total uncertainty into its aleatoric and epistemic components. We conduct extensive experiments on the nuScenes dataset to assess how different model architectures and configurations affect uncertainty quantification and model robustness.

arxiv情報

著者 Aron Distelzweig,Andreas Look,Eitan Kosman,Faris Janjoš,Jörg Wagner,Abhinav Valada
発行日 2024-10-07 11:57:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | コメントする

SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation

要約

衣服は多様で変形しやすい性質があるため、衣服操作の自動化は支援ロボットにとって大きな課題となっています。
従来のアプローチでは通常、衣服の種類ごとに個別のモデルが必要となるため、拡張性と適応性が制限されます。
対照的に、この論文では、ビジョン言語モデル (VLM) を使用して、さまざまな衣類カテゴリにわたるキーポイント予測を改善する統合アプローチを紹介します。
私たちのモデルは、視覚情報と意味情報の両方を解釈することにより、ロボットが単一のモデルでさまざまな衣服の状態を管理できるようにします。
高度なシミュレーション技術を使用して大規模な合成データセットを作成し、大規模な現実世界のデータがなくてもスケーラブルなトレーニングを可能にしました。
実験結果は、VLM ベースの方法がキーポイント検出の精度とタスクの成功率を大幅に向上させ、ロボットによる衣服操作のためのより柔軟で一般的なソリューションを提供することを示しています。
さらに、この研究は、VLM が単一のフレームワーク内でさまざまな衣類操作タスクを統合し、将来のホーム オートメーションや支援ロボティクスにおけるより広範なアプリケーションへの道を開く可能性があることも強調しています。

要約(オリジナル)

Automating garment manipulation poses a significant challenge for assistive robotics due to the diverse and deformable nature of garments. Traditional approaches typically require separate models for each garment type, which limits scalability and adaptability. In contrast, this paper presents a unified approach using vision-language models (VLMs) to improve keypoint prediction across various garment categories. By interpreting both visual and semantic information, our model enables robots to manage different garment states with a single model. We created a large-scale synthetic dataset using advanced simulation techniques, allowing scalable training without extensive real-world data. Experimental results indicate that the VLM-based method significantly enhances keypoint detection accuracy and task success rates, providing a more flexible and general solution for robotic garment manipulation. In addition, this research also underscores the potential of VLMs to unify various garment manipulation tasks within a single framework, paving the way for broader applications in home automation and assistive robotics for future.

arxiv情報

著者 Xin Li,Siyuan Huang,Qiaojun Yu,Zhengkai Jiang,Ce Hao,Yimeng Zhu,Hongsheng Li,Peng Gao,Cewu Lu
発行日 2024-10-07 12:06:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | コメントする

Efficient Model-Based Reinforcement Learning Through Optimistic Thompson Sampling

要約

環境との相互作用を通じて複雑なロボットの動作を学習するには、原則に基づいた探求が必要です。
効果的な戦略では、報酬を最大化する状態アクション空間の領域の探索を優先する必要があり、楽観的な探索がこの考えに沿った有望な方向性として浮上し、サンプル効率の高い強化学習を可能にします。
しかし、既存の方法は重要な側面を見落としています。それは、報酬と状態を結びつける信念によって楽観主義が知らされる必要性です。
これに対処するために、トンプソン サンプリングに基づいた楽観的な探索に対する実用的で理論に基づいたアプローチを提案します。
私たちのモデル構造は、遷移と報酬に関する共同不確実性についての推論を可能にする最初のモデルです。
私たちは、一連の MuJoCo および VMAS 連続制御タスクにこの方法を適用します。
私たちの実験は、報酬がまばらで、行動ペナルティがあり、探索が困難な領域がある環境では、楽観的な探索が学習を大幅に加速することを示しています。
さらに、楽観主義が有益な場合についての洞察を提供し、探索を導く上でのモデルの不確実性の重要な役割を強調します。

要約(オリジナル)

Learning complex robot behavior through interactions with the environment necessitates principled exploration. Effective strategies should prioritize exploring regions of the state-action space that maximize rewards, with optimistic exploration emerging as a promising direction aligned with this idea and enabling sample-efficient reinforcement learning. However, existing methods overlook a crucial aspect: the need for optimism to be informed by a belief connecting the reward and state. To address this, we propose a practical, theoretically grounded approach to optimistic exploration based on Thompson sampling. Our model structure is the first that allows for reasoning about joint uncertainty over transitions and rewards. We apply our method on a set of MuJoCo and VMAS continuous control tasks. Our experiments demonstrate that optimistic exploration significantly accelerates learning in environments with sparse rewards, action penalties, and difficult-to-explore regions. Furthermore, we provide insights into when optimism is beneficial and emphasize the critical role of model uncertainty in guiding exploration.

arxiv情報

著者 Jasmine Bayrooti,Carl Henrik Ek,Amanda Prorok
発行日 2024-10-07 12:42:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | コメントする

Anticipating Human Behavior for Safe Navigation and Efficient Collaborative Manipulation with Mobile Service Robots

要約

人間の行動を予測することは、ロボットが人間と安全かつ効率的に対話するために重要な能力です。
私たちは、スマート エッジ センサー ネットワークを使用して、グローバルな観測と将来の予測および目標情報を提供し、移動操作ロボットの制御のための予測行動を統合します。
安全なナビゲーションと協調的なモバイル操作タスクのコンテキストで人間の行動を予測するアプローチを紹介します。
まず、スマートエッジセンサーネットワークの観測による人間の軌跡の投影を移動ロボットの計画マップに適用することで、人間の動作を予測します。
第二に、家具を運ぶ共同作業において、与えられた目標を達成するために人間の意図を予測します。
私たちの実験は、人間の行動を予測することで、より安全なナビゲーションとより効率的なコラボレーションが可能になることを示しています。
最後に、人間の行動を予測し、人間と協力してテーブルや椅子の配置を含む目標の部屋のレイアウトを実現する統合システムを紹介します。

要約(オリジナル)

The anticipation of human behavior is a crucial capability for robots to interact with humans safely and efficiently. We employ a smart edge sensor network to provide global observations along with future predictions and goal information to integrate anticipatory behavior for the control of a mobile manipulation robot. We present approaches to anticipate human behavior in the context of safe navigation and a collaborative mobile manipulation task. First, we anticipate human motion by employing projections of human trajectories from smart edge sensor network observations into the planning map of a mobile robot. Second, we anticipate human intentions in a collaborative furniture-carrying task to achieve a given goal. Our experiments indicate that anticipating human behavior allows for safer navigation and more efficient collaboration. Finally, we showcase an integrated system that anticipates human behavior and collaborates with a human to achieve a target room layout, including the placement of tables and chairs.

arxiv情報

著者 Simon Bultmann,Raphael Memmesheimer,Jan Nogga,Julian Hau,Sven Behnke
発行日 2024-10-07 13:14:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする

Enhanced Multi-Robot SLAM System with Cross-Validation Matching and Exponential Threshold Keyframe Selection

要約

モバイル ロボット工学の進化分野により、同時位置特定およびマッピング (SLAM) システムの需要が実際に増加しています。
SLAM の位置特定精度とマッピング効率を強化するために、SLAM システムのコア モジュールを改良しました。
特徴マッチング フェーズ内で、不一致を除外するために相互検証マッチングを導入しました。
キーフレーム選択戦略では、キーフレーム選択プロセスを定量化するために指数関数しきい値関数が構築されます。
単一ロボットと比較して、マルチロボット協調 SLAM (CSLAM) システムはタスク実行の効率と堅牢性を大幅に向上させます。
集中構造を採用することにより、マルチロボット SLAM システムを定式化し、マルチマップ点群登録のための粗いものから細かいものまでのマッチング アプローチを設計します。
ORB-SLAM3 に基づいて構築された私たちのシステムは、TUM RGB-D、EuRoC MAV、および TUM_VI データセットを利用して広範な評価を受けました。
実験結果は、ORB-SLAM3 と比較して、強化されたアルゴリズムの測位精度とマッピング品質が大幅に向上し、絶対軌道誤差が 12.90% 減少したことを示しています。

要約(オリジナル)

The evolving field of mobile robotics has indeed increased the demand for simultaneous localization and mapping (SLAM) systems. To augment the localization accuracy and mapping efficacy of SLAM, we refined the core module of the SLAM system. Within the feature matching phase, we introduced cross-validation matching to filter out mismatches. In the keyframe selection strategy, an exponential threshold function is constructed to quantify the keyframe selection process. Compared with a single robot, the multi-robot collaborative SLAM (CSLAM) system substantially improves task execution efficiency and robustness. By employing a centralized structure, we formulate a multi-robot SLAM system and design a coarse-to-fine matching approach for multi-map point cloud registration. Our system, built upon ORB-SLAM3, underwent extensive evaluation utilizing the TUM RGB-D, EuRoC MAV, and TUM_VI datasets. The experimental results demonstrate a significant improvement in the positioning accuracy and mapping quality of our enhanced algorithm compared to those of ORB-SLAM3, with a 12.90% reduction in the absolute trajectory error.

arxiv情報

著者 Ang He,Xi-mei Wu,Xiao-bin Guo,Li-bin Liu
発行日 2024-10-07 13:18:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | コメントする