Situationally-Aware Dynamics Learning

要約

複雑で構造化されていない環境で動作する自律的なロボットは、内部状態と外界の両方の理解を曖昧にする潜在的で観察されていない要因のために、重大な課題に直面しています。
この課題に対処することで、ロボットは運用上のコンテキストをより深く把握できるようになります。
これに取り組むために、隠された状態表現をオンラインで学習するための新しいフレームワークを提案します。ロボットは、そうでなければ曖昧であり、最適ではない動作または誤った行動をもたらす不確実かつ動的な条件にリアルタイムで適応できます。
私たちのアプローチは、一般化された隠されたパラメーターマルコフ決定プロセスとして形式化されており、遷移ダイナミクスと報酬構造の両方に対する観察されていないパラメーターの影響を明示的にモデル化します。
私たちのコアイノベーションは、潜在的な自我および環境ファクターの表現力のある表現として機能する州の移行の共同分布をオンラインで学習することにあります。
この確率的アプローチは、さまざまな運用状況の特定と適応をサポートし、堅牢性と安全性を向上させます。
ベイジアンオンラインチェンジポイント検出の多変量拡張を通じて、メソッドセグメントは、ロボットのダイナミクスを管理する基礎となるデータ生成プロセスの変化をセグメントします。
その後、ロボットの遷移モデルは、最新の状態遷移の共同分布から導き出された現在の状況の象徴的な表現で通知され、適応的およびコンテキスト認識の意思決定を可能にします。
現実世界の有効性を紹介するために、モデル化されていない未測定の地形特性がロボットの動きに大きな影響を与える可能性のある、構造化されていない地形ナビゲーションの挑戦的なタスクでのアプローチを検証します。
シミュレーションと現実の両方の世界での広範な実験により、データの効率、政策パフォーマンス、およびより安全で適応性のあるナビゲーション戦略の出現の大幅な改善が明らかになりました。

要約(オリジナル)

Autonomous robots operating in complex, unstructured environments face significant challenges due to latent, unobserved factors that obscure their understanding of both their internal state and the external world. Addressing this challenge would enable robots to develop a more profound grasp of their operational context. To tackle this, we propose a novel framework for online learning of hidden state representations, with which the robots can adapt in real-time to uncertain and dynamic conditions that would otherwise be ambiguous and result in suboptimal or erroneous behaviors. Our approach is formalized as a Generalized Hidden Parameter Markov Decision Process, which explicitly models the influence of unobserved parameters on both transition dynamics and reward structures. Our core innovation lies in learning online the joint distribution of state transitions, which serves as an expressive representation of latent ego- and environmental-factors. This probabilistic approach supports the identification and adaptation to different operational situations, improving robustness and safety. Through a multivariate extension of Bayesian Online Changepoint Detection, our method segments changes in the underlying data generating process governing the robot’s dynamics. The robot’s transition model is then informed with a symbolic representation of the current situation derived from the joint distribution of latest state transitions, enabling adaptive and context-aware decision-making. To showcase the real-world effectiveness, we validate our approach in the challenging task of unstructured terrain navigation, where unmodeled and unmeasured terrain characteristics can significantly impact the robot’s motion. Extensive experiments in both simulation and real world reveal significant improvements in data efficiency, policy performance, and the emergence of safer, adaptive navigation strategies.

arxiv情報

著者 Alejandro Murillo-Gonzalez,Lantao Liu
発行日 2025-05-26 06:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, math.OC パーマリンク