Online Control-Informed Learning

要約

このペーパーでは、オンライン制御の分野で確立された最適な制御と状態推定技術を採用して、オンラインでの学習タスクを解決するために、確立された最適な制御と状態推定技術を採用するオンライン制御に基づいた学習(OCIL)フレームワークを提案します。
この新しい統合は、ノイズの多い測定データ、オンライン学習、データ効率など、機械学習における実用的な問題を効果的に処理します。
ロボットを調整可能な最適制御システムと見なすことにより、拡張カルマンフィルター(EKF)に基づいたオンラインパラメーター推定器を提案して、システムをオンラインファッションで段階的に調整し、指定された学習または制御タスクを完了できるようにします。
提案された方法は、データのノイズを効果的に管理することにより、学習の堅牢性を改善します。
OCILの収束を実証するために、理論分析が提供されます。
OCILの3つの学習モード、すなわちオンライン模倣学習、オンラインシステム識別、およびフライでのポリシーチューニングは、それらの有効性を検証する実験を介して調査されます。

要約(オリジナル)

This paper proposes an Online Control-Informed Learning (OCIL) framework, which employs the well-established optimal control and state estimation techniques in the field of control to solve a broad class of learning tasks in an online fashion. This novel integration effectively handles practical issues in machine learning such as noisy measurement data, online learning, and data efficiency. By considering any robot as a tunable optimal control system, we propose an online parameter estimator based on extended Kalman filter (EKF) to incrementally tune the system in an online fashion, enabling it to complete designated learning or control tasks. The proposed method also improves the robustness in learning by effectively managing noise in the data. Theoretical analysis is provided to demonstrate the convergence of OCIL. Three learning modes of OCIL, i.e. Online Imitation Learning, Online System Identification, and Policy Tuning On-the-fly, are investigated via experiments, which validate their effectiveness.

arxiv情報

著者 Zihao Liang,Tianyu Zhou,Zehui Lu,Shaoshuai Mou
発行日 2025-03-11 15:22:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY, math.OC パーマリンク