Trajectory Generation, Control, and Safety with Denoising Diffusion Probabilistic Models

要約

ノイズ除去拡散確率モデル (DDPM) に基づいた物理システムのセーフティ クリティカルな最適制御のためのフレームワークを紹介します。
望ましい安全制約をエンコードするコントロール バリア ファンクション (CBF) のテクノロジーは、DDPM と組み合わせて使用​​され、CBF ベースのガイド付きサンプリング手順を通じて軌道のノイズを反復的に除去することでアクションを計画します。
同時に、生成された軌道は、最適に実行される特定のタスクを表す将来の累積報酬を最大化するようにも誘導されます。
提案されたスキームは、選択されたアクションが最適で安全な軌道につながる後退地平線を備えたモデル予測制御最適化スキームに機能的に類似した、オフラインのモデルベースの強化学習アルゴリズムと見なすことができます。

要約(オリジナル)

We present a framework for safety-critical optimal control of physical systems based on denoising diffusion probabilistic models (DDPMs). The technology of control barrier functions (CBFs), encoding desired safety constraints, is used in combination with DDPMs to plan actions by iteratively denoising trajectories through a CBF-based guided sampling procedure. At the same time, the generated trajectories are also guided to maximize a future cumulative reward representing a specific task to be optimally executed. The proposed scheme can be seen as an offline and model-based reinforcement learning algorithm resembling in its functionalities a model-predictive control optimization scheme with receding horizon in which the selected actions lead to optimal and safe trajectories.

arxiv情報

著者 Nicolò Botteghi,Federico Califano,Mannes Poel,Christoph Brune
発行日 2023-06-27 14:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク