Task-Oriented Active Learning of Model Preconditions for Inaccurate Dynamics Models

要約

不正確なダイナミクス モデルを使用して計画を立てる場合、実際的な戦略は、モデルが正確である状態アクション空間の領域に計画を制限することです (モデルの前提条件とも呼ばれます)。
経験的な現実世界の軌跡データは、モデルの形式 (分析、シミュレーター、学習済みなど) に関係なく、データ駆動型モデルの前提条件を定義するのに役立ちます。
ただし、現実世界のデータは多くの場合、収集に費用がかかり、危険です。
データ効率を達成するために、この論文では、不正確な事前に指定されたダイナミクス モデルのモデル前提条件を学習するための軌道を能動的に選択するアルゴリズムを紹介します。
私たちが提案する手法は、軌跡の連続的な性質から生じる課題と、タスク関連データの優先順位付けの潜在的な利点に対処します。
実験分析では、氷のグリッドワールド、シミュレートされた植物の水やり、現実世界の植物の水やりという 3 つの計画シナリオで、アルゴリズムのプロパティがパフォーマンスにどのような影響を与えるかを示しています。
結果は、私たちが提案した技術を使用した場合、わずか 4 つの現実世界の軌道で約 80% の改善が実証されました。

要約(オリジナル)

When planning with an inaccurate dynamics model, a practical strategy is to restrict planning to regions of state-action space where the model is accurate: also known as a model precondition. Empirical real-world trajectory data is valuable for defining data-driven model preconditions regardless of the model form (analytical, simulator, learned, etc…). However, real-world data is often expensive and dangerous to collect. In order to achieve data efficiency, this paper presents an algorithm for actively selecting trajectories to learn a model precondition for an inaccurate pre-specified dynamics model. Our proposed techniques address challenges arising from the sequential nature of trajectories, and potential benefit of prioritizing task-relevant data. The experimental analysis shows how algorithmic properties affect performance in three planning scenarios: icy gridworld, simulated plant watering, and real-world plant watering. Results demonstrate an improvement of approximately 80% after only four real-world trajectories when using our proposed techniques.

arxiv情報

著者 Alex LaGrassa,Moonyoung Lee,Oliver Kroemer
発行日 2024-01-08 16:37:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク