Fabrics: A Foundationally Stable Medium for Encoding Prior Experience

要約

ほとんどのダイナミクス関数は、タスクの要件に十分に適合していません。
したがって、コントローラーはダイナミクスを逆転させ、より有用なものに再形成することがよくあります。
学習コミュニティは、Operational Space Control (OSC) などのこれらのコントローラーがトレーニングに重要な誘導バイアスを提供する可能性があることを発見しました。
ただし、OSC は直線のエンドエフェクターの動きのみをキャプチャします。
これらのシステムには、さらに多くの動作を組み込むことができ、組み込む必要があります。
以前の研究 [15][16][19] は、これらのアイデアを一般化し、実質的な動作 (上記のような) を捕捉するのに十分な表現力を同時に備えた、幅広く柔軟なクラスの 2 次力学システムを構築する理論を開発しました。
OSC とコントローラーがポリシー設計と学習の優れた基盤となる安定性プロパティの種類。
この論文は、[20] で使用されたファブリックの種類の経験的な成功に動機づけられ、ファブリックの理論をより一般的でポリシー学習の問題に適用しやすい形に再定式化しています。
私たちは、ファブリックをポリシー合成の優れた基盤にする安定性の特性に焦点を当てています。
ファブリックは、ポリシーが動作できる基本的に安定した媒体を作成します。
それらは、制約内でタスクを達成することを妨げることなく、システムの動作に影響を与えます。
ファブリックが幾何学的である (パスが一貫している) 場合、ファブリックは、強制ポリシーが存在しない場合にシステムが一定の速度でたどることを希望するパスの道路ネットワークを形成していると解釈でき、事前分布としてのその役割に幾何学的直観が与えられます。
幾何学的ファブリック上で動作するポリシーは、速度を調整するように機能し、システムがタスクを完了する際に、ある道路から次の道路へシステムを操縦します。
私たちはここでファブリックの理論を厳密に再定式化し、システムの動作を特徴づけ、これらのシステムを設計する方法を明らかにする理論的結果を開発するとともに、全体を通して直観を強調します。

要約(オリジナル)

Most dynamics functions are not well-aligned to task requirements. Controllers, therefore, often invert the dynamics and reshape it into something more useful. The learning community has found that these controllers, such as Operational Space Control (OSC), can offer important inductive biases for training. However, OSC only captures straight line end-effector motion. There’s a lot more behavior we could and should be packing into these systems. Earlier work [15][16][19] developed a theory that generalized these ideas and constructed a broad and flexible class of second-order dynamical systems which was simultaneously expressive enough to capture substantial behavior (such as that listed above), and maintained the types of stability properties that make OSC and controllers like it a good foundation for policy design and learning. This paper, motivated by the empirical success of the types of fabrics used in [20], reformulates the theory of fabrics into a form that’s more general and easier to apply to policy learning problems. We focus on the stability properties that make fabrics a good foundation for policy synthesis. Fabrics create a fundamentally stable medium within which a policy can operate; they influence the system’s behavior without preventing it from achieving tasks within its constraints. When a fabrics is geometric (path consistent) we can interpret the fabric as forming a road network of paths that the system wants to follow at constant speed absent a forcing policy, giving geometric intuition to its role as a prior. The policy operating over the geometric fabric acts to modulate speed and steers the system from one road to the next as it accomplishes its task. We reformulate the theory of fabrics here rigorously and develop theoretical results characterizing system behavior and illuminating how to design these systems, while also emphasizing intuition throughout.

arxiv情報

著者 Nathan Ratliff,Karl Van Wyk
発行日 2023-09-14 01:01:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク