要約
ロボットの学習において、多関節動作の理解と予測は重要である。しかし、MLPやTransformerのような一般的なアーキテクチャには、多関節システムの基本的な運動学的構造を反映する帰納的バイアスが欠けている。このため、我々はニューラル・ロドリゲス演算子を提案する。この演算子は、古典的な順運動学演算の学習可能な一般化であり、運動学を考慮した誘導バイアスをニューラル計算に注入するように設計されている。このロドリゲス演算子を基に、動作処理に特化した新しい神経アーキテクチャであるロドリゲスネットワーク(RodriNet)を設計する。我々は、運動学的および動作予測に関する2つの合成タスクにおいて、我々のネットワークの表現力を評価し、標準的なバックボーンと比較して有意な改善を示した。さらに、2つの現実的なアプリケーションにおいて、その有効性を実証する:(i)拡散ポリシーを用いたロボットベンチマークにおける模倣学習、(ii)単一画像の3Dハンド再構築。我々の結果は、構造化された運動学的事前分布をネットワークアーキテクチャに統合することで、様々な領域における行動学習が改善されることを示唆している。
要約(オリジナル)
Understanding and predicting articulated actions is important in robot learning. However, common architectures such as MLPs and Transformers lack inductive biases that reflect the underlying kinematic structure of articulated systems. To this end, we propose the Neural Rodrigues Operator, a learnable generalization of the classical forward kinematics operation, designed to inject kinematics-aware inductive bias into neural computation. Building on this operator, we design the Rodrigues Network (RodriNet), a novel neural architecture specialized for processing actions. We evaluate the expressivity of our network on two synthetic tasks on kinematic and motion prediction, showing significant improvements compared to standard backbones. We further demonstrate its effectiveness in two realistic applications: (i) imitation learning on robotic benchmarks with the Diffusion Policy, and (ii) single-image 3D hand reconstruction. Our results suggest that integrating structured kinematic priors into the network architecture improves action learning in various domains.
arxiv情報
著者 | Jialiang Zhang,Haoran Geng,Yang You,Congyue Deng,Pieter Abbeel,Jitendra Malik,Leonidas Guibas |
発行日 | 2025-06-03 08:34:06+00:00 |
arxivサイト | arxiv_id(pdf) |