One-shot Video Imitation via Parameterized Symbolic Abstraction Graphs

要約

単一のデモンストレーション ビデオから動的で変形可能なオブジェクトを操作する方法を学習すると、スケーラビリティの点で大きな期待が高まります。
これまでのアプローチは主に、オブジェクトの関係またはアクターの軌跡の再生に焦点を当てていました。
前者はさまざまなタスクにわたって一般化するのに苦労することが多く、後者はデータの非効率性に悩まされます。
さらに、どちらの方法論も、力などの目に見えない物理的属性を捕捉する際に課題に直面します。
この論文では、パラメータ化されたシンボリック抽象化グラフ (PSAG) を通じてビデオ デモンストレーションを解釈することを提案します。PSAG では、ノードがオブジェクトを表し、エッジがオブジェクト間の関係を示します。
シミュレーションを通じて幾何学的制約をさらに具体化して、非幾何学的で視覚的に認識できない属性を推定します。
拡張された PSAG は実際のロボット実験に適用されます。
私たちのアプローチは、アボカドのカット、野菜のカット、液体の注ぎ、生地の丸め、ピザのスライスなど、さまざまな作業にわたって検証されています。
我々は、明確な視覚的および物理的特性を持つ新しいオブジェクトへの成功した一般化を実証します。

要約(オリジナル)

Learning to manipulate dynamic and deformable objects from a single demonstration video holds great promise in terms of scalability. Previous approaches have predominantly focused on either replaying object relationships or actor trajectories. The former often struggles to generalize across diverse tasks, while the latter suffers from data inefficiency. Moreover, both methodologies encounter challenges in capturing invisible physical attributes, such as forces. In this paper, we propose to interpret video demonstrations through Parameterized Symbolic Abstraction Graphs (PSAG), where nodes represent objects and edges denote relationships between objects. We further ground geometric constraints through simulation to estimate non-geometric, visually imperceptible attributes. The augmented PSAG is then applied in real robot experiments. Our approach has been validated across a range of tasks, such as Cutting Avocado, Cutting Vegetable, Pouring Liquid, Rolling Dough, and Slicing Pizza. We demonstrate successful generalization to novel objects with distinct visual and physical properties.

arxiv情報

著者 Jianren Wang,Kangni Liu,Dingkun Guo,Xian Zhou,Christopher G Atkeson
発行日 2024-08-22 18:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク