要約
人型ロボットは、人間から学ぶことで、人間の形状との類似性から恩恵を受けることができます。
人間が他の人間に動作の実行方法を教えるとき、彼らはその動作を実演することが多く、学習した人間はその実演を真似しようとすることができます。
三人称の視点から見たデモンストレーションから、一人称の視点から見たデモンストレーションを精神的に移行できることは、人間のこの能力の基本です。
これは難しいタスクであるため、ロボット向けに一人称視点でデモンストレーションを作成することで簡略化されることがよくあります。
これらのデモンストレーションを作成するには、より多くの労力が必要ですが、簡単に模倣することができます。
ロボットが三人称デモンストレーションから直接学習できるようにすることを目的とした新しい普及モデルを紹介します。
私たちのモデルは、オブジェクトと環境のサイズと回転を 2 つの視点間で変換することによって、三人称視点から一人称視点を学習および生成できます。
これにより、三人称のデモンストレーションが作成しやすく、一人称のデモンストレーションが模倣しやすいという利点を活用できます。
モデルは、RGB イメージで一人称視点を表現することも、ジョイント値を計算することもできます。
このタスクでは、私たちのアプローチは他の画像間モデルよりも大幅に優れています。
要約(オリジナル)
Humanoid robots can benefit from their similarity to the human shape by learning from humans. When humans teach other humans how to perform actions, they often demonstrate the actions and the learning human can try to imitate the demonstration. Being able to mentally transfer from a demonstration seen from a third-person perspective to how it should look from a first-person perspective is fundamental for this ability in humans. As this is a challenging task, it is often simplified for robots by creating a demonstration in the first-person perspective. Creating these demonstrations requires more effort but allows for an easier imitation. We introduce a novel diffusion model aimed at enabling the robot to directly learn from the third-person demonstrations. Our model is capable of learning and generating the first-person perspective from the third-person perspective by translating the size and rotations of objects and the environment between two perspectives. This allows us to utilise the benefits of easy-to-produce third-person demonstrations and easy-to-imitate first-person demonstrations. The model can either represent the first-person perspective in an RGB image or calculate the joint values. Our approach significantly outperforms other image-to-image models in this task.
arxiv情報
| 著者 | Josua Spisak,Matthias Kerzel,Stefan Wermter | 
| 発行日 | 2024-04-11 13:30:03+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
