要約
相対配置タスクは、あるオブジェクトを別のオブジェクトに対して望ましいポーズで配置する必要があるタスクの重要なカテゴリです。
これまでの研究では、幾何学的帰納的バイアスを備えた関係推論ネットワークを使用した場合に、わずかな数のデモンストレーションから相対配置タスクを学習することに成功したことが示されています。
ただし、このような方法では、n 個のラックのいずれかにマグカップがぶら下がっているような、マルチモーダルなタスクを柔軟に表現することはできません。
我々は、証明可能な翻訳不変性および以前の研究の関係特性を保持しながら、マルチモーダル相対配置ソリューションの学習を可能にする追加の特性を組み込む方法を提案します。
私たちの方法が、カテゴリ内のさまざまなオブジェクトのセットにわたって人間による注釈なしでわずか 10 ~ 20 個のマルチモーダル デモンストレーションで正確な相対配置タスクを学習できることを示します。
要約(オリジナル)
Relative placement tasks are an important category of tasks in which one object needs to be placed in a desired pose relative to another object. Previous work has shown success in learning relative placement tasks from just a small number of demonstrations when using relational reasoning networks with geometric inductive biases. However, such methods cannot flexibly represent multimodal tasks, like a mug hanging on any of n racks. We propose a method that incorporates additional properties that enable learning multimodal relative placement solutions, while retaining the provably translation-invariant and relational properties of prior work. We show that our method is able to learn precise relative placement tasks with only 10-20 multimodal demonstrations with no human annotations across a diverse set of objects within a category.
arxiv情報
著者 | Jenny Wang,Octavian Donca,David Held |
発行日 | 2024-05-07 18:45:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google