Learning Geometric Representations of Objects via Interaction

要約

私たちは、エージェントが関与するシーンとエージェントが対話する外部オブジェクトの観察から表現を学習するという問題に取り組みます。
この目的を達成するために、任意の性質の非構造化観察からエージェントとオブジェクトの両方の物理空間内の位置を抽出する表現学習フレームワークを提案します。
私たちのフレームワークは、監視の唯一のソースとしてエージェントによって実行されるアクションに依存していますが、オブジェクトは未知のダイナミクスを介してエージェントによって移動されると想定しています。
私たちは理論的基礎を提供し、理想的な学習者が等角表現を推論し、オブジェクトからエージェントを解きほぐし、それらの位置を正しく抽出することが保証されていることを正式に証明します。
私たちはさまざまなシナリオでフレームワークを経験的に評価し、最先端のキーポイント抽出機能などのビジョンベースのアプローチよりも優れていることを示しています。
さらに、抽出された表現により、エージェントが強化学習を通じて効率的な方法で下流のタスクを解決できるようにする方法を示します。

要約(オリジナル)

We address the problem of learning representations from observations of a scene involving an agent and an external object the agent interacts with. To this end, we propose a representation learning framework extracting the location in physical space of both the agent and the object from unstructured observations of arbitrary nature. Our framework relies on the actions performed by the agent as the only source of supervision, while assuming that the object is displaced by the agent via unknown dynamics. We provide a theoretical foundation and formally prove that an ideal learner is guaranteed to infer an isometric representation, disentangling the agent from the object and correctly extracting their locations. We evaluate empirically our framework on a variety of scenarios, showing that it outperforms vision-based approaches such as a state-of-the-art keypoint extractor. We moreover demonstrate how the extracted representations enable the agent to solve downstream tasks via reinforcement learning in an efficient manner.

arxiv情報

著者 Alfredo Reichlin,Giovanni Luca Marchetti,Hang Yin,Anastasiia Varava,Danica Kragic
発行日 2023-09-11 09:45:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク