要約
オブジェクト中心の表現は、前方予測に不可欠な抽象化です。
既存のフォワード モデルのほとんどは、広範な監視 (オブジェクト クラスやバウンディング ボックスなど) を通じてこの表現を学習しますが、そのようなグラウンド トゥルース情報は実際には容易にアクセスできません。
これに対処するために、キーポイント表現に基づいてオブジェクトの対話を推論するためのエンドツーエンドの教師なしフレームワークである KINet (Keypoint Interaction Network) を導入します。
視覚的な観察を使用して、モデルはオブジェクトをキーポイント座標に関連付けることを学習し、キーポイントの埋め込みとそれらの関係のセットとしてシステムのグラフ表現を発見します。
次に、対比推定を使用してアクション条件付きフォワード モデルを学習し、将来のキーポイントの状態を予測します。
キーポイント空間で物理的推論を実行する方法を学習することにより、モデルは、さまざまな数のオブジェクト、新しい背景、目に見えないオブジェクトのジオメトリを含むシナリオに自動的に一般化されます。
実験では、前方予測を正確に実行し、下流のロボットによる押し操作タスクの計画可能なオブジェクト中心の表現を学習する際のモデルの有効性を実証しています。
要約(オリジナル)
Object-centric representation is an essential abstraction for forward prediction. Most existing forward models learn this representation through extensive supervision (e.g., object class and bounding box) although such ground-truth information is not readily accessible in reality. To address this, we introduce KINet (Keypoint Interaction Network) — an end-to-end unsupervised framework to reason about object interactions based on a keypoint representation. Using visual observations, our model learns to associate objects with keypoint coordinates and discovers a graph representation of the system as a set of keypoint embeddings and their relations. It then learns an action-conditioned forward model using contrastive estimation to predict future keypoint states. By learning to perform physical reasoning in the keypoint space, our model automatically generalizes to scenarios with a different number of objects, novel backgrounds, and unseen object geometries. Experiments demonstrate the effectiveness of our model in accurately performing forward prediction and learning plannable object-centric representations for downstream robotic pushing manipulation tasks.
arxiv情報
| 著者 | Alireza Rezazadeh,Changhyun Choi |
| 発行日 | 2023-08-05 21:39:42+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google