Learning Sequential Latent Variable Models from Multimodal Time Series Data

要約

高次元データのシーケンシャル モデリングは、モデルベースの強化学習や制御のためのダイナミクス同定など、多くの領域で現れる重要な問題です。
シーケンシャル データに適用される潜在変数モデル (つまり、潜在ダイナミクス モデル) は、特に画像を扱う場合に、この問題を解決するための特に効果的な確率論的アプローチであることが示されています。
ただし、多くの応用分野 (ロボット工学など) では、複数のセンシング モダリティからの情報が利用可能です。既存の潜在ダイナミクス手法は、このようなマルチモーダル シーケンシャル データを効果的に利用できるようにはまだ拡張されていません。
マルチモーダル センサー ストリームは、有用な方法で関連付けることができ、多くの場合、モダリティ間で補完的な情報を含んでいます。
この作業では、マルチモーダルデータの確率的潜在状態表現とそれぞれのダイナミクスを共同で学習するための自己教師付き生成モデリングフレームワークを提示します。
マルチモーダルロボット平面プッシュタスクからの合成データセットと現実世界のデータセットを使用して、私たちのアプローチが予測と表現の品質の大幅な改善につながることを示します。
さらに、潜在空間で各モダリティを連結する一般的な学習ベースラインと比較し、原理に基づく確率論的定式化がより優れていることを示します。
最後に、完全に自己教師ありであるにもかかわらず、私たちの方法がグラウンド トゥルース ラベルに依存する既存の教師ありアプローチとほぼ同じくらい効果的であることを示します。

要約(オリジナル)

Sequential modelling of high-dimensional data is an important problem that appears in many domains including model-based reinforcement learning and dynamics identification for control. Latent variable models applied to sequential data (i.e., latent dynamics models) have been shown to be a particularly effective probabilistic approach to solve this problem, especially when dealing with images. However, in many application areas (e.g., robotics), information from multiple sensing modalities is available — existing latent dynamics methods have not yet been extended to effectively make use of such multimodal sequential data. Multimodal sensor streams can be correlated in a useful manner and often contain complementary information across modalities. In this work, we present a self-supervised generative modelling framework to jointly learn a probabilistic latent state representation of multimodal data and the respective dynamics. Using synthetic and real-world datasets from a multimodal robotic planar pushing task, we demonstrate that our approach leads to significant improvements in prediction and representation quality. Furthermore, we compare to the common learning baseline of concatenating each modality in the latent space and show that our principled probabilistic formulation performs better. Finally, despite being fully self-supervised, we demonstrate that our method is nearly as effective as an existing supervised approach that relies on ground truth labels.

arxiv情報

著者 Oliver Limoyo,Trevor Ablett,Jonathan Kelly
発行日 2023-01-20 07:11:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク