Towards Physically Interpretable World Models: Meaningful Weakly Supervised Representations for Visual Trajectory Prediction

要約

深い学習モデルは、複雑なシステムでの知覚、予測、および制御のためにますます採用されています。
これらのモデルに物理的知識を埋め込むことは、現実的で一貫した出力を達成するために重要です。これは、物理学に基づいた機械学習によってしばしば対処される課題です。
ただし、特に不完全または不正確な状態情報の条件下で、画像などの高次元観測データを扱う場合、物理的知識を表現学習と統合することは困難になります。
これに対処するために、物理的に解釈可能な世界モデルを提案します。これは、学習した潜在的な表現を実際の物理的量に合わせる新しいアーキテクチャです。
私たちの方法は、変分自動エンコーダーと、未知のシステムパラメーターを組み込んだ動的モデルを組み合わせて、物理的に意味のある表現の発見を可能にします。
間隔ベースの制約を伴う弱い監督を採用することにより、私たちのアプローチは、根本的な真実の物理的注釈への依存を排除​​します。
実験結果は、我々の方法が学習表現の品質を改善しながら、将来の状態の正確な予測を達成し、動的システムの表現学習の分野を進めることを示しています。

要約(オリジナル)

Deep learning models are increasingly employed for perception, prediction, and control in complex systems. Embedding physical knowledge into these models is crucial for achieving realistic and consistent outputs, a challenge often addressed by physics-informed machine learning. However, integrating physical knowledge with representation learning becomes difficult when dealing with high-dimensional observation data, such as images, particularly under conditions of incomplete or imprecise state information. To address this, we propose Physically Interpretable World Models, a novel architecture that aligns learned latent representations with real-world physical quantities. Our method combines a variational autoencoder with a dynamical model that incorporates unknown system parameters, enabling the discovery of physically meaningful representations. By employing weak supervision with interval-based constraints, our approach eliminates the reliance on ground-truth physical annotations. Experimental results demonstrate that our method improves the quality of learned representations while achieving accurate predictions of future states, advancing the field of representation learning in dynamic systems.

arxiv情報

著者 Zhenjiang Mao,Ivan Ruchkin
発行日 2025-01-27 18:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク