Generative Modeling Perspective for Control and Reasoning in Robotics

要約

音声認識と画像分類における最初の成功をきっかけに、一般にディープラーニングと呼ばれるニューラル ネットワークを使用した学習ベースのアプローチがさまざまな分野に広がりました。
ニューラル ネットワークの原始的な形式は、トレーニング可能な重みによってパラメータ化された、あるベクトルから別のベクトルへの決定論的なマッピングとして機能します。
これは、対象のタスクを解決するために必要な 1 対 1 のマッピング (フロント カメラのビューをステアリング角度にマッピングするなど) をモデルが学習する点推定に適しています。
このような決定論的な 1 対 1 マッピングの学習は効果的ですが、 \emph{マルチモーダル} データ分布のモデル化、つまり 1 対多の関係の学習が役立つ、または必要になるシナリオもあります。
この論文では、ロボット工学の問題について生成モデリングの観点を採用します。
生成モデルは、点推定を実行するのではなく、多峰性分布からサンプルを学習して生成します。
この視点がロボット工学の 3 つのトピックにもたらす利点を探っていきます。

要約(オリジナル)

Heralded by the initial success in speech recognition and image classification, learning-based approaches with neural networks, commonly referred to as deep learning, have spread across various fields. A primitive form of a neural network functions as a deterministic mapping from one vector to another, parameterized by trainable weights. This is well suited for point estimation in which the model learns a one-to-one mapping (e.g., mapping a front camera view to a steering angle) that is required to solve the task of interest. Although learning such a deterministic, one-to-one mapping is effective, there are scenarios where modeling \emph{multimodal} data distributions, namely learning one-to-many relationships, is helpful or even necessary. In this thesis, we adopt a generative modeling perspective on robotics problems. Generative models learn and produce samples from multimodal distributions, rather than performing point estimation. We will explore the advantages this perspective offers for three topics in robotics.

arxiv情報

著者 Takuma Yoneda
発行日 2024-08-30 06:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク