Learning 3D Robotics Perception using Inductive Priors

要約

深層学習の最近の進歩により、データ中心のインテリジェンスが実現されました。つまり、人工知能モデルは、大量のデータを取り込み、テキストから画像の生成、機械と人間の会話、
画像認識。
この論文では、原理中心のインテリジェンスの可能性を解き放つアプローチとアルゴリズムを設計する前の、構造化された帰納的バイアスによる学習のトピックを取り上げます。
事前知識 (略してプリアー) は、過去の経験や世界がどのように機能するかについての仮定の観点から利用できることが多く、自律エージェントが過去の経験に基づいてより適切に一般化し、行動を適応させるのに役立ちます。
この論文では、3 つの異なるロボットの認識問題における事前知識の使用を実証します。
1. オブジェクト中心の 3D 再構成、2. 意思決定のための視覚と言語、3. 3D シーンの理解。
これらの困難な問題を解決するために、私は、1. 合成データからの幾何学と外観の事前分布、2. モジュール性と意味マップの事前分布、3. 意味論的、構造的、および文脈上の事前分布を含むさまざまな事前知識のソースを提案します。
私はロボット工学の 3D 認識タスクを解決するためのこれらの事前確率を研究し、深層学習モデルでそれらを効率的にエンコードする方法を提案します。
事前分布の中には、転移学習用にネットワークをウォームスタートするために使用されるものもあれば、ロボット エージェントの動作空間を制限するためのハード制約として使用されるものもあります。
古典的な手法は脆弱で、目に見えないシナリオに一般化することができず、データ中心のアプローチには大量のラベル付きデータが必要ですが、この論文は、現実世界のデータまたはシミュレーションからのみ取得したデータをほとんど必要とせずに一般化するインテリジェントなエージェントを構築することを目的としています。
3D 世界の全体的なシーンを理解するための、新しいシミュレーション (つまり sim2sim) または現実世界の目に見えない環境 (つまり sim2real) における非常に動的で乱雑な環境。

要約(オリジナル)

Recent advances in deep learning have led to a data-centric intelligence i.e. artificially intelligent models unlocking the potential to ingest a large amount of data and be really good at performing digital tasks such as text-to-image generation, machine-human conversation, and image recognition. This thesis covers the topic of learning with structured inductive bias and priors to design approaches and algorithms unlocking the potential of principle-centric intelligence. Prior knowledge (priors for short), often available in terms of past experience as well as assumptions of how the world works, helps the autonomous agent generalize better and adapt their behavior based on past experience. In this thesis, I demonstrate the use of prior knowledge in three different robotics perception problems. 1. object-centric 3D reconstruction, 2. vision and language for decision-making, and 3. 3D scene understanding. To solve these challenging problems, I propose various sources of prior knowledge including 1. geometry and appearance priors from synthetic data, 2. modularity and semantic map priors and 3. semantic, structural, and contextual priors. I study these priors for solving robotics 3D perception tasks and propose ways to efficiently encode them in deep learning models. Some priors are used to warm-start the network for transfer learning, others are used as hard constraints to restrict the action space of robotics agents. While classical techniques are brittle and fail to generalize to unseen scenarios and data-centric approaches require a large amount of labeled data, this thesis aims to build intelligent agents which require very-less real-world data or data acquired only from simulation to generalize to highly dynamic and cluttered environments in novel simulations (i.e. sim2sim) or real-world unseen environments (i.e. sim2real) for a holistic scene understanding of the 3D world.

arxiv情報

著者 Muhammad Zubair Irshad
発行日 2024-05-30 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク