Synthetica: Large Scale Synthetic Data for Robot Perception

要約

ビジョンベースの物体検出器は、環境内の物体の位置特定に関する貴重な情報を提供するため、ロボット工学アプリケーションの重要な基盤です。
これらはすべてリアルタイムで実行しながら、さまざまな照明条件、オクルージョン、視覚的アーティファクトにおいて高い信頼性を確保する必要があります。
これらのネットワークの実世界データの収集と注釈付けは、特に工業用オブジェクトなどのカスタム資産の場合、法外な時間とコストがかかるため、実際のシナリオに一般化するのは不可能です。
この目的を達成するために、ロバストな状態推定器をトレーニングするための大規模合成データ生成方法である Synthetica を紹介します。
この論文では、姿勢推定などのほとんどの状態推定問題のフロントエンドとして機能する重要な問題であるオブジェクト検出のタスクに焦点を当てます。
フォトリアリスティックなレイトレーシング レンダラーからのデータを活用して、データ生成をスケールアップして 270 万枚の画像を生成し、高精度のリアルタイム検出トランスフォーマーをトレーニングします。
視覚タスクの堅牢なシミュレーションから現実へのパフォーマンスを実現する、レンダリングのランダム化とトレーニング時のデータ拡張技術のコレクションを紹介します。
当社は、以前の SOTA よりも 9 倍高速である 50 ~ 100Hz で動作する検出器を備えながら、物体検出のタスクで最先端のパフォーマンスを実証します。
さらに、以前のデータセットが存在しないカスタム オブジェクトを使用して現実世界で使用するパイプラインを紹介することで、ロボット工学アプリケーションに対するトレーニング方法論の有用性を実証します。
私たちの研究は、最速のリアルタイム推論速度を達成しながら、堅牢な sim-to-real 転送を実現するために合成データ生成をスケーリングすることの重要性を強調しています。
ビデオと補足情報は、URL: https://sites.google.com/view/synthetica-vision でご覧いただけます。

要約(オリジナル)

Vision-based object detectors are a crucial basis for robotics applications as they provide valuable information about object localisation in the environment. These need to ensure high reliability in different lighting conditions, occlusions, and visual artifacts, all while running in real-time. Collecting and annotating real-world data for these networks is prohibitively time consuming and costly, especially for custom assets, such as industrial objects, making it untenable for generalization to in-the-wild scenarios. To this end, we present Synthetica, a method for large-scale synthetic data generation for training robust state estimators. This paper focuses on the task of object detection, an important problem which can serve as the front-end for most state estimation problems, such as pose estimation. Leveraging data from a photorealistic ray-tracing renderer, we scale up data generation, generating 2.7 million images, to train highly accurate real-time detection transformers. We present a collection of rendering randomization and training-time data augmentation techniques conducive to robust sim-to-real performance for vision tasks. We demonstrate state-of-the-art performance on the task of object detection while having detectors that run at 50-100Hz which is 9 times faster than the prior SOTA. We further demonstrate the usefulness of our training methodology for robotics applications by showcasing a pipeline for use in the real world with custom objects for which there do not exist prior datasets. Our work highlights the importance of scaling synthetic data generation for robust sim-to-real transfer while achieving the fastest real-time inference speeds. Videos and supplementary information can be found at this URL: https://sites.google.com/view/synthetica-vision.

arxiv情報

著者 Ritvik Singh,Jingzhou Liu,Karl Van Wyk,Yu-Wei Chao,Jean-Francois Lafleche,Florian Shkurti,Nathan Ratliff,Ankur Handa
発行日 2024-10-28 15:50:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク