要約
汎用ロボット操作システムの構築には、多くの場合、収集が困難な大量の実世界データが必要になります。
合成データの生成は有望な代替手段となりますが、シミュレーションと実際のギャップを制限するには多大なエンジニアリングの努力が必要です。
このエンジニアリングの労力を軽減するために、合成画像をテクスチャリングするための事前トレーニング済みのテキストから画像への拡散モデルの使用を調査し、このアプローチを、合成データ生成における一般的なドメインのランダム化手法であるランダム テクスチャの使用と比較します。
私たちは、ロボット操作にとって重要であり、正確な注釈を必要とする、キーポイントやセグメンテーション マスクなどのオブジェクト中心の表現の生成に焦点を当てています。
靴、T シャツ、マグカップの 3 つのオブジェクト カテゴリについて、合成データでモデルをトレーニングし、現実世界のデータセットでそのパフォーマンスを測定することによって、テクスチャリング手法の有効性を評価します。
驚くべきことに、拡散モデルを使用したテクスチャリングは、一見より現実的な画像を生成するにもかかわらず、ランダム テクスチャと同等のパフォーマンスを発揮することがわかりました。
私たちの結果は、今のところ、テクスチャリングに拡散モデルを使用することは、ロボット工学のための合成データ生成に利益をもたらさないことを示唆しています。
コード、データ、トレーニングされたモデルは \url{https://github.com/tlpss/diffusing-synthetic-data.git} で入手できます。
要約(オリジナル)
Building generic robotic manipulation systems often requires large amounts of real-world data, which can be dificult to collect. Synthetic data generation offers a promising alternative, but limiting the sim-to-real gap requires significant engineering efforts. To reduce this engineering effort, we investigate the use of pretrained text-to-image diffusion models for texturing synthetic images and compare this approach with using random textures, a common domain randomization technique in synthetic data generation. We focus on generating object-centric representations, such as keypoints and segmentation masks, which are important for robotic manipulation and require precise annotations. We evaluate the efficacy of the texturing methods by training models on the synthetic data and measuring their performance on real-world datasets for three object categories: shoes, T-shirts, and mugs. Surprisingly, we find that texturing using a diffusion model performs on par with random textures, despite generating seemingly more realistic images. Our results suggest that, for now, using diffusion models for texturing does not benefit synthetic data generation for robotics. The code, data and trained models are available at \url{https://github.com/tlpss/diffusing-synthetic-data.git}.
arxiv情報
著者 | Thomas Lips,Francis wyffels |
発行日 | 2024-11-15 13:12:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google