要約
拡散モデルは、画像・映像生成技術の向上において重要なマイルストーンとなった。しかし、ロボットのような移動体の形状や位置を正確に保持した映像を生成することは、依然として課題である。本論文では、移動ロボットの形状と位置を正確に保持した映像を生成するために特別に調整された拡散モデルを紹介する。この開発により、衝突検知モデルの学習データの作成が容易になり、しばしば法的・倫理的問題を伴う実世界からのデータ収集の必要性を回避することで、人間とロボットとの危険な相互作用の検知に取り組む人々に大きな利益をもたらす。我々のモデルには、アクセス可能なロボットのポーズ情報を埋め込み、ConvNextバックボーンネットワーク内でセマンティックマスク規制を適用するなどの技術が組み込まれている。これらの技法は、中間出力を洗練させ、形状と位置の保持性能を向上させるように設計されている。広範な実験を通じて、我々のモデルは、ベンチマーク拡散モデルと比較して、異なるロボットの形状と位置を維持し、全体的なビデオ生成品質を向上させる顕著な改善を実証した。コードはGithubで公開されます。
要約(オリジナル)
Diffusion models have marked a significant milestone in the enhancement of image and video generation technologies. However, generating videos that precisely retain the shape and location of moving objects such as robots remains a challenge. This paper presents diffusion models specifically tailored to generate videos that accurately maintain the shape and location of mobile robots. This development offers substantial benefits to those working on detecting dangerous interactions between humans and robots by facilitating the creation of training data for collision detection models, circumventing the need for collecting data from the real world, which often involves legal and ethical issues. Our models incorporate techniques such as embedding accessible robot pose information and applying semantic mask regulation within the ConvNext backbone network. These techniques are designed to refine intermediate outputs, therefore improving the retention performance of shape and location. Through extensive experimentation, our models have demonstrated notable improvements in maintaining the shape and location of different robots, as well as enhancing overall video generation quality, compared to the benchmark diffusion model. Codes will be opensourced at \href{https://github.com/PengPaulWang/diffusion-robots}{Github}.
arxiv情報
著者 | Peng Wang,Zhihao Guo,Abdul Latheef Sait,Minh Huy Pham |
発行日 | 2024-07-03 07:38:26+00:00 |
arxivサイト | arxiv_id(pdf) |