DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics

要約

我々は、ロボティクスのためのウェブスケール拡散モデルを探求する最初の仕事を紹介する。DALL-E-Botは、ロボットがシーン内のオブジェクトを再配置することを可能にする。まず、オブジェクトに関するテキストの説明を推論し、次にそれらのオブジェクトの自然で人間らしい配置を表す画像を生成し、最後にその画像に従ってオブジェクトを物理的に配置する。このゼロ発想を、『DALL-E』を使って、データ収集やトレーニングを一切必要とせずに実現したことに意義があります。人体実験を伴う心強い実結果は、ウェブスケールロボット学習アルゴリズムの将来にとって刺激的な方向性を示しています。また、これらのモデルのさらなる開発とロボット工学への応用を一致させるために、テキストから画像への変換コミュニティへの提言のリストを提案します。動画はこちらでご覧いただけます: https://www.robot-learning.uk/dall-e-bot

要約(オリジナル)

We introduce the first work to explore web-scale diffusion models for robotics. DALL-E-Bot enables a robot to rearrange objects in a scene, by first inferring a text description of those objects, then generating an image representing a natural, human-like arrangement of those objects, and finally physically arranging the objects according to that image. The significance is that we achieve this zero-shot using DALL-E, without needing any further data collection or training. Encouraging real-world results with human studies show that this is an exciting direction for the future of web-scale robot learning algorithms. We also propose a list of recommendations to the text-to-image community, to align further developments of these models with applications to robotics. Videos are available at: https://www.robot-learning.uk/dall-e-bot

arxiv情報

著者 Ivan Kapelyukh,Vitalis Vosylius,Edward Johns
発行日 2022-10-05 17:58:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク