要約
ロボットタスクのための自己中心的なビデオの分析と使用は、手によるオクルージョンと、人間の手とロボットのエンドエフェクターの間の視覚的な不一致によって困難になります。
その意味で、人間の手は厄介なものである。
ただし、多くの場合、手は貴重な信号も提供します。
手のポーズは、どのような種類の物体を持っているかを示唆している可能性があります。
この研究では、エージェント (人間の手) と環境を分離するシーンの因数分解表現を抽出することを提案します。
これにより、信号を維持しながらオクルージョンと不一致の両方が軽減されるため、下流のロボット タスク用のモデルの設計が容易になります。
この因数分解の中心となるのは、私たちが提案する拡散モデルによるビデオ修復 (VIDM) です。VIDM は、実世界の画像の事前学習 (大規模な事前トレーニング済み拡散モデルによる) と、画像の以前のフレームにおけるオブジェクトの外観の両方を活用します。
ビデオ(注意を通して)。
私たちの実験では、自己中心的なビデオの修復品質を向上させる VIDM の有効性と、オブジェクトの検出、操作されたオブジェクトの 3D 再構築、ビデオからの報酬関数、ポリシー、アフォーダンスの学習など、多くのタスクに対する因数分解表現の威力を実証しています。
要約(オリジナル)
The analysis and use of egocentric videos for robotic tasks is made challenging by occlusion due to the hand and the visual mismatch between the human hand and a robot end-effector. In this sense, the human hand presents a nuisance. However, often hands also provide a valuable signal, e.g. the hand pose may suggest what kind of object is being held. In this work, we propose to extract a factored representation of the scene that separates the agent (human hand) and the environment. This alleviates both occlusion and mismatch while preserving the signal, thereby easing the design of models for downstream robotics tasks. At the heart of this factorization is our proposed Video Inpainting via Diffusion Model (VIDM) that leverages both a prior on real-world images (through a large-scale pre-trained diffusion model) and the appearance of the object in earlier frames of the video (through attention). Our experiments demonstrate the effectiveness of VIDM at improving inpainting quality on egocentric videos and the power of our factored representation for numerous tasks: object detection, 3D reconstruction of manipulated objects, and learning of reward functions, policies, and affordances from videos.
arxiv情報
著者 | Matthew Chang,Aditya Prakash,Saurabh Gupta |
発行日 | 2023-05-25 17:55:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google