要約
手で操作されるオブジェクト (マニピュランダ) は、インターネット ビデオから再構築するのが特に困難です。
手によってオブジェクトの大部分が遮られるだけでなく、多くの場合、オブジェクトは少数の画像ピクセルでしか見えなくなります。
同時に、この設定では 2 つの強力なアンカーが現れます。(1) 推定された 3D ハンドは、オブジェクトの位置とスケールを明確にするのに役立ちます。(2) マニピュランダのセットは、すべての可能なオブジェクトに比べて小さいです。
これらの洞察を念頭に置いて、大規模な言語/視覚モデルと 3D オブジェクト データセットにおける最近の進歩に基づいた、ハンドヘルド オブジェクト再構築のためのスケーラブルなパラダイムを提示します。
単眼の RGB ビデオが与えられた場合、私たちは手持ちのオブジェクトのジオメトリを時間をかけて 3D で再構築することを目指しています。
最高のパフォーマンスの単一フレーム モデルを取得するために、最初に MCC-Hand-Object (MCC-HO) を提示します。これは、単一の RGB 画像と推定された 3D 手を入力として与えられた手とオブジェクトのジオメトリを共同で再構築します。
続いて、GPT-4(V) を使用して text-to-3D 生成モデルを実行し、画像内のオブジェクトと一致する 3D オブジェクト モデルを取得します。
このアライメントを検索拡張再構成 (RAR) と呼びます。
RAR は、すべてのフレームにわたって統一されたオブジェクト ジオメトリを提供し、その結果は、時間的に一貫した方法で入力画像と 3D MCC-HO 観察の両方と厳密に位置合わせされます。
実験では、私たちのアプローチが研究室およびインターネットの画像/ビデオ データセットで最先端のパフォーマンスを達成することを示しています。
コードとモデルはプロジェクト Web サイトで公開しています: https://janehwu.github.io/mcc-ho
要約(オリジナル)
Objects manipulated by the hand (i.e., manipulanda) are particularly challenging to reconstruct from Internet videos. Not only does the hand occlude much of the object, but also the object is often only visible in a small number of image pixels. At the same time, two strong anchors emerge in this setting: (1) estimated 3D hands help disambiguate the location and scale of the object, and (2) the set of manipulanda is small relative to all possible objects. With these insights in mind, we present a scalable paradigm for hand-held object reconstruction that builds on recent breakthroughs in large language/vision models and 3D object datasets. Given a monocular RGB video, we aim to reconstruct hand-held object geometry in 3D, over time. In order to obtain the best performing single frame model, we first present MCC-Hand-Object (MCC-HO), which jointly reconstructs hand and object geometry given a single RGB image and inferred 3D hand as inputs. Subsequently, we prompt a text-to-3D generative model using GPT-4(V) to retrieve a 3D object model that matches the object in the image(s); we call this alignment Retrieval-Augmented Reconstruction (RAR). RAR provides unified object geometry across all frames, and the result is rigidly aligned with both the input images and 3D MCC-HO observations in a temporally consistent manner. Experiments demonstrate that our approach achieves state-of-the-art performance on lab and Internet image/video datasets. We make our code and models available on the project website: https://janehwu.github.io/mcc-ho
arxiv情報
著者 | Jane Wu,Georgios Pavlakos,Georgia Gkioxari,Jitendra Malik |
発行日 | 2024-11-25 18:58:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google