S$^2$Contact: Graph-based Network for 3D Hand-Object Contact Estimation with Semi-Supervised Learning

要約

手とオブジェクトのデータセットの正確な 3D 注釈に対する最近の取り組みにもかかわらず、3D の手とオブジェクトの再構成にはまだギャップが存在します。
既存の作品は、接触マップを活用して、不正確な手のオブジェクトの姿勢推定を改善し、与えられたオブジェクト モデルの把握を生成します。
ただし、それらは明示的な 3D 監視を必要とし、これはめったに利用できないため、たとえば、赤外線カメラが操作されたオブジェクトに残された残留熱を監視する場合など、制約のある設定に限定されます。
この論文では、単眼画像から接触を学習できる新しい半教師ありフレームワークを提案します。
具体的には、半教師あり学習で疑似ラベルを生成するために大規模なデータセットで視覚的および幾何学的な一貫性の制約を活用し、接触を推測するための効率的なグラフベースのネットワークを提案します。
私たちの半教師あり学習フレームワークは、「限られた」注釈を使用してデータでトレーニングされた既存の教師あり学習方法よりも有利な改善を実現します。
特に、提案されたモデルは、一般的に使用されている PointNet ベースのアプローチと比較して、半分以下のネットワーク パラメーターとメモリ アクセス コストで優れた結果を達成できます。
より正確な再構成を生成するために、手とオブジェクトの相互作用を規則化する接触マップを使用することの利点を示します。
さらに、擬似ラベルを使用したトレーニングにより、連絡先マップの推定をドメイン外のオブジェクトに拡張し、複数のデータセット全体でより適切に一般化できることを示します。

要約(オリジナル)

Despite the recent efforts in accurate 3D annotations in hand and object datasets, there still exist gaps in 3D hand and object reconstructions. Existing works leverage contact maps to refine inaccurate hand-object pose estimations and generate grasps given object models. However, they require explicit 3D supervision which is seldom available and therefore, are limited to constrained settings, e.g., where thermal cameras observe residual heat left on manipulated objects. In this paper, we propose a novel semi-supervised framework that allows us to learn contact from monocular images. Specifically, we leverage visual and geometric consistency constraints in large-scale datasets for generating pseudo-labels in semi-supervised learning and propose an efficient graph-based network to infer contact. Our semi-supervised learning framework achieves a favourable improvement over the existing supervised learning methods trained on data with `limited’ annotations. Notably, our proposed model is able to achieve superior results with less than half the network parameters and memory access cost when compared with the commonly-used PointNet-based approach. We show benefits from using a contact map that rules hand-object interactions to produce more accurate reconstructions. We further demonstrate that training with pseudo-labels can extend contact map estimations to out-of-domain objects and generalise better across multiple datasets.

arxiv情報

著者 Tze Ho Elden Tse,Zhongqun Zhang,Kwang In Kim,Ales Leonardis,Feng Zheng,Hyung Jin Chang
発行日 2022-08-01 14:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク