要約
この論文では、産業環境における自己中心的な人間とオブジェクトの相互作用 (EHOI) 検出の問題に取り組みます。
この状況における公開データセットの不足を克服するために、いくつかのアノテーションとデータ信号(深度マップやインスタンスセグメンテーションマスクなど)と組み合わせたEHOIの合成画像を生成するためのパイプラインとツールを提案します。
提案されたパイプラインを使用して、手と物体の豊富なアノテーションを備えた産業環境における合成 EHOI 画像で構成される新しいマルチモーダル データセット EgoISM-HOI を提示します。
提案されたツールによって生成された合成 EHOI データの有用性と有効性を実証するために、さまざまなマルチモーダル信号を予測および組み合わせて RGB 画像内の EHOI を検出する新しい方法を設計しました。
私たちの調査では、合成データを利用して提案された方法を事前トレーニングすると、実世界のデータでテストした場合のパフォーマンスが大幅に向上することがわかりました。
さらに、提案されたアプローチは、最先端のクラスに依存しない方法よりも優れています。
この分野の研究をサポートするために、データセット、ソースコード、および事前トレーニングされたモデルを https://iplab.dmi.unict.it/egoism-hoi で公開しています。
要約(オリジナル)
In this paper, we tackle the problem of Egocentric Human-Object Interaction (EHOI) detection in an industrial setting. To overcome the lack of public datasets in this context, we propose a pipeline and a tool for generating synthetic images of EHOIs paired with several annotations and data signals (e.g., depth maps or instance segmentation masks). Using the proposed pipeline, we present EgoISM-HOI a new multimodal dataset composed of synthetic EHOI images in an industrial environment with rich annotations of hands and objects. To demonstrate the utility and effectiveness of synthetic EHOI data produced by the proposed tool, we designed a new method that predicts and combines different multimodal signals to detect EHOIs in RGB images. Our study shows that exploiting synthetic data to pre-train the proposed method significantly improves performance when tested on real-world data. Moreover, the proposed approach outperforms state-of-the-art class-agnostic methods. To support research in this field, we publicly release the datasets, source code, and pre-trained models at https://iplab.dmi.unict.it/egoism-hoi.
arxiv情報
著者 | Rosario Leonardi,Francesco Ragusa,Antonino Furnari,Giovanni Maria Farinella |
発行日 | 2023-06-21 09:56:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google