HaGRID – HAnd Gesture Recognition Image Dataset

要約

本稿では、デバイスとのインタラクションに焦点を当ててデバイスを管理するハンドジェスチャ認識(HGR)システムを構築するための、巨大なデータセットであるHaGRID(HAnd Gesture Recognition Image Dataset)を紹介します。
そのため、選ばれた 18 のジェスチャーはすべて記号論的な機能を備えており、特定の動作として解釈できます。
ジェスチャは静的ですが、特にいくつかの動的なジェスチャを設計できるという点で取り上げられました。
これにより、トレーニングされたモデルは、「いいね」や「停止」などの静的なジェスチャだけでなく、「スワイプ」や「ドラッグ アンド ドロップ」などの動的なジェスチャも認識できるようになります。
HaGRID には、手の検出とジェスチャ分類タスクを解決するための 554,800 枚の画像とジェスチャ ラベルが付いた境界ボックスの注釈が含まれています。
他のデータセットのコンテキストや主題における変動性が低いことが、そのような制限なしでデータセットを作成した理由です。
クラウドソーシング プラットフォームを利用することで、さまざまな自然光条件下で被写体とカメラの距離が 0.5 ~ 4 メートルの少なくとも同数のシーンで、37,583 人の被験者によって記録されたサンプルを収集することができました。
多様性特性の影響は、アブレーション研究実験で評価されました。
また、HGR タスクでのモデルの事前トレーニングに使用できる HaGRID 機能も示します。
HaGRID と事前トレーニングされたモデルは公開されています。

要約(オリジナル)

This paper introduces an enormous dataset, HaGRID (HAnd Gesture Recognition Image Dataset), to build a hand gesture recognition (HGR) system concentrating on interaction with devices to manage them. That is why all 18 chosen gestures are endowed with the semiotic function and can be interpreted as a specific action. Although the gestures are static, they were picked up, especially for the ability to design several dynamic gestures. It allows the trained model to recognize not only static gestures such as ‘like’ and ‘stop’ but also ‘swipes’ and ‘drag and drop’ dynamic gestures. The HaGRID contains 554,800 images and bounding box annotations with gesture labels to solve hand detection and gesture classification tasks. The low variability in context and subjects of other datasets was the reason for creating the dataset without such limitations. Utilizing crowdsourcing platforms allowed us to collect samples recorded by 37,583 subjects in at least as many scenes with subject-to-camera distances from 0.5 to 4 meters in various natural light conditions. The influence of the diversity characteristics was assessed in ablation study experiments. Also, we demonstrate the HaGRID ability to be used for pretraining models in HGR tasks. The HaGRID and pretrained models are publicly available.

arxiv情報

著者 Alexander Kapitanov,Karina Kvanchiani,Alexander Nagaev,Roman Kraynov,Andrei Makhliarchuk
発行日 2024-01-18 15:02:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク