Fusing Hand and Body Skeletons for Human Action Recognition in Assembly

要約

産業製造において協働ロボット (コボット) の人気が高まるにつれて、人間とロボットの効果的なコラボレーションが重要になっています。
コボットは人間の動作を認識して組み立て作業を支援し、自律的に動作できる必要があります。
これを達成するには、さまざまな人々や環境に一般化できるスケルトンベースのアプローチがよく使用されます。
身体骨格アプローチは動作認識に広く使用されていますが、作業者の指や手が重要な役割を果たす組み立て動作では十分な精度が得られない可能性があります。
この制限に対処するために、詳細度の低い体のスケルトンを詳細度の高い手のスケルトンと組み合わせる方法を提案します。
私たちは CNN とトランスフォーマーを調査します。後者は、注意を使って両方のスケルトン タイプから重要な情報を抽出して組み合わせることに特に優れています。
この論文では、組み立てシナリオにおけるアクション認識を強化する上で、私たちが提案するアプローチの有効性を実証します。

要約(オリジナル)

As collaborative robots (cobots) continue to gain popularity in industrial manufacturing, effective human-robot collaboration becomes crucial. Cobots should be able to recognize human actions to assist with assembly tasks and act autonomously. To achieve this, skeleton-based approaches are often used due to their ability to generalize across various people and environments. Although body skeleton approaches are widely used for action recognition, they may not be accurate enough for assembly actions where the worker’s fingers and hands play a significant role. To address this limitation, we propose a method in which less detailed body skeletons are combined with highly detailed hand skeletons. We investigate CNNs and transformers, the latter of which are particularly adept at extracting and combining important information from both skeleton types using attention. This paper demonstrates the effectiveness of our proposed approach in enhancing action recognition in assembly scenarios.

arxiv情報

著者 Dustin Aganian,Mona Köhler,Benedict Stephan,Markus Eisenbach,Horst-Michael Gross
発行日 2023-07-18 13:18:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO パーマリンク