Fast and Expressive Gesture Recognition using a Combination-Homomorphic Electromyogram Encoder

要約

私たちは、新しい被験者が校正データを提供するのに必要な時間を最小限に抑えながら、高精度で表現力豊かな人間とコンピューターのインタラクションを可能にすることを目的として、筋電図 (EMG) からのジェスチャ認識タスクを研究しています。
これらの目標を達成するために、方向コンポーネントと修飾子コンポーネントから構成されるジェスチャの組み合わせを定義します。
新しい被験者は単一コンポーネントのジェスチャーのみを示しており、これらから可能なすべての単一または組み合わせのジェスチャーを推定しようとします。
実際の単一ジェスチャの特徴ベクトルを組み合わせて、合成トレーニング データを生成することで、目に見えない組み合わせジェスチャを推定します。
この戦略により、大規模で柔軟なジェスチャー語彙を提供できると同時に、新しい被験者に多くのジェスチャーの例を組み合わせて示す必要がなくなります。
自己監視を使用してエンコーダーと組み合わせ演算子を事前トレーニングすることで、目に見えない被験者に対して有用な合成トレーニング データを生成できます。
提案された方法を評価するために、実世界の EMG データセットを収集し、2 つのベースラインに対して拡張監視の効果を測定します。1 つは目に見えない被験者からの単一のジェスチャ データのみを使用してトレーニングされた部分教師ありモデル、もう 1 つは、目に見えない被験者からの単一のジェスチャ データのみを使用してトレーニングされた完全教師ありモデルです。
目に見えない対象からの実際の単一および実際の組み合わせジェスチャ データ。
提案された方法は、部分教師ありモデルに比べて劇的な改善をもたらし、場合によっては完全教師ありモデルのパフォーマンスに近づく有用な分類精度を達成することがわかりました。

要約(オリジナル)

We study the task of gesture recognition from electromyography (EMG), with the goal of enabling expressive human-computer interaction at high accuracy, while minimizing the time required for new subjects to provide calibration data. To fulfill these goals, we define combination gestures consisting of a direction component and a modifier component. New subjects only demonstrate the single component gestures and we seek to extrapolate from these to all possible single or combination gestures. We extrapolate to unseen combination gestures by combining the feature vectors of real single gestures to produce synthetic training data. This strategy allows us to provide a large and flexible gesture vocabulary, while not requiring new subjects to demonstrate combinatorially many example gestures. We pre-train an encoder and a combination operator using self-supervision, so that we can produce useful synthetic training data for unseen test subjects. To evaluate the proposed method, we collect a real-world EMG dataset, and measure the effect of augmented supervision against two baselines: a partially-supervised model trained with only single gesture data from the unseen subject, and a fully-supervised model trained with real single and real combination gesture data from the unseen subject. We find that the proposed method provides a dramatic improvement over the partially-supervised model, and achieves a useful classification accuracy that in some cases approaches the performance of the fully-supervised model.

arxiv情報

著者 Niklas Smedemark-Margulies,Yunus Bicer,Elifnur Sunger,Tales Imbiriba,Eugene Tunik,Deniz Erdogmus,Mathew Yarossi,Robin Walters
発行日 2023-11-29 16:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.HC, cs.LG, eess.SP パーマリンク