要約
ウェアラブル カメラの急速な発展に伴い、一人称視点の自己中心的なビデオの膨大なコレクションが利用できるようになりました。
自己中心的なビデオを使用して一人称行動を予測することは、限られた視野、遮蔽、不安定な動きなど、多くの課題に直面します。
ウェアラブルデバイスからのセンサーデータが人間の活動認識を容易にすることを観察して、マルチモーダル活動認識がますます注目を集めています。
ただし、関連するデータセットの不足は、自己中心的な活動認識のためのマルチモーダル深層学習の開発を妨げています。
今日、実世界での深層学習は、壊滅的な忘却に悩まされることが多い継続的な学習に焦点を当てています。
しかし、特に複数のモダリティのコンテキストでの自己中心的な活動認識の壊滅的な忘却の問題は、データセットが利用できないため未踏のままです。
この研究を支援するために、UESTC-MMEA-CL という名前の継続的な学習のためのマルチモーダル自己中心的活動データセットを提示します。これは、一人称カメラとウェアラブル センサーを統合した自己開発のメガネによって収集されます。
これには、10 人の参加者が実行した 32 種類の日常活動のビデオ、加速度計、およびジャイロスコープの同期データが含まれています。
そのクラス タイプとスケールは、公開されている他のデータセットと比較されます。
センサー データの統計分析は、さまざまな動作の補助効果を示すために与えられます。
また、ベース ネットワーク アーキテクチャ上で RGB、アクセラレーション、ジャイロスコープの 3 つのモダリティを個別に、または組み合わせて使用した場合の自己中心的な活動認識の結果が報告されています。
継続的な学習タスクにおける壊滅的な忘却を調査するために、4 つのベースライン メソッドがさまざまなマルチモーダルの組み合わせで広範囲に評価されます。
UESTC-MMEA-CL が、ウェアラブル アプリケーションにおける一人称行動認識のための継続的学習に関する将来の研究を促進できることを願っています。
要約(オリジナル)
With the rapid development of wearable cameras, a massive collection of egocentric video for first-person visual perception becomes available. Using egocentric videos to predict first-person activity faces many challenges, including limited field of view, occlusions, and unstable motions. Observing that sensor data from wearable devices facilitates human activity recognition, multi-modal activity recognition is attracting increasing attention. However, the deficiency of related dataset hinders the development of multi-modal deep learning for egocentric activity recognition. Nowadays, deep learning in real world has led to a focus on continual learning that often suffers from catastrophic forgetting. But the catastrophic forgetting problem for egocentric activity recognition, especially in the context of multiple modalities, remains unexplored due to unavailability of dataset. In order to assist this research, we present a multi-modal egocentric activity dataset for continual learning named UESTC-MMEA-CL, which is collected by self-developed glasses integrating a first-person camera and wearable sensors. It contains synchronized data of videos, accelerometers, and gyroscopes, for 32 types of daily activities, performed by 10 participants. Its class types and scale are compared with other publicly available datasets. The statistical analysis of the sensor data is given to show the auxiliary effects for different behaviors. And results of egocentric activity recognition are reported when using separately, and jointly, three modalities: RGB, acceleration, and gyroscope, on a base network architecture. To explore the catastrophic forgetting in continual learning tasks, four baseline methods are extensively evaluated with different multi-modal combinations. We hope the UESTC-MMEA-CL can promote future studies on continual learning for first-person activity recognition in wearable applications.
arxiv情報
著者 | Linfeng Xu,Qingbo Wu,Lili Pan,Fanman Meng,Hongliang Li,Chiyuan He,Hanxin Wang,Shaoxu Cheng,Yu Dai |
発行日 | 2023-01-26 04:32:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google