Hierarchical and Multimodal Data for Daily Activity Understanding

要約

人工知能の毎日の活動記録(ダライ、「ダーリー」と発音)は、現実世界の設定で人間の活動を理解するために構築されたマルチモーダルの階層的に注釈付きのデータセットです。
Daraiは、10の異なる環境で50人の参加者を対象とした連続スクリプト化されたスクリプト化されていない録画で構成されており、複数のカメラビュー、深さおよびレーダーセンサー、ウェアラブル慣性測定単位(IMU)、株式撮影(EMG)、インソール圧力センサー、バイオモニターセンサー、および視線トラッカーを含む20のセンサーからの合計200時間以上のデータがあります。
人間の活動の複雑さを捉えるために、ダライは3つのレベルの階層で注釈が付けられています。(i)独立したタスクである高レベルの活動(L1)、(ii)アクティビティ間で共有されるパターンである低レベルのアクション(L2)、および(iii)アクションの正確な実行ステップを詳述する微細に粒度の手順(L3)。
データセットの注釈と記録は、L2アクションの22.7%がL1アクティビティ間で共有され、L3手順の14.2%がL2アクション間で共有されるように設計されています。
Daraiのオーバーラップとスクリプトの性質により、データセット内の反事実的なアクティビティが可能になります。
さまざまな機械学習モデルを使用した実験では、人間中心のアプリケーションにおける重要な課題を明らかにする際のダライの価値を示しています。
具体的には、すべての階層的な注釈レベルで認識、時間的局在、および将来のアクション予測のために、単峰性およびマルチモーダルセンサー融合実験を実施します。
個々のセンサーの制限を強調するために、Daraiのマルチセンサーおよび反事実的なアクティビティ設計の設計によって有効になっているドメイン変数実験も実施します。
コード、ドキュメンテーション、およびデータセットは、専用のDarai Webサイト(https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-tilificial-intelligence-and-machine-learning/

要約(オリジナル)

Daily Activity Recordings for Artificial Intelligence (DARai, pronounced ‘Dahr-ree’) is a multimodal, hierarchically annotated dataset constructed to understand human activities in real-world settings. DARai consists of continuous scripted and unscripted recordings of 50 participants in 10 different environments, totaling over 200 hours of data from 20 sensors including multiple camera views, depth and radar sensors, wearable inertial measurement units (IMUs), electromyography (EMG), insole pressure sensors, biomonitor sensors, and gaze tracker. To capture the complexity in human activities, DARai is annotated at three levels of hierarchy: (i) high-level activities (L1) that are independent tasks, (ii) lower-level actions (L2) that are patterns shared between activities, and (iii) fine-grained procedures (L3) that detail the exact execution steps for actions. The dataset annotations and recordings are designed so that 22.7% of L2 actions are shared between L1 activities and 14.2% of L3 procedures are shared between L2 actions. The overlap and unscripted nature of DARai allows counterfactual activities in the dataset. Experiments with various machine learning models showcase the value of DARai in uncovering important challenges in human-centered applications. Specifically, we conduct unimodal and multimodal sensor fusion experiments for recognition, temporal localization, and future action anticipation across all hierarchical annotation levels. To highlight the limitations of individual sensors, we also conduct domain-variant experiments that are enabled by DARai’s multi-sensor and counterfactual activity design setup. The code, documentation, and dataset are available at the dedicated DARai website: https://alregib.ece.gatech.edu/software-and-datasets/darai-daily-activity-recordings-for-artificial-intelligence-and-machine-learning/

arxiv情報

著者 Ghazal Kaviani,Yavuz Yarici,Seulgi Kim,Mohit Prabhushankar,Ghassan AlRegib,Mashhour Solh,Ameya Patil
発行日 2025-04-25 16:07:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク