LLaSA: Large Multimodal Agent for Human Activity Analysis Through Wearable Sensors

要約

慣性測定ユニット (IMU) と大規模言語モデル (LLM) を統合することで、人間の活動の理解を強化し、マルチモーダル AI を進歩させます。
26,288 の IMU 由来のアクティビティ ナレーションのデータセットである SensorCaps と、257,562 の質問と回答のペアを含む指示に従うデータセットである OpenSQA を紹介します。
LIMU-BERT と Llama を組み合わせて、アクティビティと動作の分析クエリを解釈して応答できる大規模マルチモーダル エージェントである LLaSA を開発します。
私たちの評価では、アクティビティの分類と質問応答における LLaSA の有効性が実証され、ヘルスケア、スポーツ サイエンス、および人間とコンピューターのインタラクションにおける LLaSA の可能性が強調されています。
これらの貢献により、センサー対応言語モデルが進歩し、新しい研究の道が開かれます。
コード リポジトリとデータセットは https://github.com/BASHLab/LLaSA にあります。

要約(オリジナル)

Integrating inertial measurement units (IMUs) with large language models (LLMs) advances multimodal AI by enhancing human activity understanding. We introduce SensorCaps, a dataset of 26,288 IMU-derived activity narrations, and OpenSQA, an instruction-following dataset with 257,562 question-answer pairs. Combining LIMU-BERT and Llama, we develop LLaSA, a Large Multimodal Agent capable of interpreting and responding to activity and motion analysis queries. Our evaluation demonstrates LLaSA’s effectiveness in activity classification and question answering, highlighting its potential in healthcare, sports science, and human-computer interaction. These contributions advance sensor-aware language models and open new research avenues. Our code repository and datasets can be found on https://github.com/BASHLab/LLaSA.

arxiv情報

著者 Sheikh Asif Imran,Mohammad Nur Hossain Khan,Subrata Biswas,Bashima Islam
発行日 2024-06-20 17:00:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク