SensorLLM: Aligning Large Language Models with Motion Sensors for Human Activity Recognition

要約

この取り組みでは、大規模言語モデル (LLM) が人間活動認識 (HAR) などの時系列タスクを理解できるようにすることで、ウェアラブル センサー テクノロジーとパーソナライズされた AI アシスタントの間のギャップを埋めます。
LLM には強力な推論機能と一般化機能があるにもかかわらず、センサー データ タスクに LLM を活用することはほとんど解明されていません。
このギャップは、時系列データにおけるセマンティック コンテキストの欠如、計算上の制限、LLM による数値入力の処理の難しさなどの課題に起因しています。
これらの問題に対処するために、センサー データ タスクに対する LLM の可能性を引き出す 2 段階のフレームワークである SensorLLM を導入します。
センサー言語調整ステージでは、センサー チャネルごとに特別なトークンを導入し、傾向を説明するテキストを自動的に生成してセンサー データをテキスト入力と調整します。これにより、SensorLLM が数値の変化、チャネル固有の情報、およびさまざまな長さのセンサー データをキャプチャできるようになります。
既存の LLM が通常苦労している機能を、すべて人間によるアノテーションを必要とせずに実行できます。
次に、タスク認識チューニング ステージで、凍結された LLM とアライメント モジュールを使用して HAR 分類用のモデルを改良し、最先端のモデルと同等またはそれを超えるパフォーマンスを達成します。
さらに、SensorLLM がセンサー言語アライメントを通じて効果的なセンサー学習者、推論者、分類子に進化し、HAR タスクのさまざまなデータセットにわたって一般化できることを示します。
私たちは、私たちの研究が将来の時系列研究とテキスト配列研究の足石となり、センサー データの基礎モデルへの道を提供すると強く信じています。

要約(オリジナル)

In this work, we bridge the gap between wearable sensor technology and personalized AI assistants by enabling Large Language Models (LLMs) to understand time-series tasks like human activity recognition (HAR). Despite the strong reasoning and generalization capabilities of LLMs, leveraging them for sensor data tasks remains largely unexplored. This gap stems from challenges like the lack of semantic context in time-series data, computational limitations, and LLMs’ difficulty processing numerical inputs. To address these issues, we introduce SensorLLM, a two-stage framework to unlock LLMs’ potential for sensor data tasks. In the Sensor-Language Alignment Stage, we introduce special tokens for each sensor channel and automatically generate trend-descriptive text to align sensor data with textual inputs, enabling SensorLLM to capture numerical changes, channel-specific information, and sensor data of varying lengths-capabilities that existing LLMs typically struggle with, all without the need for human annotations. Next, in Task-Aware Tuning Stage, we refine the model for HAR classification using the frozen LLM and alignment module, achieving performance on par with or surpassing state-of-the-art models. We further demonstrate that SensorLLM evolves into an effective sensor learner, reasoner, and classifier through Sensor-Language Alignment, enabling it to generalize across diverse datasets for HAR tasks. We strongly believe our work lays the stepstone for future time-series and text alignment research, offering a path toward foundation models for sensor data.

arxiv情報

著者 Zechen Li,Shohreh Deldari,Linyao Chen,Hao Xue,Flora D. Salim
発行日 2024-10-14 15:30:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク