AgentSense: Virtual Sensor Data Generation Using LLM Agent in Simulated Home Environments

要約

堅牢で一般化可能なスマートホームベースのヒューマンアクティビティ認識(HAR)システムの開発における主要な障害は、大規模で多様なラベル付きデータセットがないことです。
個人がさまざまなルーチンに従い、異なる方法でアクティビティを実行するため、ホームレイアウト、センサーの構成、およびユーザーの動作の変動性がさらに複雑になります。
よく一般化するHARシステムの構築には、ユーザーと環境全体の多様性をキャプチャするトレーニングデータが必要です。
これらの課題に対処するために、大規模な言語モデルを活用することで多様なペルソナが生成される仮想データ生成パイプラインであるAgentsenseを紹介します。
これらのペルソナは、毎日のルーチンを作成するために使用され、その後、低レベルのアクションシーケンスに分解されます。
その後、アクションは、VirtualHomeと呼ばれるシミュレートされたホーム環境で実行され、エージェントアクティビティが展開されるときに記録できる仮想アンビエントセンサーで拡張しました。
全体として、Agentsenseは、幅広いユーザーとホーム設定を表すリッチで仮想センサーデータセットの生成を可能にします。
5つのベンチマークHARデータセットで、仮想センサーデータを活用すると、特に実際のデータが制限されている場合、パフォーマンスが大幅に向上することが示されています。
特に、仮想データとほんの数日間の実際のデータの組み合わせでトレーニングされたモデルは、実際のデータセット全体でトレーニングされたものに匹敵するパフォーマンスを実現します。
これらの結果は、マニュアルデータ収集の取り組みを必要とせずに大規模で注釈付きのデータセットの明確な欠如である、周囲のセンシングにおける最も差し迫った課題の1つに対処する仮想データの可能性を実証および証明しています。

要約(オリジナル)

A major obstacle in developing robust and generalizable smart home-based Human Activity Recognition (HAR) systems is the lack of large-scale, diverse labeled datasets. Variability in home layouts, sensor configurations, and user behavior adds further complexity, as individuals follow varied routines and perform activities in distinct ways. Building HAR systems that generalize well requires training data that captures the diversity across users and environments. To address these challenges, we introduce AgentSense, a virtual data generation pipeline where diverse personas are generated by leveraging Large Language Models. These personas are used to create daily routines, which are then decomposed into low-level action sequences. Subsequently, the actions are executed in a simulated home environment called VirtualHome that we extended with virtual ambient sensors capable of recording the agents activities as they unfold. Overall, AgentSense enables the generation of rich, virtual sensor datasets that represent a wide range of users and home settings. Across five benchmark HAR datasets, we show that leveraging our virtual sensor data substantially improves performance, particularly when real data are limited. Notably, models trained on a combination of virtual data and just a few days of real data achieve performance comparable to those trained on the entire real datasets. These results demonstrate and prove the potential of virtual data to address one of the most pressing challenges in ambient sensing, which is the distinct lack of large-scale, annotated datasets without requiring any manual data collection efforts.

arxiv情報

著者 Zikang Leng,Megha Thukral,Yaqi Liu,Hrudhai Rajasekhar,Shruthi K. Hiremath,Thomas Plötz
発行日 2025-06-13 13:31:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク