TENT: Connect Language Models with IoT Sensors for Zero-Shot Activity Recognition

要約

言語モデルの最近の成果は、視覚情報と意味論的な言語理解の橋渡しにおいて、言語モデルの並外れた能力を実証しました。
これは、私たちに新たな疑問をもたらします。言語モデルは、テキストのセマンティクスを IoT 感覚信号と結び付けて、ヒューマン アクティビティ認識 (HAR) などの認識タスクを実行できるでしょうか?
そうであれば、人間のような認知機能を備え、新しい環境や目に見えないカテゴリに適応できるインテリジェントな HAR システムを構築できます。
このペーパーでは、テキストの埋め込みをカメラ ビデオ、LiDAR、ミリ波などの IoT センサー信号と連携して調整する、革新的なアプローチである IoT-sEnsors- language alignmEnt pre-Training (TENT) を使用して、その実現可能性を検討します。
IoT 言語の対比学習を通じて、IoT データが IoT データを説明する特定の単語に対応するように、マルチモーダルな特徴を言語の埋め込みと整合させる統一された意味論的特徴空間を導き出します。
テキスト カテゴリとその IoT データの間の接続を強化するために、共同特徴空間により多くの意味論的な情報をもたらす補足的な説明と学習可能なプロンプトを提案します。
TENT は、見たことのあるアクションを認識するだけでなく、特徴空間から最も近いテキスト単語によって、目に見えないアクションを「推測」することもできます。
私たちは、TENT がさまざまなモダリティを使用してゼロショット HAR タスクで最先端のパフォーマンスを達成し、最良の視覚言語モデルを 12% 以上改善することを実証します。

要約(オリジナル)

Recent achievements in language models have showcased their extraordinary capabilities in bridging visual information with semantic language understanding. This leads us to a novel question: can language models connect textual semantics with IoT sensory signals to perform recognition tasks, e.g., Human Activity Recognition (HAR)? If so, an intelligent HAR system with human-like cognition can be built, capable of adapting to new environments and unseen categories. This paper explores its feasibility with an innovative approach, IoT-sEnsors-language alignmEnt pre-Training (TENT), which jointly aligns textual embeddings with IoT sensor signals, including camera video, LiDAR, and mmWave. Through the IoT-language contrastive learning, we derive a unified semantic feature space that aligns multi-modal features with language embeddings, so that the IoT data corresponds to specific words that describe the IoT data. To enhance the connection between textual categories and their IoT data, we propose supplementary descriptions and learnable prompts that bring more semantic information into the joint feature space. TENT can not only recognize actions that have been seen but also “guess” the unseen action by the closest textual words from the feature space. We demonstrate TENT achieves state-of-the-art performance on zero-shot HAR tasks using different modalities, improving the best vision-language models by over 12%.

arxiv情報

著者 Yunjiao Zhou,Jianfei Yang,Han Zou,Lihua Xie
発行日 2023-11-14 15:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク