MultiIoT: Towards Large-scale Multisensory Learning for the Internet of Things

要約

モノのインターネット (IoT) は、他のデバイスやシステムと接続してデータを交換する目的で、センサー、ソフトウェア、通信テクノロジーが組み込まれた数十億のスマート物理デバイスを統合するネットワークであり、現代世界の重要かつ急速に拡大しているコンポーネントです。

IoT エコシステムは、人間の姿勢、視線、活動、ジェスチャー、およびタッチを含む予測タスクのために、動き、熱、地理位置情報、イメージング、深度、センサー、ビデオ、オーディオなどの実世界のモダリティの豊富なソースを提供します。
、接触、ポーズ、物理オブジェクトの 3D。
機械学習は、IoT データを大規模に自動的に処理する豊富な機会を提供し、人間の幸福の理解、物理デバイスの制御、スマート シティの相互接続における影響を効率的に推論できるようにします。
IoT 用の機械学習テクノロジーを開発するために、このペーパーでは、12 のモダリティと 8 つのタスクからの 115 万を超えるサンプルを網羅する、これまでで最も広範な IoT ベンチマークである MultiIoT を提案します。
MultiIoT は、(1) 多くの感覚モダリティからの学習、(2) 長い時間範囲にわたるきめ細かい相互作用、(3) 現実世界のセンサーの固有の構造とノイズ トポロジーによる極端な不均一性など、独特の課題をもたらします。
また、IoT 向けの多感覚表現学習における将来の研究を促進するために、モダリティおよびタスク固有の手法から多感覚およびマルチタスク モデルまでをカバーする一連の強力なモデリング ベースラインもリリースします。

要約(オリジナル)

The Internet of Things (IoT), the network integrating billions of smart physical devices embedded with sensors, software, and communication technologies for the purpose of connecting and exchanging data with other devices and systems, is a critical and rapidly expanding component of our modern world. The IoT ecosystem provides a rich source of real-world modalities such as motion, thermal, geolocation, imaging, depth, sensors, video, and audio for prediction tasks involving the pose, gaze, activities, and gestures of humans as well as the touch, contact, pose, 3D of physical objects. Machine learning presents a rich opportunity to automatically process IoT data at scale, enabling efficient inference for impact in understanding human wellbeing, controlling physical devices, and interconnecting smart cities. To develop machine learning technologies for IoT, this paper proposes MultiIoT, the most expansive IoT benchmark to date, encompassing over 1.15 million samples from 12 modalities and 8 tasks. MultiIoT introduces unique challenges involving (1) learning from many sensory modalities, (2) fine-grained interactions across long temporal ranges, and (3) extreme heterogeneity due to unique structure and noise topologies in real-world sensors. We also release a set of strong modeling baselines, spanning modality and task-specific methods to multisensory and multitask models to encourage future research in multisensory representation learning for IoT.

arxiv情報

著者 Shentong Mo,Paul Pu Liang,Russ Salakhutdinov,Louis-Philippe Morency
発行日 2023-11-10 18:13:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM パーマリンク