ViFiCon: Vision and Wireless Association Via Self-Supervised Contrastive Learning

要約

ViFiCon を導入します。これは、ビジョンとワイヤレス モダリティ間で同期された情報を使用してクロスモーダル アソシエーションを実行する、自己教師あり対照学習スキームです。
具体的には、このシステムは、RGB-D カメラ映像から収集された歩行者データと、ユーザーのスマートフォン デバイスからの WiFi Fine Time Measurements (FTM) を使用します。
バンド画像内で空間的に複数の人物の深度データを積み重ねることにより、時系列を表します。
RGB-D (ビジョン ドメイン) からの深度データは、本質的に観察可能な歩行者に関連付けられますが、FTM データ (ワイヤレス ドメイン) は、ネットワーク上のスマートフォンにのみ関連付けられます。
クロスモーダル アソシエーション問題を自己教師ありとして定式化するために、ネットワークは、口実タスクとして 2 つのモダリティのシーン全体の同期を学習し、その学習した表現を、個々のバウンディング ボックスを特定のスマートフォンに関連付けるダウンストリーム タスクに使用します。
ビジョンとワイヤレス情報を関連付けます。
カメラ映像で事前トレーニング済みの領域提案モデルを使用し、外挿されたバウンディング ボックス情報を FTM データと共にデュアル ブランチ畳み込みニューラル ネットワークにフィードします。
完全に監視された SoTA モデルと比較して、ViFiCon は高性能のビジョンとワイヤレスの関連付けを達成し、どのバウンディング ボックスがどのスマートフォン デバイスに対応するかを見つけ、トレーニング データの手動でラベル付けされた関連付けの例がないことを示します。

要約(オリジナル)

We introduce ViFiCon, a self-supervised contrastive learning scheme which uses synchronized information across vision and wireless modalities to perform cross-modal association. Specifically, the system uses pedestrian data collected from RGB-D camera footage as well as WiFi Fine Time Measurements (FTM) from a user’s smartphone device. We represent the temporal sequence by stacking multi-person depth data spatially within a banded image. Depth data from RGB-D (vision domain) is inherently linked with an observable pedestrian, but FTM data (wireless domain) is associated only to a smartphone on the network. To formulate the cross-modal association problem as self-supervised, the network learns a scene-wide synchronization of the two modalities as a pretext task, and then uses that learned representation for the downstream task of associating individual bounding boxes to specific smartphones, i.e. associating vision and wireless information. We use a pre-trained region proposal model on the camera footage and then feed the extrapolated bounding box information into a dual-branch convolutional neural network along with the FTM data. We show that compared to fully supervised SoTA models, ViFiCon achieves high performance vision-to-wireless association, finding which bounding box corresponds to which smartphone device, without hand-labeled association examples for training data.

arxiv情報

著者 Nicholas Meegan,Hansi Liu,Bryan Cao,Abrar Alali,Kristin Dana,Marco Gruteser,Shubham Jain,Ashwin Ashok
発行日 2022-10-11 15:04:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク