FlexLoc: Conditional Neural Networks for Zero-Shot Sensor Perspective Invariance in Object Localization with Distributed Multimodal Sensors

要約

ローカリゼーションは、ナビゲーションや監視から生活支援に至るまで、さまざまなアプリケーションにとって重要なテクノロジーです。
位置特定システムは通常、さまざまな視点からシーンを表示するセンサーからの情報を融合してターゲットの位置を推定すると同時に、堅牢性と精度を高めるために複数のモダリティを採用します。
最近、このようなシステムでは、優れたパフォーマンスとさまざまなセンサー モダリティからのデータを処理できる能力により、大規模なデータセットでトレーニングされたエンドツーエンドのディープ ニューラル モデルが採用されています。
ただし、そのようなニューラル モデルは、多くの場合、特定のセンサーの姿勢 (つまり、位置と向き) のセットから収集されたデータに基づいてトレーニングされます。
実際の展開中、これらのセンサーの姿勢からのわずかな逸脱により、極端な不正確さが生じる可能性があります。
この課題に対処するために、条件付きニューラル ネットワークを使用してノードの視点情報を注入し、ローカリゼーション パイプラインを適応させる FlexLoc を導入します。
具体的には、モデルの重みの小さなサブセットが実行時にノードのポーズから導出され、最小限の追加オーバーヘッドで目に見えない視点への正確な一般化が可能になります。
マルチモーダル、マルチビューの屋内追跡データセットに対する評価では、FlexLoc がベースラインと比較して、ゼロショットの場合 (利用可能なキャリブレーション データがない) で位置特定精度がほぼ 50% 向上することが示されました。
FlexLoc のソース コードは https://github.com/nesl/FlexLoc で入手できます。

要約(オリジナル)

Localization is a critical technology for various applications ranging from navigation and surveillance to assisted living. Localization systems typically fuse information from sensors viewing the scene from different perspectives to estimate the target location while also employing multiple modalities for enhanced robustness and accuracy. Recently, such systems have employed end-to-end deep neural models trained on large datasets due to their superior performance and ability to handle data from diverse sensor modalities. However, such neural models are often trained on data collected from a particular set of sensor poses (i.e., locations and orientations). During real-world deployments, slight deviations from these sensor poses can result in extreme inaccuracies. To address this challenge, we introduce FlexLoc, which employs conditional neural networks to inject node perspective information to adapt the localization pipeline. Specifically, a small subset of model weights are derived from node poses at run time, enabling accurate generalization to unseen perspectives with minimal additional overhead. Our evaluations on a multimodal, multiview indoor tracking dataset showcase that FlexLoc improves the localization accuracy by almost 50% in the zero-shot case (no calibration data available) compared to the baselines. The source code of FlexLoc is available at https://github.com/nesl/FlexLoc.

arxiv情報

著者 Jason Wu,Ziqi Wang,Xiaomin Ouyang,Ho Lyun Jeong,Colin Samplawski,Lance Kaplan,Benjamin Marlin,Mani Srivastava
発行日 2024-06-10 21:02:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO, eess.SP パーマリンク