Ensemble Learning for Fusion of Multiview Vision with Occlusion and Missing Information: Framework and Evaluations with Real-World Data and Applications in Driver Hand Activity Recognition

要約

マルチセンサー フレームワークは、冗長性と補足情報を利用するアンサンブル学習とセンサー フュージョンの機会を提供します。これは、情報が断続的に欠落している場合でも予測が必要な継続的なドライバー状態監視など、現実世界の安全アプリケーションに役立ちます。
私たちは、(オクルージョン、ノイズ、またはセンサーの故障による)情報の欠落が断続的に発生するこの問題を定義し、これらのデータ ギャップを中心とした学習フレームワークを設計し、欠落情報を処理する補完スキームを提案および分析します。
これらのアイデアをカメラベースの手のアクティビティ分類のタスクに適用し、自動運転中の確実な安全性を実現します。
並列畳み込みニューラル ネットワーク間の遅延融合アプローチは、グループ内の被写体で検証された場合、手に持った物体と位置の推定において最適に配置された単一カメラ モデルでさえも優れたパフォーマンスを発揮できること、およびマルチカメラ フレームワークが最高のパフォーマンスを発揮することを示します。
グループ間の検証では平均であり、融合アプローチはアンサンブル加重多数決スキームやモデル組み合わせスキームよりも優れていることがわかります。

要約(オリジナル)

Multi-sensor frameworks provide opportunities for ensemble learning and sensor fusion to make use of redundancy and supplemental information, helpful in real-world safety applications such as continuous driver state monitoring which necessitate predictions even in cases where information may be intermittently missing. We define this problem of intermittent instances of missing information (by occlusion, noise, or sensor failure) and design a learning framework around these data gaps, proposing and analyzing an imputation scheme to handle missing information. We apply these ideas to tasks in camera-based hand activity classification for robust safety during autonomous driving. We show that a late-fusion approach between parallel convolutional neural networks can outperform even the best-placed single camera model in estimating the hands’ held objects and positions when validated on within-group subjects, and that our multi-camera framework performs best on average in cross-group validation, and that the fusion approach outperforms ensemble weighted majority and model combination schemes.

arxiv情報

著者 Ross Greer,Mohan Trivedi
発行日 2023-09-29 02:24:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク