Understanding Human Activity with Uncertainty Measure for Novelty in Graph Convolutional Networks

要約

人間の活動を理解することは、特に人間とロボットのコラボレーションの分野において、インテリジェント ロボットの開発において重要な側面です。
それにもかかわらず、既存のシステムは、デコーダのアップサンプリング プロセスでのエラーが原因で、オーバーセグメンテーションなどの課題に直面しています。
これに応えて、私たちは、Temporal Fusion Graph Convolutional Network という有望なソリューションを紹介します。
この革新的なアプローチは、アクティビティ ストリーム内の個々のアクションの不適切な境界推定を修正し、時間的次元での過剰セグメント化の問題を軽減することを目的としています。
さらに、意思決定に人間の活動認識フレームワークを利用するシステムでは、単なる行動の識別以上のものが必要になります。
観察とトレーニング例の間の対応関係に関する確実性を示す信頼値が必要です。
これは、トレーニング データの一部ではなく、システム内の類似性の尺度が弱いために不一致が生じる可能性がある予期せぬシナリオに対する自信過剰な応答を防ぐために非常に重要です。
これに対処するために、観測における新規性の効率的な推定を強化することを目的としたスペクトル正規化残差接続の組み込みを提案します。
この革新的なアプローチでは、重み更新の最大勾配に制約を課すことにより、特徴空間内の入力距離が確実に保存されます。
これらの勾配を制限することで、新しい状況へのより確実な対処を促進し、それによって自信過剰に関連するリスクを軽減します。
私たちの方法論には、特徴空間内の距離を定量化するためのガウス プロセスの使用が含まれます。

要約(オリジナル)

Understanding human activity is a crucial aspect of developing intelligent robots, particularly in the domain of human-robot collaboration. Nevertheless, existing systems encounter challenges such as over-segmentation, attributed to errors in the up-sampling process of the decoder. In response, we introduce a promising solution: the Temporal Fusion Graph Convolutional Network. This innovative approach aims to rectify the inadequate boundary estimation of individual actions within an activity stream and mitigate the issue of over-segmentation in the temporal dimension. Moreover, systems leveraging human activity recognition frameworks for decision-making necessitate more than just the identification of actions. They require a confidence value indicative of the certainty regarding the correspondence between observations and training examples. This is crucial to prevent overly confident responses to unforeseen scenarios that were not part of the training data and may have resulted in mismatches due to weak similarity measures within the system. To address this, we propose the incorporation of a Spectral Normalized Residual connection aimed at enhancing efficient estimation of novelty in observations. This innovative approach ensures the preservation of input distance within the feature space by imposing constraints on the maximum gradients of weight updates. By limiting these gradients, we promote a more robust handling of novel situations, thereby mitigating the risks associated with overconfidence. Our methodology involves the use of a Gaussian process to quantify the distance in feature space.

arxiv情報

著者 Hao Xing,Darius Burschka
発行日 2024-10-10 13:44:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク