要約
検出、予測、または分類タスクのコンピュータービジョン(CV)モデルは、リアルタイムまたはリソース制約のハードウェアで展開するため、多くの場合、現実の世界で劣化するビデオデータストリームで動作します。
したがって、これらのモデルは劣化したデータに対して堅牢であることが重要ですが、これらの実際の制約を念頭に置いて、最先端(SOTA)モデルはしばしば不十分に評価されます。
これは、リアルタイムおよびエッジで動作する多くのCVパイプラインで重要である骨格のヒトアクション認識(Shar)によって例示されていますが、劣化したデータに対する堅牢性は以前は浅くて一貫性のない評価されていました。
ここでは、最も詳細かつ最大の3DオープンデータセットであるNTU-RGB+D-120で重要な最初のデータ分解ベンチマークを提供することにより、Sharのこの問題に対処し、5つの主要なSharモデルの堅牢性を、実際の問題を表す3つの形態の劣化に評価します。
以前に考慮されていなかった劣化の形態がモデルの精度に大きな影響を与えることを示すことにより、このベンチマークの必要性を実証します。
同じ有効なフレームレートでは、モデルの精度は分解タイプに応じて40%以上変化する可能性があります。
また、分解されたSharデータのフレームの時間的規則性がモデルのパフォーマンスの違いの主要な要因である可能性が高いことを特定し、補間に基づいた単純な緩和アプローチを採用することにより、既存のモデルのパフォーマンスを最大40%増加させることができます。
最後に、私たちのベンチマークが、ラフパス理論に基づいた重要な劣化耐性のSharモデルを特定するのにどのように役立ったかを強調しています。
logsigrnn sharモデルは、SOTAモデルが6%の低いケースのうち5症例で6%のSota Degcnモデルを上回ります。
要約(オリジナル)
Computer vision (CV) models for detection, prediction or classification tasks operate on video data-streams that are often degraded in the real world, due to deployment in real-time or on resource-constrained hardware. It is therefore critical that these models are robust to degraded data, but state of the art (SoTA) models are often insufficiently assessed with these real-world constraints in mind. This is exemplified by Skeletal Human Action Recognition (SHAR), which is critical in many CV pipelines operating in real-time and at the edge, but robustness to degraded data has previously only been shallowly and inconsistently assessed. Here we address this issue for SHAR by providing an important first data degradation benchmark on the most detailed and largest 3D open dataset, NTU-RGB+D-120, and assess the robustness of five leading SHAR models to three forms of degradation that represent real-world issues. We demonstrate the need for this benchmark by showing that the form of degradation, which has not previously been considered, has a large impact on model accuracy; at the same effective frame rate, model accuracy can vary by >40% depending on degradation type. We also identify that temporal regularity of frames in degraded SHAR data is likely a major driver of differences in model performance, and harness this to improve performance of existing models by up to >40%, through employing a simple mitigation approach based on interpolation. Finally, we highlight how our benchmark has helped identify an important degradation-resistant SHAR model based in Rough Path Theory; the LogSigRNN SHAR model outperforms the SoTA DeGCN model in five out of six cases at low frame rates by an average accuracy of 6%, despite trailing the SoTA model by 11-12% on un-degraded data at high frame rates (30 FPS).
arxiv情報
著者 | Simon Malzard,Nitish Mital,Richard Walters,Victoria Nockles,Raghuveer Rao,Celso M. De Melo |
発行日 | 2025-05-27 15:11:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google