Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

要約

人間は、オブジェクトが条件付けられた物理的知識に基づいて知覚、相互作用、および推論をすることにより、実際のオブジェクトの異常を検出します。
産業異常検出(IAD)の長期的な目標は、マシンがこのスキルを自律的に複製できるようにすることです。
ただし、現在のIADアルゴリズムは、物理的理解と推論が不可欠な現実世界のシナリオから分岐する静的で意味的に単純なデータセットで主に開発およびテストされています。
実際のロボットアームとモーターを使用して収集されたPhys-ADは、ダイナミックで意味的に豊富なシナリオの多様なセットを提供します。
データセットには、22の実際のオブジェクトカテゴリにわたって6400を超えるビデオが含まれており、ロボットアームやモーターと対話し、47種類の異常を示しています。
物理ADの異常検出には、物理​​的知識とビデオコンテンツの両方を組み合わせてオブジェクトの異常を決定するために視覚的な推論が必要です。私たちは、3つの設定の下で最先端の異常検出方法をベンチマークします。
さらに、視覚言語の基礎モデルが異常を検出するだけでなく、根本的な物理的原因について正確な説明を提供するように設計された物理異常の説明(Paeval)メトリックを紹介します。
データセットとベンチマークは公開されます。

要約(オリジナル)

Humans detect real-world object anomalies by perceiving, interacting, and reasoning based on object-conditioned physical knowledge. The long-term goal of Industrial Anomaly Detection (IAD) is to enable machines to autonomously replicate this skill. However, current IAD algorithms are largely developed and tested on static, semantically simple datasets, which diverge from real-world scenarios where physical understanding and reasoning are essential.To bridge this gap, we introduce the Physics Anomaly Detection (Phys-AD) dataset, the first large-scale, real-world, physics-grounded video dataset for industrial anomaly detection. Collected using a real robot arm and motor, Phys-AD provides a diverse set of dynamic, semantically rich scenarios. The dataset includes more than 6400 videos across 22 real-world object categories, interacting with robot arms and motors, and exhibits 47 types of anomalies. Anomaly detection in Phys-AD requires visual reasoning, combining both physical knowledge and video content to determine object abnormality.We benchmark state-of-the-art anomaly detection methods under three settings: unsupervised AD, weakly-supervised AD, and video-understanding AD, highlighting their limitations in handling physics-grounded anomalies. Additionally, we introduce the Physics Anomaly Explanation (PAEval) metric, designed to assess the ability of visual-language foundation models to not only detect anomalies but also provide accurate explanations for their underlying physical causes. Our dataset and benchmark will be publicly available.

arxiv情報

著者 Wenqiao Li,Yao Gu,Xintao Chen,Xiaohao Xu,Ming Hu,Xiaonan Huang,Yingna Wu
発行日 2025-03-05 14:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク