Modeling Multiple Normal Action Representations for Error Detection in Procedural Tasks

要約

手続き活動におけるエラー検出は、ARアシストおよびロボットシステムの一貫した正しい結果に不可欠です。
既存の方法は、通常のアクションを表すために時間的な順序付けエラーに焦点を当てたり、静的プロトタイプに依存したりすることがよくあります。
ただし、これらのアプローチは通常、実行されたアクションの特定のシーケンスに従って複数の異なるアクションが有効である共通シナリオを見落としています。
これにより、2つの問題が発生します。(1)推論環境またはアクション実行分布がトレーニングとは異なる場合、モデルは静的プロトタイプを使用してエラーを効果的に検出できません。
(2)進行中のアクションラベルが予測されたものと同じでない場合、モデルは間違ったプロトタイプを使用してエラーを検出する場合があります。
この問題に対処するために、適応型複数の通常のアクション表現(AMNAR)フレームワークを提案します。
Amnarは、すべての有効な次のアクションを予測し、対応する通常のアクション表現を再構築します。これは、進行中のアクションと比較してエラーを検出します。
広範な実験は、Amnarが最先端のパフォーマンスを達成し、Amnarの有効性とエラー検出における複数の有効な次のアクションをモデル化することの重要性を強調することを示しています。
このコードは、https://github.com/isee-laboratory/amnarで入手できます。

要約(オリジナル)

Error detection in procedural activities is essential for consistent and correct outcomes in AR-assisted and robotic systems. Existing methods often focus on temporal ordering errors or rely on static prototypes to represent normal actions. However, these approaches typically overlook the common scenario where multiple, distinct actions are valid following a given sequence of executed actions. This leads to two issues: (1) the model cannot effectively detect errors using static prototypes when the inference environment or action execution distribution differs from training; and (2) the model may also use the wrong prototypes to detect errors if the ongoing action label is not the same as the predicted one. To address this problem, we propose an Adaptive Multiple Normal Action Representation (AMNAR) framework. AMNAR predicts all valid next actions and reconstructs their corresponding normal action representations, which are compared against the ongoing action to detect errors. Extensive experiments demonstrate that AMNAR achieves state-of-the-art performance, highlighting the effectiveness of AMNAR and the importance of modeling multiple valid next actions in error detection. The code is available at https://github.com/iSEE-Laboratory/AMNAR.

arxiv情報

著者 Wei-Jin Huang,Yuan-Ming Li,Zhi-Wei Xia,Yu-Ming Tang,Kun-Yu Lin,Jian-Fang Hu,Wei-Shi Zheng
発行日 2025-03-28 13:16:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク