要約
このレポートでは、産業の自動化や教育などのドメインで不可欠なオンラインミス検知のタスクに対処します。リアルタイムビデオ分析により、人間のオペレーターが発生したときにエラーを修正できます。
以前の作業はアクションオーダーを含む手続き上のエラーに焦点を当てていますが、実際の使用のためにより広いエラータイプに対処する必要があります。
手続き誤差と実行エラー(モータースリップやツールの誤用など)の両方を処理するオンラインミス検知フレームワークを導入します。
エラーを検出すると、大規模な言語モデル(LLM)を使用して説明フィードバックを生成します。
Holoassist Benchmarkの実験では、アプローチの有効性を確認します。このアプローチは、間違い検出タスクで2番目に配置されます。
要約(オリジナル)
In this report, we address the task of online mistake detection, which is vital in domains like industrial automation and education, where real-time video analysis allows human operators to correct errors as they occur. While previous work focuses on procedural errors involving action order, broader error types must be addressed for real-world use. We introduce an online mistake detection framework that handles both procedural and execution errors (e.g., motor slips or tool misuse). Upon detecting an error, we use a large language model (LLM) to generate explanatory feedback. Experiments on the HoloAssist benchmark confirm the effectiveness of our approach, where our approach is placed second on the mistake detection task.
arxiv情報
著者 | Constantin Patsch,Marsil Zakour,Yuankai Wu,Eckehard Steinbach |
発行日 | 2025-06-06 15:39:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google