要約
手続き上の間違い検出(PMD)は、人間のユーザー(エゴセントリックビデオで観察された)がタスク(手順テキストで指定)を正常に実行したかどうかを分類するという挑戦的な問題です。
最近の大幅な努力にもかかわらず、野生の機械のパフォーマンスは生存不可のままであり、このパフォーマンスの根底にある推論プロセスは不透明です。
そのため、PMDを拡張して、意思決定を通知するために視覚的な自己ダイアログの理論的根拠を生成する必要があります。
最近のビジョンと言語モデル(VLM)で観察された印象的で成熟した画像理解機能を考えると、個々のフレームに基づいてPMDに適したベンチマークデータセットをキュレートします。
私たちの再定式化は前例のない透明性を可能にするため、自然言語推論(NLI)モデルを活用して、生成された理論的根拠の一貫性のために2つの自動メトリックを策定します。
この再構成されたタスクのベースラインを確立し、VLMSが既製で苦労している間、それらの精度、コヒーレンス、および効率を改善できるが、これらのメトリックを共通の推論と微調整方法に組み込むことで改善できることを示しています。
最後に、多面的なメトリックが一般的な結果を視覚化し、さらなる改善のために領域を強調します。
要約(オリジナル)
Procedural mistake detection (PMD) is a challenging problem of classifying whether a human user (observed through egocentric video) has successfully executed a task (specified by a procedural text). Despite significant recent efforts, machine performance in the wild remains nonviable, and the reasoning processes underlying this performance are opaque. As such, we extend PMD to require generating visual self-dialog rationales to inform decisions. Given the impressive, mature image understanding capabilities observed in recent vision-and-language models (VLMs), we curate a suitable benchmark dataset for PMD based on individual frames. As our reformulation enables unprecedented transparency, we leverage a natural language inference (NLI) model to formulate two automated metrics for the coherence of generated rationales. We establish baselines for this reframed task, showing that while VLMs struggle off-the-shelf, their accuracy, coherence, and efficiency can be improved by incorporating these metrics into common inference and fine-tuning methods- though not without tradeoff. Lastly, our multi-faceted metrics visualize common outcomes, highlighting areas for further improvement.
arxiv情報
著者 | Shane Storks,Itamar Bar-Yossef,Yayuan Li,Zheyuan Zhang,Jason J. Corso,Joyce Chai |
発行日 | 2025-05-27 16:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google