要約
自動タスク ガイダンスは、最近 AI 研究コミュニティから注目を集めています。
手順ミス検出 (PMD) は、人間のユーザー (自己中心的なビデオを通じて観察される) が目の前のタスク (手順テキストで指定される) を正常に実行したかどうかを分類するという難しいサブ問題です。
PMD 用のリソースとモデルの構築に多大な努力が払われているにもかかわらず、マシンのパフォーマンスは依然として実現不可能であり、このパフォーマンスの基礎となる推論プロセスは不透明です。
そのため、私たちは PMD を、意思決定の証拠となる質問と回答の説明的な自己対話に再キャストしました。
この再定式化により前例のない透明性が可能になるため、微調整された自然言語推論 (NLI) モデルを活用して、生成された説明に対する 2 つの自動一貫性メトリクスを定式化します。
私たちの結果は、オープンソース VLM が既製のこのタスクに苦労している一方で、これらの一貫性メトリクスを共通の推論および微調整方法に組み込むことで、精度、一貫性、対話効率を大幅に改善できることを示しています。
さらに、当社の多面的な指標により、共通の結果が一目で視覚化され、改善の余地がある領域が強調表示されます。
要約(オリジナル)
Automated task guidance has recently attracted attention from the AI research community. Procedural mistake detection (PMD) is a challenging sub-problem of classifying whether a human user (observed through egocentric video) has successfully executed the task at hand (specified by a procedural text). Despite significant efforts in building resources and models for PMD, machine performance remains nonviable, and the reasoning processes underlying this performance are opaque. As such, we recast PMD to an explanatory self-dialog of questions and answers, which serve as evidence for a decision. As this reformulation enables an unprecedented transparency, we leverage a fine-tuned natural language inference (NLI) model to formulate two automated coherence metrics for generated explanations. Our results show that while open-source VLMs struggle with this task off-the-shelf, their accuracy, coherence, and dialog efficiency can be vastly improved by incorporating these coherence metrics into common inference and fine-tuning methods. Furthermore, our multi-faceted metrics can visualize common outcomes at a glance, highlighting areas for improvement.
arxiv情報
著者 | Shane Storks,Itamar Bar-Yossef,Yayuan Li,Zheyuan Zhang,Jason J. Corso,Joyce Chai |
発行日 | 2024-12-16 16:13:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google