What could go wrong? Discovering and describing failure modes in computer vision

要約

深層学習モデルは効果的ですが、脆弱です。
注意深く訓練されたとしても、分布外のサンプルに直面したときの行動を予測するのは難しい傾向があります。
この研究における私たちの目標は、コンピュータ ビジョン モデルの潜在的な故障モードを自然言語で予測および説明するための、シンプルかつ効果的なソリューションを提案することです。
事前トレーニングされたモデルと一連のサンプルが与えられた場合、私たちの目的は、モデルのパフォーマンスが低下する視覚的条件を正確に説明する文章を見つけることです。
この重要なトピックを研究し、それに関する将来の研究を促進するために、言語ベースのエラー説明可能性 (LBEE) の問題を形式化し、このタスクのさまざまな方法を評価および比較するための一連の指標を提案します。
私たちは、視覚と言語の共同埋め込み空間で動作し、言語記述を通じて、トレーニング中に見えない物体や不利な視覚条件などによって引き起こされるモデルの失敗を特徴付けることができるソリューションを提案します。
データセットバイアスの存在下での分類や目に見えない環境でのセマンティックセグメンテーションなど、さまざまなタスクを実験し、提案された方法論が特定のエラー原因に関連する重要な文を分離することを示します。
私たちの研究が、実践者がモデルの動作をより深く理解し、全体的な安全性と解釈可能性を高めるのに役立つことを願っています。

要約(オリジナル)

Deep learning models are effective, yet brittle. Even carefully trained, their behavior tends to be hard to predict when confronted with out-of-distribution samples. In this work, our goal is to propose a simple yet effective solution to predict and describe via natural language potential failure modes of computer vision models. Given a pretrained model and a set of samples, our aim is to find sentences that accurately describe the visual conditions in which the model underperforms. In order to study this important topic and foster future research on it, we formalize the problem of Language-Based Error Explainability (LBEE) and propose a set of metrics to evaluate and compare different methods for this task. We propose solutions that operate in a joint vision-and-language embedding space, and can characterize through language descriptions model failures caused, e.g., by objects unseen during training or adverse visual conditions. We experiment with different tasks, such as classification under the presence of dataset bias and semantic segmentation in unseen environments, and show that the proposed methodology isolates nontrivial sentences associated with specific error causes. We hope our work will help practitioners better understand the behavior of models, increasing their overall safety and interpretability.

arxiv情報

著者 Gabriela Csurka,Tyler L. Hayes,Diane Larlus,Riccardo Volpi
発行日 2024-08-08 14:01:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク