要約
導入されたマルチモーダル システムは、評価者が予期しない形で失敗する可能性があります。
導入前にこれらの障害を見つけるために、系統的な障害、つまりモデル障害のパターンの一般化可能な自然言語記述を自動的に識別するシステム、MultiMon を導入します。
体系的な欠陥を明らかにするために、MultiMon はコーパスを収集して、誤った一致の例、つまり同じ出力を生成するはずの入力などを調べます。
次に、言語モデル (GPT-4 など) に、体系的な失敗パターンを見つけて自然言語で説明するよう促します。
MultiMon を使用して、CLIP テキスト エンコーダの 14 個の系統的エラー (例: 「量指定子を無視する」) を見つけます。各エラーは数百の個別の入力 (例: 「数冊の本/多数の本がある棚」) で構成されます。
CLIP はほとんどの最先端のマルチモーダル システムのバックボーンであるため、これらの入力により Midjourney 5.1、DALL-E、VideoFusion などで障害が発生します。
MultiMon は、自動運転車などの特定のユースケースに関連する障害に対処することもできます。
私たちは、MultiMon を、潜在的なシステム障害のロングテールを自律的に調査する評価へのステップとして捉えています。
MULTIMON のコードは https://github.com/tsb0601/MultiMon で入手できます。
要約(オリジナル)
Deployed multimodal systems can fail in ways that evaluators did not anticipate. In order to find these failures before deployment, we introduce MultiMon, a system that automatically identifies systematic failures — generalizable, natural-language descriptions of patterns of model failures. To uncover systematic failures, MultiMon scrapes a corpus for examples of erroneous agreement: inputs that produce the same output, but should not. It then prompts a language model (e.g., GPT-4) to find systematic patterns of failure and describe them in natural language. We use MultiMon to find 14 systematic failures (e.g., ‘ignores quantifiers’) of the CLIP text-encoder, each comprising hundreds of distinct inputs (e.g., ‘a shelf with a few/many books’). Because CLIP is the backbone for most state-of-the-art multimodal systems, these inputs produce failures in Midjourney 5.1, DALL-E, VideoFusion, and others. MultiMon can also steer towards failures relevant to specific use cases, such as self-driving cars. We see MultiMon as a step towards evaluation that autonomously explores the long tail of potential system failures. Code for MULTIMON is available at https://github.com/tsb0601/MultiMon.
arxiv情報
著者 | Shengbang Tong,Erik Jones,Jacob Steinhardt |
発行日 | 2023-06-21 08:43:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google