要約
視覚と言語に関する最近の研究では、大規模な事前トレーニングによって、下流のタスクに効率的に転送できる一般化可能なモデルを学習できることが実証されています。
これによりデータセット規模の集計メトリクスが改善される可能性がありますが、特定のバイアス次元を対象とした手作りのサブグループに関するパフォーマンスを分析すると、システム的な望ましくない動作が明らかになります。
ただし、このサブグループ分析は、必要なデータを収集するために多大な時間とリソースを必要とするアノテーション作業によって頻繁に停滞します。
従来技術は、これらの制約を回避するためにサブグループを自動的に発見しようと試みるが、通常、既存のタスク固有の注釈に対するモデルの動作を利用し、「表形式」データを超えるより複雑な入力では急速に性能を低下させ、そのいずれも視覚および言語モデルを研究していない。
この論文では、ラベルのない画像セットから、視覚言語スライスと呼ばれる、一貫した視覚言語動作を持つ一貫した表現レベルのサブグループをユーザーガイド付きで発見できる対話型システムである VLSlice を紹介します。
VLSlice を使用すると、ユーザーがユーザー調査 (n=22) でさまざまな高コヒーレンシーのスライスを迅速に生成し、ツールを公開できることを示します。
要約(オリジナル)
Recent work in vision-and-language demonstrates that large-scale pretraining can learn generalizable models that are efficiently transferable to downstream tasks. While this may improve dataset-scale aggregate metrics, analyzing performance around hand-crafted subgroups targeting specific bias dimensions reveals systemic undesirable behaviors. However, this subgroup analysis is frequently stalled by annotation efforts, which require extensive time and resources to collect the necessary data. Prior art attempts to automatically discover subgroups to circumvent these constraints but typically leverages model behavior on existing task-specific annotations and rapidly degrades on more complex inputs beyond ‘tabular’ data, none of which study vision-and-language models. This paper presents VLSlice, an interactive system enabling user-guided discovery of coherent representation-level subgroups with consistent visiolinguistic behavior, denoted as vision-and-language slices, from unlabeled image sets. We show that VLSlice enables users to quickly generate diverse high-coherency slices in a user study (n=22) and release the tool publicly.
arxiv情報
著者 | Eric Slyman,Minsuk Kahng,Stefan Lee |
発行日 | 2023-09-13 04:02:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google