要約
Web上の大規模な画像・テキストデータを用いた事前学習により、多くの視覚・言語(V&L)タスクが急速に進展している一方で、最近の研究では、事前学習したモデルには、画像内の関係、動詞、数字を認識する能力などの「細粒度」理解がないことが示されています。そのため、このような能力に関する新しいベンチマークやモデルを開発しようとするコミュニティが増加しています。この方向での進歩をよりよく理解し定量化するために、4つの細かいベンチマークで4つの競合V&Lモデルを調査しました。分析を通じて、X-VLM (Zeng et al., 2022)は常に他のベースラインを上回っており、モデリングの革新は、Webデータのスケーリングよりもパフォーマンスに影響を与え、時にはパフォーマンスを低下させることさえあることがわかりました。X-VLMをより深く調査することで、きめ細かなスキルの学習には、新しい損失と豊富なデータソースの両方が重要であることを強調する。最後に、学習ダイナミクスを調査し、タスクによっては、学習初期に性能がピークに達するか、大きく変動し、収束しないことを発見した。
要約(オリジナル)
While pretraining on large-scale image-text data from the Web has facilitated rapid progress on many vision-and-language (V&L) tasks, recent work has demonstrated that pretrained models lack ‘fine-grained’ understanding, such as the ability to recognise relationships, verbs, and numbers in images. This has resulted in an increased interest in the community to either develop new benchmarks or models for such capabilities. To better understand and quantify progress in this direction, we investigate four competitive V&L models on four fine-grained benchmarks. Through our analysis, we find that X-VLM (Zeng et al., 2022) consistently outperforms other baselines, and that modelling innovations can impact performance more than scaling Web data, which even degrades performance sometimes. Through a deeper investigation of X-VLM, we highlight the importance of both novel losses and rich data sources for learning fine-grained skills. Finally, we inspect training dynamics, and discover that for some tasks, performance peaks early in training or significantly fluctuates, never converging.
arxiv情報
著者 | Emanuele Bugliarello,Laurent Sartran,Aishwarya Agrawal,Lisa Anne Hendricks,Aida Nematzadeh |
発行日 | 2023-05-12 15:34:20+00:00 |
arxivサイト | arxiv_id(pdf) |