Let’s Go Shopping (LGS) — Web-Scale Image-Text Dataset for Visual Concept Understanding

要約

画像分類やキャプションなど、ニューラル ネットワークの視覚および視覚言語アプリケーションは、重要なデータ収集プロセスを必要とする大規模な注釈付きデータセットに依存しています。
この時間のかかる作業により、大規模なデータセットの出現が妨げられ、研究者や実務者が少数の選択肢に制限されてしまいます。
したがって、私たちは画像を収集して注釈を付けるためのより効率的な方法を模索しています。
これまでの取り組みでは、HTML の代替テキストからキャプションを収集したり、ソーシャル メディアの投稿をクロールしたりしていましたが、これらのデータ ソースにはノイズ、希薄さ、主観性といった問題がありました。
このため、データが清潔さ、情報量、流暢さという 3 つの基準を満たしている商用ショッピング ウェブサイトに注目します。
ここでは、公開されている電子商取引 Web サイトからの 1,500 万の画像とキャプションのペアを含む大規模公開データセットである Let’s Go Shopping (LGS) データセットを紹介します。
既存の一般的な領域のデータセットと比較すると、LGS 画像は前景のオブジェクトに焦点を当てており、背景がそれほど複雑ではありません。
LGS での実験では、既存のベンチマーク データセットでトレーニングされた分類器は電子商取引データには容易に一般化できないが、特定の自己教師付き視覚特徴抽出器はより一般化できることがわかりました。
さらに、LGS の e コマースに焦点を当てた高品質の画像とバイモーダルな性質により、視覚言語のバイモーダル タスクに有利になります。LGS により、画像キャプション モデルがより豊富なキャプションを生成できるようになり、テキストから画像の生成モデルが e コマースを実現できるようになります。
スタイル移転。

要約(オリジナル)

Vision and vision-language applications of neural networks, such as image classification and captioning, rely on large-scale annotated datasets that require non-trivial data-collecting processes. This time-consuming endeavor hinders the emergence of large-scale datasets, limiting researchers and practitioners to a small number of choices. Therefore, we seek more efficient ways to collect and annotate images. Previous initiatives have gathered captions from HTML alt-texts and crawled social media postings, but these data sources suffer from noise, sparsity, or subjectivity. For this reason, we turn to commercial shopping websites whose data meet three criteria: cleanliness, informativeness, and fluency. We introduce the Let’s Go Shopping (LGS) dataset, a large-scale public dataset with 15 million image-caption pairs from publicly available e-commerce websites. When compared with existing general-domain datasets, the LGS images focus on the foreground object and have less complex backgrounds. Our experiments on LGS show that the classifiers trained on existing benchmark datasets do not readily generalize to e-commerce data, while specific self-supervised visual feature extractors can better generalize. Furthermore, LGS’s high-quality e-commerce-focused images and bimodal nature make it advantageous for vision-language bi-modal tasks: LGS enables image-captioning models to generate richer captions and helps text-to-image generation models achieve e-commerce style transfer.

arxiv情報

著者 Yatong Bai,Utsav Garg,Apaar Shanker,Haoming Zhang,Samyak Parajuli,Erhan Bas,Isidora Filipovic,Amelia N. Chu,Eugenia D Fomitcheva,Elliot Branson,Aerin Kim,Somayeh Sojoudi,Kyunghyun Cho
発行日 2024-01-09 14:24:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク