Efficient Large-Scale Visual Representation Learning

要約

この記事では、単一モダリティの視覚表現学習へのアプローチを紹介します。
製品コンテンツの視覚的表現を理解することは、電子商取引におけるレコメンデーション、検索、広告アプリケーションにとって不可欠です。
畳み込みニューラル ネットワークとビジョン トランスフォーマー ファミリの両方において、いくつかの事前学習済みバックボーン アーキテクチャを含む、低リソース設定下で効率的な方法で大規模な視覚表現学習モデルを微調整するために使用される手法を詳しく説明し、対比します。
大規模な電子商取引アプリケーションの課題に焦点を当て、視覚的表現をより効率的にトレーニング、評価、提供するための取り組みに焦点を当てます。
視覚的に類似した広告の推奨事項を含む、いくつかの下流タスクのオフライン表現パフォーマンスを評価するアブレーション研究を紹介します。
この目的を達成するために、視覚的に類似した推奨システムのための、テキストから画像への新しい生成オフライン評価方法を提案します。
最後に、Etsy の実稼働環境に導入された機械学習システムのオンライン結果も含めます。

要約(オリジナル)

In this article, we present our approach to single-modality visual representation learning. Understanding visual representations of product content is vital for recommendations, search, and advertising applications in e-commerce. We detail and contrast techniques used to fine-tune large-scale visual representation learning models in an efficient manner under low-resource settings, including several pretrained backbone architectures, both in the convolutional neural network as well as the vision transformer family. We highlight the challenges for e-commerce applications at-scale and highlight the efforts to more efficiently train, evaluate, and serve visual representations. We present ablation studies evaluating the representation offline performance for several downstream tasks, including our visually similar ad recommendations. To this end, we present a novel text-to-image generative offline evaluation method for visually similar recommendation systems. Finally, we include online results from deployed machine learning systems in production at Etsy.

arxiv情報

著者 Eden Dolev,Alaa Awad,Denisa Roberts,Zahra Ebrahimzadeh,Marcin Mejran,Vaibhav Malpani,Mahir Yavuz
発行日 2023-07-10 13:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク