What Makes ImageNet Look Unlike LAION

要約

ImageNet は、Flickr の画像検索結果から作成されたことで有名です。
代わりに、画像キャプションのみに基づいて大規模な LAION データセットを検索して ImageNet を再作成したらどうなるでしょうか?
本作では、この反事実調査を実施します。
結果として得られた ImageNet の再作成 (LAIONet と呼ぶ) は、オリジナルとは明らかに異なっていることがわかりました。
具体的には、元の ImageNet の画像のクラス内類似性は、LAIONet の場合よりも大幅に高くなります。
その結果、ImageNet でトレーニングされたモデルのパフォーマンスは LAIONet では大幅に低下します。
私たちは、それぞれのデータセットに対する 2 つのもっともらしい因果関係のデータ生成プロセスにおける微妙だが重要な違いという観点から、この矛盾を厳密に説明することを提案します。これは系統的な実験によって裏付けられています。
一言で言えば、画像キャプションのみに基づいて検索すると情報のボトルネックが生じ、画像ベースのフィルタリングに存在する選択バイアスが軽減されます。
私たちの説明は、ImageNet 画像は典型的で不自然で、クラス カテゴリの過度に単純な表現であるというコミュニティで長年保持されてきた直観を形式化します。
同時に、今後のデータセット作成作業に向けたシンプルで実用的な教訓も得られます。

要約(オリジナル)

ImageNet was famously created from Flickr image search results. What if we recreated ImageNet instead by searching the massive LAION dataset based on image captions alone? In this work, we carry out this counterfactual investigation. We find that the resulting ImageNet recreation, which we call LAIONet, looks distinctly unlike the original. Specifically, the intra-class similarity of images in the original ImageNet is dramatically higher than it is for LAIONet. Consequently, models trained on ImageNet perform significantly worse on LAIONet. We propose a rigorous explanation for the discrepancy in terms of a subtle, yet important, difference in two plausible causal data-generating processes for the respective datasets, that we support with systematic experimentation. In a nutshell, searching based on an image caption alone creates an information bottleneck that mitigates the selection bias otherwise present in image-based filtering. Our explanation formalizes a long-held intuition in the community that ImageNet images are stereotypical, unnatural, and overly simple representations of the class category. At the same time, it provides a simple and actionable takeaway for future dataset creation efforts.

arxiv情報

著者 Ali Shirali,Moritz Hardt
発行日 2024-10-29 17:13:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク