From LAION-5B to LAION-EO: Filtering Billions of Images Using Anchor Datasets for Satellite Image Extraction

要約

LAION-5B などの大規模なデータセットには、オンラインで共有される多様な画像が含まれています。
ただし、大きな画像コーパスのドメイン固有のサブセットを抽出するのは困難です。
ここでは、アンカー データセットに基づく抽出アプローチとさらなるフィルタリングを組み合わせた方法を提案し、衛星画像の領域で実証します。
これにより、高 (ピクセル単位) 解像度のテキストと衛星画像のペアを含む Web からソースされたデータセットである LAION-EO がリリースされました。
この文書では、取得手順とデータセットのいくつかの機能について概要を説明します。

要約(オリジナル)

Large datasets, such as LAION-5B, contain a diverse distribution of images shared online. However, extraction of domain-specific subsets of large image corpora is challenging. The extraction approach based on an anchor dataset, combined with further filtering, is proposed here and demonstrated for the domain of satellite imagery. This results in the release of LAION-EO, a dataset sourced from the web containing pairs of text and satellite images in high (pixel-wise) resolution. The paper outlines the acquisition procedure as well as some of the features of the dataset.

arxiv情報

著者 Mikolaj Czerkawski,Alistair Francis
発行日 2023-09-27 09:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク