15M Multimodal Facial Image-Text Dataset

要約

現在、画像テキスト駆動型のマルチモーダル深層学習モデルは、多くの分野で優れた可能性を実証しています。
実際には、顔画像を中心としたタスクには幅広い応用の可能性があります。
この論文では、自然言語記述 (顔画像からテキストへ) を伴う顔画像の大規模で多様かつ高品質なデータセットである \textbf{FaceCaption-15M} を紹介します。
このデータセットは、顔中心のタスクに関する研究を促進することを目的としています。
FaceCaption-15M は 1,500 万組を超える顔画像と、それに対応する顔の特徴の自然言語記述で構成されており、これまでで最大の顔画像キャプション データセットとなっています。
FaceCaption-15M の優位性を実証するために、画質、テキストの自然さ、テキストの複雑さ、テキストと画像の関連性の包括的な分析を実施しました。
FaceCaption-15M の有効性を検証するために、まず顔言語画像事前トレーニング モデル (FLIP、CLIP と同様) をトレーニングして、顔画像を特徴空間内の対応するキャプションと位置合わせしました。
その後、画像エンコーダーとテキストエンコーダーの両方を使用し、線形レイヤーのみを微調整することで、FLIP ベースのモデルは、顔中心の 2 つの困難なタスクで最先端の結果を達成しました。
その目的は、提案されている FaceCaption-15M データセットの利用可能性を通じて、顔関連タスクの分野での研究を促進することです。
すべてのデータ、コード、モデルは公開されています。
https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M

要約(オリジナル)

Currently, image-text-driven multi-modal deep learning models have demonstrated their outstanding potential in many fields. In practice, tasks centered around facial images have broad application prospects. This paper presents \textbf{FaceCaption-15M}, a large-scale, diverse, and high-quality dataset of facial images accompanied by their natural language descriptions (facial image-to-text). This dataset aims to facilitate a study on face-centered tasks. FaceCaption-15M comprises over 15 million pairs of facial images and their corresponding natural language descriptions of facial features, making it the largest facial image-caption dataset to date. We conducted a comprehensive analysis of image quality, text naturalness, text complexity, and text-image relevance to demonstrate the superiority of FaceCaption-15M. To validate the effectiveness of FaceCaption-15M, we first trained a facial language-image pre-training model (FLIP, similar to CLIP) to align facial image with its corresponding captions in feature space. Subsequently, using both image and text encoders and fine-tuning only the linear layer, our FLIP-based models achieved state-of-the-art results on two challenging face-centered tasks. The purpose is to promote research in the field of face-related tasks through the availability of the proposed FaceCaption-15M dataset. All data, codes, and models are publicly available. https://huggingface.co/datasets/OpenFace-CQUPT/FaceCaption-15M

arxiv情報

著者 Dawei Dai,YuTang Li,YingGe Liu,Mingming Jia,Zhang YuanHui,Guoyin Wang
発行日 2024-07-11 14:00:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク