Leveraging Multi-Modal Information to Enhance Dataset Distillation

要約

データセット蒸留は、より大きな実際のデータセットの知識を保持するコンパクトで非常に代表的な合成データセットを作成することを目的としています。
既存の方法は主に視覚表現の最適化に焦点を当てていますが、追加のモダリティとオブジェクトレベルの情報を改良することで、蒸留データセットの品質を大幅に向上させることができます。
この作業では、データセットの蒸留に関する2つの重要な拡張機能、キャプションガイド付き監督とオブジェクト中心のマスキングを紹介します。
テキスト情報を統合するために、キャプション機能を活用するための2つの戦略を提案します。キャプションの埋め込みが分類段階で視覚的な機能と融合され、キャプションマッチングが融合します。
さらに、セグメンテーションマスクを適用してターゲットオブジェクトを分離し、背景の注意散漫を削除し、オブジェクト中心の学習用に設計された2つの損失関数を導入します。
包括的な評価は、キャプションベースのガイダンスとオブジェクト中心のマスキングを統合することでデータセットの蒸留が強化され、ダウンストリームタスクで優れた性能を達成する合成データセットにつながることを示しています。

要約(オリジナル)

Dataset distillation aims to create a compact and highly representative synthetic dataset that preserves the knowledge of a larger real dataset. While existing methods primarily focus on optimizing visual representations, incorporating additional modalities and refining object-level information can significantly improve the quality of distilled datasets. In this work, we introduce two key enhancements to dataset distillation: caption-guided supervision and object-centric masking. To integrate textual information, we propose two strategies for leveraging caption features: the feature concatenation, where caption embeddings are fused with visual features at the classification stage, and caption matching, which introduces a caption-based alignment loss during training to ensure semantic coherence between real and synthetic data. Additionally, we apply segmentation masks to isolate target objects and remove background distractions, introducing two loss functions designed for object-centric learning: masked feature alignment loss and masked gradient matching loss. Comprehensive evaluations demonstrate that integrating caption-based guidance and object-centric masking enhances dataset distillation, leading to synthetic datasets that achieve superior performance on downstream tasks.

arxiv情報

著者 Zhe Li,Hadrien Reynaud,Bernhard Kainz
発行日 2025-05-13 14:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク