要約
取得拡張、つまり大規模な補助プールから追加データを取得する手法は、低データ領域でのモデルのパフォーマンスを向上させるための効果的な手法として浮上しています。
数ショット学習。
従来のアプローチでは、データ選択に最近傍ベースの戦略のみが採用されており、ターゲット タスク内のインスタンスとの類似性が高い補助サンプルを取得していました。
ただし、これらのアプローチには多様性の概念が組み込まれていないため、冗長性の高いサンプルが選択される傾向があります。
私たちの研究では、事前の検索拡張少数ショット学習設定で使用されたデータ選択戦略が、組み合わせ相互情報量 (CMI) 測定として知られる関数のクラスを使用して一般化できることを最初に示します。
次に、ターゲット データセットに対する多様性と類似性の両方を考慮する代替 CMI 尺度を採用する COBRA (COmBinatorial Retrieval Augmentation) を提案します。
COBRA は、LAION-2B からサンプルを取得するために使用された場合、画像分類タスクおよび少数ショット学習技術にわたって以前の取得アプローチよりも一貫して優れたパフォーマンスを発揮します。
COBRA は、ダウンストリーム モデルのパフォーマンスを大幅に向上させながら、取得コストに無視できる計算オーバーヘッドを導入します。
要約(オリジナル)
Retrieval augmentation, the practice of retrieving additional data from large auxiliary pools, has emerged as an effective technique for enhancing model performance in the low-data regime, e.g. few-shot learning. Prior approaches have employed only nearest-neighbor based strategies for data selection, which retrieve auxiliary samples with high similarity to instances in the target task. However, these approaches are prone to selecting highly redundant samples, since they fail to incorporate any notion of diversity. In our work, we first demonstrate that data selection strategies used in prior retrieval-augmented few-shot learning settings can be generalized using a class of functions known as Combinatorial Mutual Information (CMI) measures. We then propose COBRA (COmBinatorial Retrieval Augmentation), which employs an alternative CMI measure that considers both diversity and similarity to a target dataset. COBRA consistently outperforms previous retrieval approaches across image classification tasks and few-shot learning techniques when used to retrieve samples from LAION-2B. COBRA introduces negligible computational overhead to the cost of retrieval while providing significant gains in downstream model performance.
arxiv情報
著者 | Arnav M. Das,Gantavya Bhatt,Lilly Kumari,Sahil Verma,Jeff Bilmes |
発行日 | 2024-12-23 16:10:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google