Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in ultra low-data regimes

要約

低データ環境における機械学習 (ML) は、依然として過小評価されていますが、重大な問題です。
この課題は、大規模なデータセットへのアクセスが制限されているか、アクセスできないことが多い低中所得国で顕著です。
したがって、ML に必要なデータセットのサンプル サイズを増やすデータ拡張手法は、データが不足している地域やドメインで ML の変革の可能性を解き放つ鍵となります。
残念ながら、トレーニング セットが限られているため、従来の表形式の合成データ ジェネレーターは、ML タスクに必要な大規模で多様な拡張データセットを生成する能力に制約を受けます。
この技術的な課題に対処するために、低データ領域でのデータ拡張に大規模言語モデル (LLM) の事前知識を活用する CLLM を導入します。
多様ではありますが、他の生成モデルと同様に、LLM によって生成されるすべてのデータが下流タスクの有用性を高めるのに役立つわけではありません。
その結果、私たちは、学習ダイナミクスを活用し、信頼性と不確実性の指標を組み合わせた原則に基づいたキュレーション プロセスを導入して、高品質のデータセットを取得します。
経験的に、複数の実世界のデータセット上で、従来のジェネレーターと比較して、低データ領域における LLM の優れたパフォーマンスが実証されています。
さらに、キュレーション メカニズムにより、LLM を含むすべてのジェネレーターの下流パフォーマンスが向上することを示します。
さらに、LLM の生成とキュレーションのメカニズムについての洞察と理解を提供し、高品質の拡張データセットの出力を可能にする機能に光を当てます。
CLLM は、LLM の強みと堅牢なデータ中心のアプローチを連携させることにより、データが不足しているドメインや地域で ML をより広く使用する道を開きます。

要約(オリジナル)

Machine Learning (ML) in low-data settings remains an underappreciated yet crucial problem. This challenge is pronounced in low-to-middle income countries where access to large datasets is often limited or even absent. Hence, data augmentation methods to increase the sample size of datasets needed for ML are key to unlocking the transformative potential of ML in data-deprived regions and domains. Unfortunately, the limited training set constrains traditional tabular synthetic data generators in their ability to generate a large and diverse augmented dataset needed for ML tasks. To address this technical challenge, we introduce CLLM, which leverages the prior knowledge of Large Language Models (LLMs) for data augmentation in the low-data regime. While diverse, not all the data generated by LLMs will help increase utility for a downstream task, as for any generative model. Consequently, we introduce a principled curation process, leveraging learning dynamics, coupled with confidence and uncertainty metrics, to obtain a high-quality dataset. Empirically, on multiple real-world datasets, we demonstrate the superior performance of LLMs in the low-data regime compared to conventional generators. We further show our curation mechanism improves the downstream performance for all generators, including LLMs. Additionally, we provide insights and understanding into the LLM generation and curation mechanism, shedding light on the features that enable them to output high-quality augmented datasets. CLLM paves the way for wider usage of ML in data scarce domains and regions, by allying the strengths of LLMs with a robust data-centric approach.

arxiv情報

著者 Nabeel Seedat,Nicolas Huynh,Boris van Breugel,Mihaela van der Schaar
発行日 2023-12-19 12:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク