Data Augmentation using LLMs: Data Perspectives, Learning Paradigms and Challenges

要約

急速に進化する機械学習 (ML) の分野では、データ拡張 (DA) が、追加のデータ収集を必要とせずにトレーニング サンプルを多様化することでモデルのパフォーマンスを向上させる極めて重要な手法として浮上しています。
この調査では、DA に対する大規模言語モデル (LLM) の変革的な影響を調査し、特に自然言語処理 (NLP) およびそれ以降のコンテキストにおいて LLM がもたらす特有の課題と機会に対処します。
データの観点と学習の観点から、LLM で生成されたデータをさらなるトレーニングに使用する学習パラダイムの新しい探求など、データ拡張に大規模言語モデルを利用するさまざまな戦略を検討します。
さらに、このホワイトペーパーでは、制御可能なデータ拡張からマルチモーダルなデータ拡張に至るまで、この分野で直面する主な課題について説明します。
この調査は、DA の LLM によってもたらされたパラダイム シフトに焦点を当てており、この分野の研究者や実務者にとっての基礎的なガイドとして機能することを目的としています。

要約(オリジナル)

In the rapidly evolving field of machine learning (ML), data augmentation (DA) has emerged as a pivotal technique for enhancing model performance by diversifying training examples without the need for additional data collection. This survey explores the transformative impact of Large Language Models (LLMs) on DA, particularly addressing the unique challenges and opportunities they present in the context of natural language processing (NLP) and beyond. From a data perspective and a learning perspective, we examine various strategies that utilize Large Language Models for data augmentation, including a novel exploration of learning paradigms where LLM-generated data is used for further training. Additionally, this paper delineates the primary challenges faced in this domain, ranging from controllable data augmentation to multi modal data augmentation. This survey highlights the paradigm shift introduced by LLMs in DA, aims to serve as a foundational guide for researchers and practitioners in this field.

arxiv情報

著者 Bosheng Ding,Chengwei Qin,Ruochen Zhao,Tianze Luo,Xinze Li,Guizhen Chen,Wenhan Xia,Junjie Hu,Anh Tuan Luu,Shafiq Joty
発行日 2024-03-05 14:11:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク