要約
データ不足は、大量のラベル付きデータを持たないが最先端のモデルを使用したい言語やタスクで発生する問題です。
このようなモデルは、多くの場合、トレーニングに大量のデータを必要とするディープ ラーニング モデルです。
さまざまな機械学習の問題に関するデータを取得するには、高いラベル付けコストが伴います。
データ拡張は、データの不足に対処するための低コストのアプローチです。
このホワイト ペーパーでは、ニューラル モデルとトランスフォーマー ベースのモデルの方法に重点を置いて、自然言語処理に使用される現在の最先端のデータ拡張方法の概要を説明します。
さらに、データ拡張の実際的な課題、考えられる軽減策、および将来の研究の方向性についても説明します。
要約(オリジナル)
Data scarcity is a problem that occurs in languages and tasks where we do not have large amounts of labeled data but want to use state-of-the-art models. Such models are often deep learning models that require a significant amount of data to train. Acquiring data for various machine learning problems is accompanied by high labeling costs. Data augmentation is a low-cost approach for tackling data scarcity. This paper gives an overview of current state-of-the-art data augmentation methods used for natural language processing, with an emphasis on methods for neural and transformer-based models. Furthermore, it discusses the practical challenges of data augmentation, possible mitigations, and directions for future research.
arxiv情報
著者 | Domagoj Pluščec,Jan Šnajder |
発行日 | 2023-02-22 14:47:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google