要約
タイトル:異常例を用いた微調整
要約:
– 自然言語処理のデータセット作成において、クラウドソーシングが広く利用されていることから、これらのデータセットは増大している。
– 例えば、SQUADデータセットは現在80,000以上のレコードを有する。
– しかしながら、英語は非常に繰り返し的な構造であるため、SQUADデータセットの文脈内の単語の頻度分布は比較的変化が少ない。
– データセット内の全文の頻度の共変数距離から各文の距離を測定することで、トレーニングにより均一な分布を生み出す10,500の例を特定することができる。
– この例のサブセットを用いたELECTRA [4]の微調整では、全87,000例をトレーニングしたモデルよりも高い性能を示す。
– ここでは、微調整のためにデータセットを系統的に整理する方法を提案し、外部サンプル性能を向上させる。
要約(オリジナル)
Given the prevalence of crowd sourced labor in creating Natural Language processing datasets, these aforementioned sets have become increasingly large. For instance, the SQUAD dataset currently sits at over 80,000 records. However, because the English language is rather repetitive in structure, the distribution of word frequencies in the SQUAD dataset’s contexts are relatively unchanged. By measuring each sentences distance from the co-variate distance of frequencies of all sentences in the dataset, we identify 10,500 examples that create a more uniform distribution for training. While fine-tuning ELECTRA [4] on this subset of examples reaches better performance to a model trained on all 87,000 examples. Herein we introduce a methodology for systematically pruning datasets for fine tuning reaching better out of sample performance.
arxiv情報
著者 | Will Rieger |
発行日 | 2023-04-26 18:59:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI