Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data

要約

コード データセットは、GitHub などの多様で管理されていないソースから収集されることが多く、品質上の問題が発生する可能性があり、その結果、コード生成用に最適化された大規模言語モデル (LLM) のパフォーマンスとトレーニング効率に影響を及ぼします。
これまでの研究では、データのプルーニングに埋め込みスペースを使用する利点が実証されていましたが、主に重複の削除や多様性の増加、および画像などの他のモダリティに焦点を当てていました。
私たちの研究は、埋め込みを使用して「低品質」コード データを特定し、削除することに重点を置いています。
まず、合成破損を使用して、埋め込み空間における「低品質」コードの特徴を調査します。
この知識をもとに、埋め込み空間で機能する新しい枝刈りメトリクスを考案し、スタック データセット内の低品質のエントリを特定して削除します。
この合成破損情報プルーニング (SCIP) アプローチの利点を、確立された HumanEval および MBPP ベンチマークで実証し、既存の埋め込みベースの手法を上回るパフォーマンスを示します。
重要なのは、プルーニングを行わない場合と比較して最大 3% のパフォーマンス向上を達成しており、これにより、データ プルーニングに対する合成破損からの洞察が期待できることが示されています。

要約(オリジナル)

Code datasets, often collected from diverse and uncontrolled sources such as GitHub, potentially suffer from quality issues, thereby affecting the performance and training efficiency of Large Language Models (LLMs) optimized for code generation. Previous studies demonstrated the benefit of using embedding spaces for data pruning, but they mainly focused on duplicate removal or increasing variety, and in other modalities, such as images. Our work focuses on using embeddings to identify and remove ‘low-quality’ code data. First, we explore features of ‘low-quality’ code in embedding space, through the use of synthetic corruptions. Armed with this knowledge, we devise novel pruning metrics that operate in embedding space to identify and remove low-quality entries in the Stack dataset. We demonstrate the benefits of this synthetic corruption informed pruning (SCIP) approach on the well-established HumanEval and MBPP benchmarks, outperforming existing embedding-based methods. Importantly, we achieve up to a 3% performance improvement over no pruning, thereby showing the promise of insights from synthetic corruptions for data pruning.

arxiv情報

著者 Yu Yang,Aaditya K. Singh,Mostafa Elhoushi,Anas Mahmoud,Kushal Tirumala,Fabian Gloeckle,Baptiste Rozière,Carole-Jean Wu,Ari S. Morcos,Newsha Ardalani
発行日 2023-12-05 01:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク