AutoPureData: Automated Filtering of Web Data for LLM Fine-tuning

要約

最新で信頼性の高い大規模言語モデル (LLM) が常に求められています。
通常、LLM は固定データセットでトレーニングされてからデプロイされます。
ただし、トレーニング データは常に古くなります。
Web データを使用した AI の自動トレーニングを有効にするには、バイアス、スパム、その他の安全でないテキストや不要なテキストによるデータの品質と安全性に関する重大な懸念が伴います。
信頼性の高いモデルを作成するには、純粋なデータが不可欠です。
不純なデータでモデルをトレーニングすると、望ましくない結果が生じる可能性があります。
この研究では、Web データを収集し、既存の信頼できる AI モデルの助けを借りて不要なテキストを自動的に除外するシステムを提案します。
実験では、Web データの小さなサンプルが収集およびフィルタリングされ、データの浄化におけるシステムの有効性が実証されました。

要約(オリジナル)

Up-to-date and reliable Large Language Models (LLMs) are consistently sought after. Typically, LLMs are trained on a fixed dataset and then deployed. However, the training data continually becomes outdated. Enable automatic training of AI using web data involves significant concerns regarding data quality and safety due to bias, spam, and other unsafe or unwanted text. Pure data is essential for producing reliable models. Training a model on impure data may result in undesirable outcomes. This research proposes a system that collects web data and automatically filters out unwanted text with the assistance of existing trusted AI models. In the experiment, a small sample of web data was collected and filtered, demonstrating the system’s effectiveness in purifying the data.

arxiv情報

著者 Praneeth Vadlapati
発行日 2024-06-27 15:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク