A Review of the Challenges with Massive Web-mined Corpora Used in Large Language Models Pre-Training

要約

この記事では、大規模言語モデル (LLM) の事前トレーニングに、Web マイニングされた大規模なコーパスを使用することに関連する課題の包括的なレビューを示します。
このレビューでは、ノイズ (無関係または誤解を招く情報)、コンテンツの重複、低品質または不正確な情報の存在、偏見、ウェブマイニングされたコーパスへの機密情報または個人情報の包含などの課題を含む、この分野の主要な課題を特定します。

これらの問題に対処することは、正確で信頼性があり、倫理的に責任のある言語モデルを開発するために非常に重要です。
データクリーニング、前処理、バイアス検出、軽減のための現在の方法論の調査を通じて、既存のアプローチのギャップを強調し、将来の研究の方向性を提案します。
私たちの議論は、より洗練され、倫理的に責任のある LLM の開発を促進することを目的としています。

要約(オリジナル)

This article presents a comprehensive review of the challenges associated with using massive web-mined corpora for the pre-training of large language models (LLMs). This review identifies key challenges in this domain, including challenges such as noise (irrelevant or misleading information), duplication of content, the presence of low-quality or incorrect information, biases, and the inclusion of sensitive or personal information in web-mined corpora. Addressing these issues is crucial for the development of accurate, reliable, and ethically responsible language models. Through an examination of current methodologies for data cleaning, pre-processing, bias detection and mitigation, we highlight the gaps in existing approaches and suggest directions for future research. Our discussion aims to catalyze advancements in developing more sophisticated and ethically responsible LLMs.

arxiv情報

著者 Michał Perełkiewicz,Rafał Poświata
発行日 2024-07-10 13:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク