Open Artificial Knowledge

要約

ChatGPT、Claude、Gemini などのチャットベースの AI システムの大きな成功は、膨大な量のデータセットでトレーニングされた大規模言語モデル (LLM) に由来しています。
しかし、高品質で多様性があり、倫理的に調達されたトレーニング データを取得することは依然として大きな課題です。
この問題に対処するために設計された、5 億トークン (執筆時点) を超える大規模リソースである Open Artificial Knowledge (OAK) データセットを紹介します。
OAK は、GPT4o、LLaMa3-70B、LLaMa3-8B、Mixtral-8x7B、Gemma-7B、Gemma-2-9B などの最先端の LLM のアンサンブルを活用して、さまざまなドメインにわたって高品質のテキストを生成します。
ウィキペディアの主要カテゴリに基づいて説明されています。
私たちの方法論は、一貫性と事実の正確さを維持しながら、幅広い知識をカバーすることを保証します。
OAK データセットは、LLM トレーニングにおけるデータ不足とプライバシーという重大な問題に対処しながら、より有能で調整された言語モデルの開発を促進することを目的としており、www.oakdataset.org で無料で入手できます。

要約(オリジナル)

The tremendous success of chat-based AI systems like ChatGPT, Claude, and Gemini stems from Large Language Models (LLMs) trained on vast amount of datasets. However, acquiring high-quality, diverse, and ethically sourced training data remains a significant challenge. We introduce the Open Artificial Knowledge (OAK) dataset, a large-scale resource of over 500 million tokens (at the moment of writing) designed to address this issue. OAK leverages an ensemble of state-of-the-art LLMs, including GPT4o, LLaMa3-70B, LLaMa3-8B, Mixtral-8x7B, Gemma-7B, and Gemma-2-9B , to generate high-quality text across diverse domains, guided by Wikipedia’s main categories. Our methodology ensures broad knowledge coverage while maintaining coherence and factual accuracy. The OAK dataset aims to foster the development of more capable and aligned language models while addressing critical issues of data scarcity and privacy in LLM training, and it is freely available on www.oakdataset.org.

arxiv情報

著者 Vadim Borisov,Richard H. Schreiber
発行日 2024-07-19 15:01:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク