Query of CC: Unearthing Large Scale Domain-Specific Knowledge from Public Corpora

要約

大規模な言語モデルはさまざまなタスクにおいて顕著な可能性を示していますが、特定のドメイン向けのオープンソース モデルとデータは依然として大幅に不足しています。
これまでの作業は主に、手動でリソースを指定し、特定のドメインで高品質のデータを収集することに重点が置かれていましたが、これには時間と労力が大幅にかかりました。
この制限に対処するために、大規模な言語モデルに基づいた効率的なデータ収集方法 ~\textit{Query of CC} を提案します。
この方法では、大規模な言語モデルを通じてシード情報をブートストラップし、公開コーパスから関連データを取得します。
特定のドメインの知識関連データを収集するだけでなく、潜在的な推論手順を使用してデータを発掘します。
この方法を適用することで、特に文理科学や人文科学を含む 4 つの主要な領域を網羅する ~\textsc{Knowledge Pile} と呼ばれる高品質のデータセットを厳選しました。
実験結果は、~\textsc{Knowledge Pile} が数学的および知識関連の推論能力テストにおける大規模言語モデルのパフォーマンスを大幅に向上させることを示しています。
学術的な共有を促進するために、私たちはデータセットとコードをオープンソースにし、学術コミュニティに貴重なサポートを提供します。

要約(オリジナル)

Large language models have demonstrated remarkable potential in various tasks, however, there remains a significant scarcity of open-source models and data for specific domains. Previous works have primarily focused on manually specifying resources and collecting high-quality data on specific domains, which significantly consume time and effort. To address this limitation, we propose an efficient data collection method~\textit{Query of CC} based on large language models. This method bootstraps seed information through a large language model and retrieves related data from public corpora. It not only collects knowledge-related data for specific domains but unearths the data with potential reasoning procedures. Through the application of this method, we have curated a high-quality dataset called~\textsc{Knowledge Pile}, encompassing four major domains, including stem and humanities sciences, among others. Experimental results demonstrate that~\textsc{Knowledge Pile} significantly improves the performance of large language models in mathematical and knowledge-related reasoning ability tests. To facilitate academic sharing, we open-source our dataset and code, providing valuable support to the academic community.

arxiv情報

著者 Zhaoye Fei,Yunfan Shao,Linyang Li,Zhiyuan Zeng,Hang Yan,Xipeng Qiu,Dahua Lin
発行日 2024-01-26 03:38:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク