Jellyfish: A Large Language Model for Data Preprocessing

要約

このペーパーでは、生データを処理が容易なクリーンな形式に変換するデータ マイニング パイプラインの重要なステップであるデータ前処理 (DP) での LLM の利用について検討します。
LLM の使用により、DP に対する汎用ソリューションの考案への関心が高まっていますが、この分野での最近の取り組みは一般的に GPT API に依存しており、避けられないデータ侵害の懸念が生じています。
これらのアプローチとは異なり、私たちは命令チューニング ローカル LLM (7 ~ 13B モデル) をユニバーサル DP ask ソルバーとして考慮します。
4 つの代表的な DP タスクにわたるデータセットのコレクションを選択し、DP に合わせたシリアル化および知識注入技術を使用して命令チューニング データを構築します。
そのため、命令調整された LLM により、ユーザーは DP の命令を手動で作成できるようになります。
一方、ローカルの単一の低価格 GPU で動作できるため、データのセキュリティが確保され、さらなるチューニングが可能になります。
私たちの実験では、DP 命令チューニング用に構築されたデータセット、つまり Jellyfish が LLM の DP パフォーマンスを効果的に向上させ、NLP タスクの能力をほとんど損なわないことが示されました。
Mistral-7B と OpenOrca-Platypus2-13B を Jellyfish でチューニングすることにより、モデルは最先端の DP 手法と比較した競争力と、目に見えないタスクに対する強力な汎用性を実現します。
モデルのパフォーマンスは GPT シリーズ モデルに匹敵し、解釈により GPT-3.5 と比較して推論能力が強化されています。
7B および 13B Jellyfish モデルは、Hugging Face で入手できます: https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B

要約(オリジナル)

This paper explores the utilization of LLMs for data preprocessing (DP), a crucial step in the data mining pipeline that transforms raw data into a clean format conducive to easy processing. Whereas the use of LLMs has sparked interest in devising universal solutions to DP, recent initiatives in this domain typically rely on GPT APIs, raising inevitable data breach concerns. Unlike these approaches, we consider instruction-tuning local LLMs (7 – 13B models) as universal DP ask solver. We select a collection of datasets across four representative DP tasks and construct instruction-tuning data using serialization and knowledge injection techniques tailored to DP. As such, the instruction-tuned LLMs empower users to manually craft instructions for DP. Meanwhile, they can operate on a local, single, and low-priced GPU, ensuring data security and enabling further tuning. Our experiments show that our dataset constructed for DP instruction tuning, namely Jellyfish, effectively enhances LLMs’ DP performances and barely compromises their abilities in NLP tasks. By tuning Mistral-7B and OpenOrca-Platypus2-13B with Jellyfish, the models deliver competitiveness compared to state-of-the-art DP methods and strong generalizability to unseen tasks. The models’ performance rivals that of GPT series models, and the interpretation offers enhanced reasoning capabilities compared to GPT-3.5. The 7B and 13B Jellyfish models are available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish-7B https://huggingface.co/NECOUDBFM/Jellyfish-13B

arxiv情報

著者 Haochen Zhang,Yuyang Dong,Chuan Xiao,Masafumi Oyamada
発行日 2024-03-13 13:02:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG パーマリンク