Jellyfish: A Large Language Model for Data Preprocessing

要約

本論文では、オープンソースのLLMであるJellyfishをDPの汎用タスクソルバとして紹介する。Llama 2 13Bモデルに基づいて構築されたJellyfishは、エラー検出、データインピュテーション、スキーママッチング、エンティティマッチングを含むいくつかの典型的なDPタスクのデータセットを用いて命令チューニングされており、他のタスクへの汎用性を実現しています。驚くべきことに、Jellyfishは、130億のパラメータを持つローカルの単一かつ低価格のGPUで動作することができ、データの安全性を確保し、さらなるチューニングを可能にします。自然言語を理解する能力が高いため、DPタスクの指示を手動で作成することができます。事前知識に大きく依存する既存の多くの手法とは異なり、Jellyfishはチューニングの過程でドメイン知識を獲得し、推論中にオプションの知識注入を統合します。Jellyfishの特徴的な機能は、その出力決定を解明するインタプリタである。Jellyfishを構築するために、一連の事前チューニングとDPチューニング技術を開発する。Jellyfishは、生データをモデルのプロンプトに自動的に変換するインスタンス・シリアライザーと、DPの性能を向上させるためにタスクやデータセット固有の知識をオプションで導入する知識インジェクターを備えています。様々な実データセットを用いたJellyfishの評価により、最先端の手法と比較した競争力と、未知のタスクに対する強い汎用性が示されました。Jellyfishの性能はGPTシリーズのモデルに匹敵し、そのインタプリタはGPT-3.5と比較して推論機能が強化されています。さらに、我々の評価は、Jellyfishの構築に採用された技術の有効性を強調しています。我々のモデルは、Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish で入手可能です。

要約(オリジナル)

In this paper, we present Jellyfish, an open-source LLM as a universal task solver for DP. Built on the Llama 2 13B model, Jellyfish is instruction-tuned with the datasets of several typical DP tasks including error detection, data imputation, schema matching, and entity matching, and delivers generalizability to other tasks. Remarkably, Jellyfish can operate on a local, single, and low-priced GPU with its 13 billion parameters, ensuring data security and enabling further tuning. Its proficiency in understanding natural language allows users to manually craft instructions for DP tasks. Unlike many existing methods that heavily rely on prior knowledge, Jellyfish acquires domain knowledge during its tuning process and integrates optional knowledge injection during inference. A distinctive feature of Jellyfish is its interpreter, which elucidates its output decisions. To construct Jellyfish, we develop a series of pre-tuning and DP-tuning techniques. Jellyfish is equipped with an instance serializer, which automatically translates raw data into model prompts, and a knowledge injector, which optionally introduces task- and dataset-specific knowledge to enhance DP performance. Our evaluation of Jellyfish, using a range of real datasets, shows its competitiveness compared to state-of-the-art methods and its strong generalizability to unseen tasks. Jellyfish’s performance rivals that of GPT series models, and its interpreter offers enhanced reasoning capabilities compared to GPT-3.5. Furthermore, our evaluation highlights the effectiveness of the techniques employed in constructing Jellyfish. Our model is available at Hugging Face: https://huggingface.co/NECOUDBFM/Jellyfish .

arxiv情報

著者 Haochen Zhang,Yuyang Dong,Chuan Xiao,Masafumi Oyamada
発行日 2023-12-04 07:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.DB, cs.LG パーマリンク