The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis

要約

大規模言語モデル(LLM)が実証例を通して習熟することを可能にする文脈内学習(ICL)能力を理解することは、最も重要である。この重要性は、様々なタスクにおいてこの能力をより良く活用するためだけでなく、この能力に付随して生じる可能性のある、真実性、偏り、毒性に関する懸念を含む潜在的なリスクを事前に特定し、軽減するためでもある。本稿では、文脈内学習の解釈と分析に関する徹底的なサーベイを行う。まず、文脈内学習の背景と定義について簡潔に紹介する。次に、2つの観点から進歩の概要を説明する:1)理論的な観点から、メカニズム的な解釈可能性に関する研究を強調し、ICLの背後にある数学的基礎を掘り下げる。最後に、遭遇した課題を強調し、今後の研究の可能性を示唆する。我々の研究は、インコンテクスト学習の解釈をさらに探求するための基礎を確立するものであると確信している。さらに、我々の調査で参照されたリソースを含むリポジトリを作成した。

要約(オリジナル)

Understanding in-context learning (ICL) capability that enables large language models (LLMs) to excel in proficiency through demonstration examples is of utmost importance. This importance stems not only from the better utilization of this capability across various tasks, but also from the proactive identification and mitigation of potential risks, including concerns regarding truthfulness, bias, and toxicity, that may arise alongside the capability. In this paper, we present a thorough survey on the interpretation and analysis of in-context learning. First, we provide a concise introduction to the background and definition of in-context learning. Then, we give an overview of advancements from two perspectives: 1) a theoretical perspective, emphasizing studies on mechanistic interpretability and delving into the mathematical foundations behind ICL; and 2) an empirical perspective, concerning studies that empirically analyze factors associated with ICL. We conclude by highlighting the challenges encountered and suggesting potential avenues for future research. We believe that our work establishes the basis for further exploration into the interpretation of in-context learning. Additionally, we have created a repository containing the resources referenced in our survey.

arxiv情報

著者 Yuxiang Zhou,Jiazheng Li,Yanzheng Xiang,Hanqi Yan,Lin Gui,Yulan He
発行日 2024-10-03 17:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?

要約

今日の大規模言語モデル(LLM)の大部分は英語中心であり、主に英語のテキストで事前学習されている。しかし、ユーザーの期待に応えるためには、下流のアプリケーションに導入された時点で、モデルが多言語で適切に応答できる必要がある。これには、強力なクロスリンガル転送能力が必要である。本研究では、英語中心のLLMにおいて、言語横断的な汎化を引き出すために、ファインチューニング中に必要な最小限の多言語性を調査する。4つのLLMを用いた実験では、効果的な言語間汎化を引き出すためには、2~3言語程度の多言語指導チューニングが必要かつ十分であることがわかった。さらに、5つの異なるタスクでの評価により、多言語命令チューニングは、チャット設定のような入出力言語の一致を前提とする生成タスクで最も有益である一方、高度に構造化された分類スタイルのタスクではあまり重要ではないことが明らかになった。我々のコードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuning。

要約(オリジナル)

The vast majority of today’s large language models (LLMs) are English-centric, having been pretrained predominantly on English text. Yet, in order to meet user expectations, models need to be able to respond appropriately in multiple languages once deployed in downstream applications. This requires strong cross-lingual transfer abilities. In this work, we investigate the minimal amount of multilinguality required during finetuning to elicit cross-lingual generalisation in English-centric LLMs. In experiments across four LLMs, we find that multilingual instruction tuning with as few as two to three languages is both necessary and sufficient to elicit effective cross-lingual generalisation, with the limiting factor being the degree to which a target language is seen during pretraining. Evaluations on five different tasks further reveal that multilingual instruction tuning is most beneficial for generative tasks that assume input/output language agreement, such as in chat settings, while being of less importance for highly structured classification-style tasks. Our code and data is available at https://github.com/ZurichNLP/multilingual-instruction-tuning.

arxiv情報

著者 Tannon Kew,Florian Schottmann,Rico Sennrich
発行日 2024-10-03 17:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation

要約

我々は、テキストチャンク間の類似性を推定するために、信号対雑音比(SNR)に基づくスパンの不確実性を利用する、ロングコンテキストのRAG(Retrieval-Augmented Generation)のための新しいアプローチであるUncertaintyRAGを発表する。このスパンの不確実性はモデルの較正を強化し、頑健性を向上させ、ランダムチャンキングによってもたらされる意味的矛盾を緩和する。この洞察を活用し、効果的なデータサンプリングとスケーリング戦略とともに、検索モデルを学習するための効率的な教師なし学習技術を提案する。UncertaintyRAGは、LLaMA-2-7Bにおいてベースラインを2.03%上回り、分布シフト設定下で他の先進的なオープンソース検索モデルと比較して、わずか4%の学習データを使用しながら最先端の結果を達成した。本手法は、スパンの不確かさを通して強力な適合性を示し、ロングコンテキストのRAGタスクにおける汎化と頑健性の向上につながる。さらに、UncertaintyRAGは、微調整の必要なく、様々なコンテキストウィンドウ長を持つ大規模言語モデルに統合可能な軽量検索モデルを提供し、我々のアプローチの柔軟性を示す。

要約(オリジナル)

We present UncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG) that utilizes Signal-to-Noise Ratio (SNR)-based span uncertainty to estimate similarity between text chunks. This span uncertainty enhances model calibration, improving robustness and mitigating semantic inconsistencies introduced by random chunking. Leveraging this insight, we propose an efficient unsupervised learning technique to train the retrieval model, alongside an effective data sampling and scaling strategy. UncertaintyRAG outperforms baselines by 2.03% on LLaMA-2-7B, achieving state-of-the-art results while using only 4% of the training data compared to other advanced open-source retrieval models under distribution shift settings. Our method demonstrates strong calibration through span uncertainty, leading to improved generalization and robustness in long-context RAG tasks. Additionally, UncertaintyRAG provides a lightweight retrieval model that can be integrated into any large language model with varying context window lengths, without the need for fine-tuning, showcasing the flexibility of our approach.

arxiv情報

著者 Zixuan Li,Jing Xiong,Fanghua Ye,Chuanyang Zheng,Xun Wu,Jianqiao Lu,Zhongwei Wan,Xiaodan Liang,Chengming Li,Zhenan Sun,Lingpeng Kong,Ngai Wong
発行日 2024-10-03 17:39:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Grounding Large Language Models In Embodied Environment With Imperfect World Models

要約

様々なアプリケーションで広く成功を収めているにもかかわらず、大規模言語モデル(LLM)は、現実世界の物理的なニュアンスに対する直接的な経験が不足しているため、基本的な物理推論やロボティクスタスクの実行に取り組む際につまずくことが多い。このような問題に対処するため、我々は、シミュレータのような代理世界モデルを利用し、トライングデータを収集・合成するGLIMO(Grounding Large language model with Imperfect world MOdel)を提案する。GLIMOはLLMエージェントベースのデータジェネレータを組み込み、高品質で多様な命令データセットを自動的に作成する。この生成器には、時間的に一貫性のある経験サンプリングのための反復的な自己精錬モジュール、多様な質問応答インストラクションのシードセット、および過去の経験を反映するための検索補強型生成モジュールが含まれる。包括的な実験により、我々のアプローチが、LLaMA-3のような強力なオープンソースLLMの性能を向上させ、3つの異なるベンチマークでそれぞれ2.04 $times$、1.54 $times$、1.82 $times$の性能向上を示した。この性能は、GPT-4のような大規模なLLMに匹敵するか、凌駕する。

要約(オリジナル)

Despite a widespread success in various applications, large language models (LLMs) often stumble when tackling basic physical reasoning or executing robotics tasks, due to a lack of direct experience with the physical nuances of the real world. To address these issues, we propose a Grounding Large language model with Imperfect world MOdel (GLIMO), which utilizes proxy world models such as simulators to collect and synthesize trining data. GLIMO incorporates an LLM agent-based data generator to automatically create high-quality and diverse instruction datasets. The generator includes an iterative self-refining module for temporally consistent experience sampling, a diverse set of question-answering instruction seeds, and a retrieval-augmented generation module for reflecting on prior experiences. Comprehensive experiments show that our approach improve the performance of strong open-source LLMs like LLaMA-3 with a performance boost of 2.04 $\times$, 1.54 $\times$, and 1.82 $\times$ across three different benchmarks, respectively. The performance is able to compete with or surpass their larger counterparts such as GPT-4.

arxiv情報

著者 Haolan Liu,Jishen Zhao
発行日 2024-10-03 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.RO | コメントする

MA-RLHF: Reinforcement Learning from Human Feedback with Macro Actions

要約

人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)を人間の嗜好に合わせる上で有効であることが実証されている。しかし、トークンレベルのRLHFは、長いシーケンスにおける単位割り当ての問題に悩まされている。この問題では、報酬の遅延により、モデルがどの行動が成功した結果に貢献したかを識別することが困難になる。これは学習効率を妨げ、収束を遅らせる。本論文では、シンプルで効果的なRLHFフレームワークであるMA-RLHFを提案する。MA-RLHFは、学習プロセスにマクロアクション(トークンのシーケンスやより高レベルの言語構成要素)を組み込む。この高い抽象化レベルで動作することで、我々のアプローチは行動と報酬の間の時間的距離を縮め、より高速で正確な与信割り当てを容易にする。この結果、より安定した政策勾配の推定が可能となり、各エピソード内での学習効率が向上する。我々は、テキスト要約、対話生成、質問応答、プログラム合成を含む、様々なモデルサイズとタスクにわたる広範な実験を通して、我々のアプローチを検証する。我々の手法は標準的なRLHFと比較して大幅な性能向上を達成し、テキスト要約とコード生成で最大30%、対話で18%、質問応答タスクで8%の性能向上を達成した。特筆すべきは、我々の手法は、学習時間において、標準的なRLHFの1.7倍から2倍の速さで同等に達し、さらに学習を進めることでそれを上回り続けることである。我々のコードとデータは https://github.com/ernie-research/MA-RLHF で公開される予定である。

要約(オリジナル)

Reinforcement learning from human feedback (RLHF) has demonstrated effectiveness in aligning large language models (LLMs) with human preferences. However, token-level RLHF suffers from the credit assignment problem over long sequences, where delayed rewards make it challenging for the model to discern which actions contributed to successful outcomes. This hinders learning efficiency and slows convergence. In this paper, we propose MA-RLHF, a simple yet effective RLHF framework that incorporates macro actions — sequences of tokens or higher-level language constructs — into the learning process. By operating at this higher level of abstraction, our approach reduces the temporal distance between actions and rewards, facilitating faster and more accurate credit assignment. This results in more stable policy gradient estimates and enhances learning efficiency within each episode, all without increasing computational complexity during training or inference. We validate our approach through extensive experiments across various model sizes and tasks, including text summarization, dialogue generation, question answering, and program synthesis. Our method achieves substantial performance improvements over standard RLHF, with performance gains of up to 30% in text summarization and code generation, 18% in dialogue, and 8% in question answering tasks. Notably, our approach reaches parity with vanilla RLHF 1.7x to 2x faster in terms of training time and continues to outperform it with further training. We will make our code and data publicly available at https://github.com/ernie-research/MA-RLHF .

arxiv情報

著者 Yekun Chai,Haoran Sun,Huang Fang,Shuohuan Wang,Yu Sun,Hua Wu
発行日 2024-10-03 17:55:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

PharmacyGPT: The AI Pharmacist

要約

本研究では、臨床薬剤師の役割をエミュレートするためのChatGPTやGPT-4などの大規模言語モデル(LLM)の能力を評価するための新しいフレームワークであるPharmacyGPTを紹介する。我々の方法論は、理解可能な患者クラスタを生成し、投薬計画を策定し、患者の転帰を予測するためのLLMの利用を包含する。我々は、ノースカロライナ大学チャペルヒル(UNC)病院の集中治療室(ICU)から取得した実際のデータを用いて調査を行った。我々の分析は、臨床薬学の分野におけるLLMの潜在的な応用と限界について貴重な洞察を提供し、患者ケアと将来のAI駆動型ヘルスケアソリューションの開発の両方に示唆を与える。PharmacyGPTのパフォーマンスを評価することで、医療現場における人工知能の統合を取り巻く進行中の議論に貢献し、最終的にはそのような技術の責任ある効率的な使用を促進することを目指しています。

要約(オリジナル)

In this study, we introduce PharmacyGPT, a novel framework to assess the capabilities of large language models (LLMs) such as ChatGPT and GPT-4 in emulating the role of clinical pharmacists. Our methodology encompasses the utilization of LLMs to generate comprehensible patient clusters, formulate medication plans, and forecast patient outcomes. We conduct our investigation using real data acquired from the intensive care unit (ICU) at the University of North Carolina Chapel Hill (UNC) Hospital. Our analysis offers valuable insights into the potential applications and limitations of LLMs in the field of clinical pharmacy, with implications for both patient care and the development of future AI-driven healthcare solutions. By evaluating the performance of PharmacyGPT, we aim to contribute to the ongoing discourse surrounding the integration of artificial intelligence in healthcare settings, ultimately promoting the responsible and efficacious use of such technologies.

arxiv情報

著者 Zhengliang Liu,Zihao Wu,Mengxuan Hu,Bokai Zhao,Lin Zhao,Tianyi Zhang,Haixing Dai,Xianyan Chen,Ye Shen,Sheng Li,Quanzheng Li,Xiang Li,Brian Murray,Tianming Liu,Andrea Sikora
発行日 2024-10-03 17:55:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

On Training Data Influence of GPT Models

要約

生成言語モデルの急速な進歩の中で、学習データがGPTモデルの性能をどのように形成するかについての研究はまだ新しい。本論文では、GPTモデルの学習ダイナミクスに対する学習例の影響を評価するために、特徴化シミュレーションを活用した新しいアプローチであるGPTfluenceを紹介する。本アプローチは、個々の訓練例が、目標とするテストポイントにおける損失やその他の主要なメトリクスなどのパフォーマンス軌道に与える影響を追跡するだけでなく、1400万から28億のパラメータに及ぶGPTモデルの様々な訓練シナリオにおいて、下流タスクの範囲にわたって、既存の手法との包括的な比較を可能にする。GPTfluenceは、新しいデータへの汎化に苦戦する以前の手法とは対照的に、トレーニングダイナミクスのパラメータ化されたシミュレーションを導入し、未知のトレーニングデータへの頑健な汎化能力を実証しています。この適応性は、ファインチューニングとインストラクションチューニングの両方のシナリオにおいて、自然言語理解と生成のタスクにまたがって明らかである。我々のコードとデータは、https://github.com/ernie-research/gptfluence で公開されている。

要約(オリジナル)

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We make our code and data publicly available at https://github.com/ernie-research/gptfluence.

arxiv情報

著者 Yekun Chai,Qingyi Liu,Shuohuan Wang,Yu Sun,Qiwei Peng,Hua Wu
発行日 2024-10-03 17:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

Tokenization Falling Short: The Curse of Tokenization

要約

言語モデルは通常、生テキストを事前に定義された語彙からサブワード識別子のシーケンスにトークン化するが、このプロセスは本質的に誤字脱字や長さのばらつきに敏感であり、トークンの内部構造にはほとんど気づかない。本研究では、これらの欠点を掘り下げ、大規模言語モデル(LLM)が依然としてこれらの問題の影響を受けやすいことを実証する。本研究では、(1)複雑な問題解決、(2)トークン構造のプロービング、(3)タイポグラフィの変化への耐性という3つの重要な研究課題を通して、これらの課題とLLMへの影響を系統的に調査する。その結果、モデルパラメータをスケーリングすることで、トークン化の問題を軽減できることが明らかになった。しかし、LLMは依然として、誤字やその他のテキスト形式のバリエーションによって引き起こされるバイアスに悩まされている。我々の実験は、BPE-dropoutのようなサブワード正則化がこの問題を軽減できることを示している。評価コードとデータはhttps://github.com/FloatAI/TKEval。

要約(オリジナル)

Language models typically tokenize raw text into sequences of subword identifiers from a predefined vocabulary, a process inherently sensitive to typographical errors, length variations, and largely oblivious to the internal structure of tokens–issues we term the curse of tokenization. In this study, we delve into these drawbacks and demonstrate that large language models (LLMs) remain susceptible to these problems. This study systematically investigates these challenges and their impact on LLMs through three critical research questions: (1) complex problem solving, (2) token structure probing, and (3) resilience to typographical variation. Our findings reveal that scaling model parameters can mitigate the issue of tokenization; however, LLMs still suffer from biases induced by typos and other text format variations. Our experiments show that subword regularization such as BPE-dropout can mitigate this issue. We release our evaluation code and data at https://github.com/FloatAI/TKEval.

arxiv情報

著者 Yekun Chai,Yewei Fang,Qiwei Peng,Xuhong Li
発行日 2024-10-03 17:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Training Language Models on Synthetic Edit Sequences Improves Code Synthesis

要約

ソフトウェア・エンジニアは、主に既存のプログラムを編集してコードを書く。対照的に、大規模言語モデル(LLM)は、1回のパスでプログラムを自己回帰的に合成する。この理由の一つは、オープンソース化された編集データが少ないことである。コード合成のための高品質な命令データはすでに少ないが、高品質な編集データはさらに少ない。このギャップを埋めるために、我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発した。このアルゴリズムは、プログラムを逐次記述するために使用できるエラーのない挿入を手続き的にサンプリングするためにリンターを使用することにより、既存のコードをコード編集シーケンスにリファクタリングする。編集シーケンスは、連続するプログラムの差分からなるテキスト文字列として出力される。LintSeqをテストするために、命令+プログラムのペアのデータセットを命令+プログラム-差分-シーケンスのタプルにリファクタリングするために使用します。次に、このデータセットのリファクタリング版とオリジナル版の両方について、2.6Bから14Bのパラメータに及ぶ一連の小さなLLMをインストラクション・ファインチューニングし、コード合成ベンチマークにおけるゼロショット性能を比較する。繰り返しサンプリング中に、編集シーケンス微調整モデルはベースラインよりも多様なプログラムを生成することを示す。この結果、サンプルの関数として、ベンチマークカバレッジの推論時間のスケーリングが改善される。例えば、HumanEval pass@50では、合成編集配列でファインチューニングされた小さなLLMはGPT-4と競合し、ベースラインデータセットでファインチューニングされたモデルを絶対スコアで+20% (+/-3%) 上回った。最後に、コード理解のために、独自の小さなLMを事前学習する。合成コード編集で微小モデルを微調整することで、オンデバイスモデルクラスで最先端のコード合成が得られることを示す。我々の150Mパラメータ編集シーケンスLMは、CodexやAlphaCodeを含む、繰り返しサンプリングの有無にかかわらず、2倍のパラメータ数を持つコードモデルと一致するか、それを上回る。

要約(オリジナル)

Software engineers mainly write code by editing existing programs. In contrast, large language models (LLMs) autoregressively synthesize programs in a single pass. One explanation for this is the scarcity of open-sourced edit data. While high-quality instruction data for code synthesis is already scarce, high-quality edit data is even scarcer. To fill this gap, we develop a synthetic data generation algorithm called LintSeq. This algorithm refactors existing code into a sequence of code edits by using a linter to procedurally sample across the error-free insertions that can be used to sequentially write programs. It outputs edit sequences as text strings consisting of consecutive program diffs. To test LintSeq, we use it to refactor a dataset of instruction + program pairs into instruction + program-diff-sequence tuples. Then, we instruction finetune a series of smaller LLMs ranging from 2.6B to 14B parameters on both the re-factored and original versions of this dataset, comparing zero-shot performance on code synthesis benchmarks. We show that during repeated sampling, edit sequence finetuned models produce more diverse programs than baselines. This results in better inference-time scaling for benchmark coverage as a function of samples, i.e. the fraction of problems ‘pass@k’ solved by any attempt given ‘k’ tries. For example, on HumanEval pass@50, small LLMs finetuned on synthetic edit sequences are competitive with GPT-4 and outperform models finetuned on the baseline dataset by +20% (+/-3%) in absolute score. Finally, we also pretrain our own tiny LMs for code understanding. We show that finetuning tiny models on synthetic code edits results in state-of-the-art code synthesis for the on-device model class. Our 150M parameter edit sequence LM matches or outperforms code models with twice as many parameters, both with and without repeated sampling, including Codex and AlphaCode.

arxiv情報

著者 Ulyana Piterbarg,Lerrel Pinto,Rob Fergus
発行日 2024-10-03 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

SIEVE: General Purpose Data Filtering System Matching GPT-4o Accuracy at 1% the Cost

要約

特化した大規模言語モデルを作成するには、学習と微調整のために膨大な量のクリーンで特別な目的のデータが必要です。既存の大規模でドメイン固有のデータセットはほんの一握りであるため、ほとんどのアプリケーションでは新しいデータセットの作成が必要となる。このため、ウェブスケールデータのアプリケーション固有のフィルタリングを新たに開発する必要がある。GPT-4oのような高性能汎用LLMによるフィルタリングは非常に効果的であるが、ウェブスケールでは非常に高価である。本論文では、GPT-4oの精度に匹敵する軽量の代替手段であるSIEVEを提案する。SIEVEは、GPT-4oのフィルタリング呼び出し1回分のコストで、最大500回のフィルタリング処理を実行できる。SIEVEの鍵は、GPT-4oと軽量T5モデルのシームレスな統合であり、GPT-4oへの少ない呼び出し回数でバックグラウンドでT5を微調整するために能動学習を使用しています。一度学習すれば、GPT-4oと同程度の性能をわずかなコストで実現します。我々は、OpenWebTextデータセット上で、高品質でドメイン固有のコンテンツをターゲットとした、高度にカスタマイズされた5つのフィルタータスクを使用して、SIEVEを実験的に検証した。その結果、既存の手法よりも大幅に低いコスト(1%)で、言語モデル学習用の大規模で高品質なデータセットをキュレートする上で、本手法の有効性と効率性が実証された。SIEVEをさらに検証するため、実験ではSIEVEとGPT-4oが同程度の精度を達成し、人間の評価者はGPT-4oのフィルタリング結果よりもSIEVEのフィルタリング結果を好むことが示された。

要約(オリジナル)

Creating specialized large language models requires vast amounts of clean, special purpose data for training and fine-tuning. With only a handful of existing large-scale, domain-specific datasets, creation of new datasets is required in most applications. This requires the development of new application-specific filtering of web-scale data. Filtering with a high-performance, general-purpose LLM such as GPT-4o can be highly effective, but this is extremely expensive at web-scale. This paper proposes SIEVE, a lightweight alternative that matches GPT-4o accuracy at a fraction of the cost. SIEVE can perform up to 500 filtering operations for the cost of one GPT-4o filtering call. The key to SIEVE is a seamless integration of GPT-4o and lightweight T5 models, using active learning to fine-tune T5 in the background with a small number of calls to GPT-4o. Once trained, it performs as well as GPT-4o at a tiny fraction of the cost. We experimentally validate SIEVE on the OpenWebText dataset, using five highly customized filter tasks targeting high quality and domain-specific content. Our results demonstrate the effectiveness and efficiency of our method in curating large, high-quality datasets for language model training at a substantially lower cost (1%) than existing techniques. To further validate SIEVE, experiments show that SIEVE and GPT-4o achieve similar accuracy, with human evaluators preferring SIEVE’s filtering results to those of GPT-4o.

arxiv情報

著者 Jifan Zhang,Robert Nowak
発行日 2024-10-03 17:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする