Large Language Model Evaluation via Matrix Nuclear-Norm

要約

大規模言語モデル (LLM) が進化し続けるにつれて、情報を圧縮して冗長性を削減する能力を評価するには、効率的な評価指標が不可欠です。
行列エントロピーのような従来のメトリクスは貴重な洞察を提供しますが、特異値分解 (SVD) では \( O(n^3) \) の時間がかかるため、大規模モデルでは計算量が多くなります。
この問題を軽減するために、行列核ノルムを導入します。これは、LLM のデータ圧縮能力を定量化する指標として機能するだけでなく、予測識別可能性と多様性の両方を捉えるための行列ランクの凸近似も提供します。
\( L_{1,2}\text{-norm} \) を使用して核ノルムをさらに近似することで、モデルの情報圧縮能力を効果的に評価できます。
このアプローチでは、時間計算量が \( O(n^2) \) に軽減され、SVD 計算の必要がなくなります。
その結果、サイズが 111M から 6.7B に増加するにつれて、Matrix Nuclear-Norm は CEREBRAS-GPT モデルの Matrix Entropy より 8 ~ 24 倍の速度を達成します。
Pythia などの他のモデルでのテストで検証されているように、このパフォーマンスのギャップはモデルが大きくなるとより顕著になります。
さらに、ベンチマークとモデル応答の評価により、私たちが提案する Matrix Nuclear-Norm が、LLM のパフォーマンスを評価するための信頼性が高く、スケーラブルで効率的なツールであり、精度と計算効率のバランスが取れていることが確認されています。
コードは https://github.com/MLGroupJLU/MatrixNuclearNorm で入手できます。

要約(オリジナル)

As large language models (LLMs) continue to evolve, efficient evaluation metrics are vital for assessing their ability to compress information and reduce redundancy. While traditional metrics like Matrix Entropy offer valuable insights, they are computationally intensive for large-scale models due to their \( O(n^3) \) time complexity with Singular Value Decomposition (SVD). To mitigate this issue, we introduce the Matrix Nuclear-Norm, which not only serves as a metric to quantify the data compression proficiency of LLM but also provides a convex approximation of matrix rank to capture both predictive discriminability and diversity. By employing the \( L_{1,2}\text{-norm} \) to further approximate the nuclear norm, we can effectively assess the model’s information compression capabilities. This approach reduces the time complexity to \( O(n^2) \) and eliminates the need for SVD computation. Consequently, the Matrix Nuclear-Norm achieves speeds 8 to 24 times faster than Matrix Entropy for the CEREBRAS-GPT model as sizes increase from 111M to 6.7B. This performance gap becomes more pronounced with larger models, as validated in tests with other models like Pythia. Additionally, evaluations on benchmarks and model responses confirm that our proposed Matrix Nuclear-Norm is a reliable, scalable, and efficient tool for assessing LLMs’ performance, striking a balance between accuracy and computational efficiency. The code is available at https://github.com/MLGroupJLU/MatrixNuclearNorm.

arxiv情報

著者 Yahan Li,Tingyu Xia,Yi Chang,Yuan Wu
発行日 2024-10-14 16:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Model Evaluation via Matrix Nuclear-Norm はコメントを受け付けていません

Large Language Models Are Active Critics in NLG Evaluation

要約

自然言語生成 (NLG) システムを評価するために大規模言語モデル (LLM) を使用する従来のパラダイムは、通常、2 つの重要な入力に依存しています: (1) 評価される NLG タスクの明確な定義、および (2) 事前定義されたタスクのリスト
評価基準。
このプロセスでは、LLM を「消極的な批評家」として扱い、人間が定義した評価基準に厳密に従います。
ただし、新しい NLG タスクが出現すると、テキストの品質を評価する基準が大きく変わる可能性があります。
その結果、これらの厳格な評価方法は、特定のタスクごとにカスタマイズされた大規模な即時エンジニアリングがなければ、多様な NLG タスクに適応するのに苦労します。
この制限に対処するために、LLM が「アクティブな批評家」として機能できるようにする、新しい LLM ベースの NLG 評価プロトコルである Active-Critic を導入します。特に、私たちのプロトコルは 2 つの重要な段階で構成されています。
最初の段階では、LLM はターゲット NLG タスクを推測し、データから関連する評価基準を確立するように指示されます。
この自己推論情報に基づいて、第 2 段階ではプロンプトを動的に最適化し、LLM をより人間に合わせたスコア決定に導くと同時に、その評価を正当化するための詳細な説明も生成します。
4 つの NLG 評価タスクにわたる実験では、私たちのアプローチが最先端の評価方法よりも人間の判断とのより強い一致を実現していることが示されています。
私たちの包括的な分析は、わずかな量のラベル付きデータによる Active-Critic の有効性と説明可能性をさらに強調しています。
コードとデータは GitHub で共有します。

要約(オリジナル)

The conventional paradigm of using large language models (LLMs) for evaluating natural language generation (NLG) systems typically relies on two key inputs: (1) a clear definition of the NLG task to be evaluated and (2) a list of pre-defined evaluation criteria. This process treats LLMs as ”passive critics,” strictly following human-defined criteria for evaluation. However, as new NLG tasks emerge, the criteria for assessing text quality can vary greatly. Consequently, these rigid evaluation methods struggle to adapt to diverse NLG tasks without extensive prompt engineering customized for each specific task. To address this limitation, we introduce Active-Critic, a novel LLM-based NLG evaluation protocol that enables LLMs to function as ”active critics.” Specifically, our protocol comprises two key stages. In the first stage, the LLM is instructed to infer the target NLG task and establish relevant evaluation criteria from the data. Building on this self-inferred information, the second stage dynamically optimizes the prompt to guide the LLM toward more human-aligned scoring decisions, while also generating detailed explanations to justify its evaluations. Experiments across four NLG evaluation tasks show that our approach achieves stronger alignment with human judgments than state-of-the-art evaluation methods. Our comprehensive analysis further highlights the effectiveness and explainability of Active-Critic with only a small amount of labeled data. We will share our code and data on GitHub.

arxiv情報

著者 Shuying Xu,Junjie Hu,Ming Jiang
発行日 2024-10-14 17:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Models Are Active Critics in NLG Evaluation はコメントを受け付けていません

Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs

要約

公共で使用する大規模言語モデル (LLM) では、最新のデータを最新の状態に保つために継続的な事前トレーニングが必要です。
指示に正確に従う能力を維持するには、モデルを特定の指示で微調整する必要もあります。
通常、LLM は 2 つのバージョンでリリースされます。1 つはさまざまなデータで事前トレーニングされた Base LLM、もう 1 つは指示に従うようになるために特定の指示でさらにトレーニングされた、命令リファインド LLM です。
最新のデータを最新の状態に保ちながら、指示に従う能力を維持するには、どのモデルが継続的な事前トレーニングを受ける必要があるかという疑問が生じます。
この研究では、LLM の継続的な事前トレーニングと指示の微調整の間の複雑な関係を掘り下げ、ベ​​ースとその指示の微調整されたモデルの両方の指示に従う能力に対する継続的な事前トレーニングの影響を調査します。
さらに、命令の微調整プロセスは大量の計算を必要とするため、モデルを効果的に学習するには、手作業で注釈を付けたサンプルが相当数必要になります。
この研究は、命令データや微調整を必要とせずに、最新の知識と命令追従機能を獲得するための最も計算効率の高い戦略を見つけることを目的としています。
LLaMa 3、3.1 および Qwen 2、2.5 ファミリーのベースおよび命令モデルに関する発見を経験的に証明し、さまざまなサイズの事前トレーニング データ コーパスとさまざまな LLM 設定にわたる仮説の包括的な調査を提供します。

要約(オリジナル)

Large Language Models (LLMs) for public use require continuous pre-training to remain up-to-date with the latest data. The models also need to be fine-tuned with specific instructions to maintain their ability to follow instructions accurately. Typically, LLMs are released in two versions: the Base LLM, pre-trained on diverse data, and the instruction-refined LLM, additionally trained with specific instructions for better instruction following. The question arises as to which model should undergo continuous pre-training to maintain its instruction-following abilities while also staying current with the latest data. In this study, we delve into the intricate relationship between continuous pre-training and instruction fine-tuning of the LLMs and investigate the impact of continuous pre-training on the instruction following abilities of both the base and its instruction finetuned model. Further, the instruction fine-tuning process is computationally intense and requires a substantial number of hand-annotated examples for the model to learn effectively. This study aims to find the most compute-efficient strategy to gain up-to-date knowledge and instruction-following capabilities without requiring any instruction data and fine-tuning. We empirically prove our findings on the LLaMa 3, 3.1 and Qwen 2, 2.5 family of base and instruction models, providing a comprehensive exploration of our hypotheses across varying sizes of pre-training data corpus and different LLMs settings.

arxiv情報

著者 Ishan Jindal,Chandana Badrinath,Pranjal Bharti,Lakkidi Vinay,Sachin Dev Sharma
発行日 2024-10-14 17:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs はコメントを受け付けていません

Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification

要約

生成大規模言語モデル (LLM) は、テキスト サンプルが言い換え (または新たに生成) され、分類器の微調整に使用されるデータ拡張タスクにますます使用されています。
拡張に関する既存の研究では、サンプルがプロンプトの一部として LLM に与えられる少数ショット シナリオが活用されており、より良い拡張につながります。
しかし、サンプルはほとんどがランダムに選択されており、他の(より「情報に基づいた」)サンプル選択戦略の影響に関する包括的な概要が不足しています。
この研究では、少数ショット学習文献に存在するサンプル選択戦略を比較し、LLM ベースのテキスト拡張におけるそれらの効果を調査します。
これを、分布内および分布外の分類器のパフォーマンスに基づいて評価します。
結果は、一部の「情報に基づいた」選択戦略は、特に分布外データの場合にモデルのパフォーマンスを向上させるものの、それはめったに起こらず、パフォーマンスの向上もわずかであることを示しています。
さらなる進歩が見られない限り、ランダムなサンプル選択のデフォルトがオーグメンテーションの実践者にとって良い選択肢のままです。

要約(オリジナル)

The generative large language models (LLMs) are increasingly used for data augmentation tasks, where text samples are paraphrased (or generated anew) and then used for classifier fine-tuning. Existing works on augmentation leverage the few-shot scenarios, where samples are given to LLMs as part of prompts, leading to better augmentations. Yet, the samples are mostly selected randomly and a comprehensive overview of the effects of other (more “informed”) sample selection strategies is lacking. In this work, we compare sample selection strategies existing in few-shot learning literature and investigate their effects in LLM-based textual augmentation. We evaluate this on in-distribution and out-of-distribution classifier performance. Results indicate, that while some “informed” selection strategies increase the performance of models, especially for out-of-distribution data, it happens only seldom and with marginal performance increases. Unless further advances are made, a default of random sample selection remains a good option for augmentation practitioners.

arxiv情報

著者 Jan Cegin,Branislav Pecher,Jakub Simko,Ivan Srba,Maria Bielikova,Peter Brusilovsky
発行日 2024-10-14 17:30:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Use Random Selection for Now: Investigation of Few-Shot Selection Strategies in LLM-based Text Augmentation for Classification はコメントを受け付けていません

Denial-of-Service Poisoning Attacks against Large Language Models

要約

最近の研究では、LLM がサービス拒否 (DoS) 攻撃に対して脆弱であることが示されています。DoS 攻撃では、スペル ミスや非セマンティック プロンプトなどの敵対的な入力によって、[EOS] トークンが生成されずに無限の出力がトリガーされます。
これらの攻撃により、潜在的に遅延が大きくなり、他のユーザーやタスクが LLM サービスにアクセスできなくなる可能性があります。
ただし、音声からテキストへのインターフェイス (ロボットへの音声コマンドなど) がある場合、音声によるスペル ミスや非セマンティック プロンプトの導入が難しいため、このような DoS 攻撃の実行は困難になります。
これらのシナリオにおける単純な DoS 攻撃は、モデルに「Hello を繰り返し続ける」ように指示することですが、自然な指示のみに依存すると出力長が制限され、LLM の教師あり微調整 (SFT) データの最大長によって制限されることがわかります。
この制限を克服するために、LLM に対するポイズニング ベースの DoS (P-DoS) 攻撃を提案します。これは、DoS 目的で設計された単一のポイズニングされたサンプルを注入することで出力長の制限を突破できることを実証します。
たとえば、ポイズニングされたサンプルは、1 ドル未満を使用して (OpenAI の微調整 API 経由で) GPT-4o および GPT-4o mini を攻撃することに成功し、最大推論長 (ポイズニング前の 0.5K トークンと比較して 16K トークン) まで繰り返し出力を引き起こす可能性があります。
さらに、オープンソース LLM に対して包括的なアブレーション研究を実行し、攻撃者が微調整データセットとアルゴリズムの両方を制御できる LLM エージェントに手法を拡張します。
私たちの調査結果は、LLM を保護するために P-DoS 攻撃に対する防御が緊急に必要であることを強調しています。
私たちのコードは https://github.com/sail-sg/P-DoS で入手できます。

要約(オリジナル)

Recent studies have shown that LLMs are vulnerable to denial-of-service (DoS) attacks, where adversarial inputs like spelling errors or non-semantic prompts trigger endless outputs without generating an [EOS] token. These attacks can potentially cause high latency and make LLM services inaccessible to other users or tasks. However, when there are speech-to-text interfaces (e.g., voice commands to a robot), executing such DoS attacks becomes challenging, as it is difficult to introduce spelling errors or non-semantic prompts through speech. A simple DoS attack in these scenarios would be to instruct the model to ‘Keep repeating Hello’, but we observe that relying solely on natural instructions limits output length, which is bounded by the maximum length of the LLM’s supervised finetuning (SFT) data. To overcome this limitation, we propose poisoning-based DoS (P-DoS) attacks for LLMs, demonstrating that injecting a single poisoned sample designed for DoS purposes can break the output length limit. For example, a poisoned sample can successfully attack GPT-4o and GPT-4o mini (via OpenAI’s finetuning API) using less than $1, causing repeated outputs up to the maximum inference length (16K tokens, compared to 0.5K before poisoning). Additionally, we perform comprehensive ablation studies on open-source LLMs and extend our method to LLM agents, where attackers can control both the finetuning dataset and algorithm. Our findings underscore the urgent need for defenses against P-DoS attacks to secure LLMs. Our code is available at https://github.com/sail-sg/P-DoS.

arxiv情報

著者 Kuofeng Gao,Tianyu Pang,Chao Du,Yong Yang,Shu-Tao Xia,Min Lin
発行日 2024-10-14 17:39:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR | Denial-of-Service Poisoning Attacks against Large Language Models はコメントを受け付けていません

Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance

要約

大規模な言語モデルは、ユーザーの指示に従い、入力コンテキストを処理する能力を強化するために、指示が微調整されています。
ただし、最先端のモデルでも、特に入力コンテキストがモデルのパラメトリック知識と一致していない場合、指示に従うのが困難になることがよくあります。
これは、回答が時代遅れであったり、偏っていたり、未確認の事実が含まれている場合の幻覚など、さまざまな失敗として現れます。
この研究では、特に命令チューニング後の、コンテキストへの依存性が低い根本的な理由を理解しようとします。
興味深い現象が観察されました。命令の調整中に、コンテキスト依存度は最初は予想どおり増加しますが、その後、命令の微調整が進むにつれて徐々に減少します。
私たちはこの現象をコンテキストパラメトリック反転と呼び、TULU、Alpaca、Ultrachat などの複数の汎用命令チューニング データセットや、Llama、Mistral、Pythia などのモデル ファミリ全体で観察しています。
単純な理論的設定で、命令微調整の勾配降下軌道に沿ってコンテキストパラメトリック反転が発生する理由を特定します。
この現象を、入力コンテキストがモデルのパラメトリック知識にすでに存在する情報を提供する命令微調整データ混合の例に関連付けます。
私たちの分析は、理論的な洞察を検証しながら、限定的な利益を提供する自然な緩和戦略を示唆しています。
私たちの取り組みが、LLM トレーニングの主要部分におけるこの障害モードに対処するための出発点として機能することを願っています。

要約(オリジナル)

Large language models are instruction-finetuned to enhance their ability to follow user instructions and process the input context. However, even state-of-the-art models often struggle to follow the instruction, especially when the input context is not aligned with the model’s parametric knowledge. This manifests as various failures, such as hallucinations where the responses are outdated, biased or contain unverified facts. In this work, we try to understand the underlying reason for this poor context reliance, especially after instruction tuning. We observe an intriguing phenomenon: during instruction tuning, the context reliance initially increases as expected, but then gradually decreases as instruction finetuning progresses. We call this phenomenon context-parametric inversion and observe it across multiple general purpose instruction tuning datasets like TULU, Alpaca and Ultrachat, as well as model families such as Llama, Mistral and Pythia. In a simple theoretical setup, we isolate why context-parametric inversion occurs along the gradient descent trajectory of instruction finetuning. We tie this phenomena to examples in the instruction finetuning data mixture where the input context provides information that is already present in the model’s parametric knowledge. Our analysis suggests natural mitigation strategies that provide some limited gains, while also validating our theoretical insights. We hope that our work serves as a starting point in addressing this failure mode in a staple part of LLM training.

arxiv情報

著者 Sachin Goyal,Christina Baek,J. Zico Kolter,Aditi Raghunathan
発行日 2024-10-14 17:57:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance はコメントを受け付けていません

Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning

要約

大規模言語モデル (LLM) は、さまざまなアプリケーションに世界中で採用され、展開されています。
しかし、その安全な使用を確保することは依然として大きな課題です。
優先トレーニングや安全対策は、西洋中心のデータセットに蔓延する危害に過剰適合することが多く、安全プロトコルは多言語設定に拡張できないことがよくあります。
この研究では、多言語コンテキスト内で安全タスクと汎用タスクを組み合わせ、多様なマルチタスク設定でモデルを統合する方法を検討します。
各言語には、さまざまなタスクにわたって、独特で多様な学習課題が生じます。
目的に基づいた結合はデータを混合するより効果的であり、一般的なパフォーマンスと安全性がそれぞれ最大 8% と 10% 向上することがわかりました。
また、言語ベースのマージが非常に効果的であることもわかりました。単一言語で微調整されたモデルをマージすることにより、利用可能な同じデータ混合手法に加えて、すべての言語で全体的なパフォーマンスが 4% 向上し、被害が 7% 削減されました。
データ。
全体として、結合アプローチに関する私たちの包括的な研究は、強力で安全な多言語モデルを構築するための有用なフレームワークを提供します。

要約(オリジナル)

Large Language Models (LLMs) have been adopted and deployed worldwide for a broad variety of applications. However, ensuring their safe use remains a significant challenge. Preference training and safety measures often overfit to harms prevalent in Western-centric datasets, and safety protocols frequently fail to extend to multilingual settings. In this work, we explore model merging in a diverse multi-task setting, combining safety and general-purpose tasks within a multilingual context. Each language introduces unique and varied learning challenges across tasks. We find that objective-based merging is more effective than mixing data, with improvements of up to 8% and 10% in general performance and safety respectively. We also find that language-based merging is highly effective — by merging monolingually fine-tuned models, we achieve a 4% increase in general performance and 7% reduction in harm across all languages on top of the data mixtures method using the same available data. Overall, our comprehensive study of merging approaches provides a useful framework for building strong and safe multilingual models.

arxiv情報

著者 Aakanksha,Arash Ahmadian,Seraphina Goldfarb-Tarrant,Beyza Ermis,Marzieh Fadaee,Sara Hooker
発行日 2024-10-14 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mix Data or Merge Models? Optimizing for Diverse Multi-Task Learning はコメントを受け付けていません

Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment

要約

人間が注釈を付けた嗜好データに基づいて言語モデル (LM) を調整することは、実用的でパフォーマンスの高い LM ベースのシステムを取得するための重要なステップです。
ただし、多言語の人間の嗜好データを大規模に取得することは困難であるため、このフレームワークを多様な言語に拡張することが困難になります。
この研究では、ゼロショットの言語間の調整のためのシンプルなアプローチを評価します。このアプローチでは、報酬モデルが 1 つのソース言語の嗜好データに基づいてトレーニングされ、他のターゲット言語に直接適用されます。
要約とオープンエンド型ダイアログの生成に関して、この方法が人間による評価を含む包括的な評価設定の下で一貫して成功することを示します。人間は、評価インスタンスの最大 70% で、言語間で調整されたモデルが、調整されていないモデルよりも好まれます。
さらに、異なる言語の報酬モデルは、同じ言語の報酬モデルよりもより適切に調整されたモデルを生成する場合があることがわかりました。
また、調整中の別のコンポーネントである教師あり微調整さえも行う言語固有のデータがない場合のベスト プラクティスも特定します。

要約(オリジナル)

Aligning language models (LMs) based on human-annotated preference data is a crucial step in obtaining practical and performant LM-based systems. However, multilingual human preference data are difficult to obtain at scale, making it challenging to extend this framework to diverse languages. In this work, we evaluate a simple approach for zero-shot cross-lingual alignment, where a reward model is trained on preference data in one source language and directly applied to other target languages. On summarization and open-ended dialog generation, we show that this method is consistently successful under comprehensive evaluation settings, including human evaluation: cross-lingually aligned models are preferred by humans over unaligned models on up to >70% of evaluation instances. We moreover find that a different-language reward model sometimes yields better aligned models than a same-language reward model. We also identify best practices when there is no language-specific data for even supervised finetuning, another component in alignment.

arxiv情報

著者 Zhaofeng Wu,Ananth Balashankar,Yoon Kim,Jacob Eisenstein,Ahmad Beirami
発行日 2024-10-14 17:58:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment はコメントを受け付けていません

Local and Global Decoding in Text Generation

要約

対話システムなどのアプリケーションの重要なコンポーネントであるテキスト生成は、言語モデル配布から文字列をサンプリングするデコード アルゴリズムに依存しています。
top-$k$ や top-$\pi$ などの従来の方法では、モデルの出力分布に局所的な正規化が適用されるため、モデルが歪む可能性があります。
この論文では、これらの復号化方法のグローバルに正規化されたバージョンを導入することによって、この歪みの影響を調査します。
さらに、明示的に計算せずにグローバルに正規化された分布からのサンプリングを近似するための独立したメトロポリス・ヘイスティングス アルゴリズムを提案します。
私たちの実証分析では、Pythia 言語モデルを使用して、さまざまなハイパーパラメーターを使用した 2 つのデコード アルゴリズム (top-$k$ および top-$\pi$) にわたるローカルおよびグローバル正規化のパフォーマンスを比較します。
結果は、ほとんどの構成で、ディストリビューションの整合性が保たれているにもかかわらず、グローバル デコードのパフォーマンスが同じアルゴリズムのローカル デコード バージョンよりも劣ることを示しています。
私たちの結果は、歪みがローカル デコード アルゴリズムの重要な特徴であることを示唆しています。

要約(オリジナル)

Text generation, a key component in applications such as dialogue systems, relies on decoding algorithms that sample strings from a language model distribution. Traditional methods, such as top-$k$ and top-$\pi$, apply local normalisation to the model’s output distribution, which can distort it. In this paper, we investigate the effect of this distortion by introducing globally-normalised versions of these decoding methods. Additionally, we propose an independent Metropolis-Hastings algorithm to approximate sampling from globally-normalised distributions without explicitly computing them. Our empirical analysis compares the performance of local and global normalisation across two decoding algorithms (top-$k$ and top-$\pi$) with various hyperparameters, using Pythia language models. Results show that, in most configurations, global decoding performs worse than the local decoding version of the same algorithms — despite preserving the distribution’s integrity. Our results suggest that distortion is an important feature of local decoding algorithms.

arxiv情報

著者 Daniel Gareev,Thomas Hofmann,Ezhilmathi Krishnasamy,Tiago Pimentel
発行日 2024-10-14 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Local and Global Decoding in Text Generation はコメントを受け付けていません

Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free

要約

大規模言語モデル (LLM) は生成タスクでは優れていますが、デコーダのみのアーキテクチャにより、さらなる表現の微調整が適用されない場合、埋め込みモデルとしての可能性が制限されることがよくあります。
これは彼らのジェネラリストの主張と矛盾しますか?
この質問に答えるために、Mixture-of-Experts (MoE) LLM を詳しく見ていきます。
私たちの研究では、MoE LLM のエキスパート ルーターが、微調整を必要とせずに、さまざまなクラスの埋め込みに重点を置いたタスクで有望なパフォーマンスを備えた既製の埋め込みモデルとして機能できることが示されています。
さらに、私たちの広範な分析は、MoE ルーティング ウェイト(RW)が、広く使用されている埋め込みである LLM の隠れ状態(HS)を補完することを示しています。
HS と比較すると、RW はプロンプトの選択に対してより堅牢であり、高レベルのセマンティクスに焦点を当てていることがわかります。
この分析に基づいて、RW と HS を組み合わせた MoEE を提案します。これにより、どちらかを個別に使用するよりも優れたパフォーマンスが実現します。
それらの組み合わせとプロンプト戦略の調査により、RW と HS の類似度の加重合計がそれらの連結における類似度を上回るなど、いくつかの新しい洞察が得られました。
私たちの実験は、Massive Text Embedding Benchmark (MTEB) からの 20 のデータセットを使用した 6 つの埋め込みタスクで実行されました。
この結果は、MoEE によって、さらに微調整することなく LLM ベースの埋め込みに大幅な改善がもたらされたことを示しています。

要約(オリジナル)

While large language models (LLMs) excel on generation tasks, their decoder-only architecture often limits their potential as embedding models if no further representation finetuning is applied. Does this contradict their claim of generalists? To answer the question, we take a closer look at Mixture-of-Experts (MoE) LLMs. Our study shows that the expert routers in MoE LLMs can serve as an off-the-shelf embedding model with promising performance on a diverse class of embedding-focused tasks, without requiring any finetuning. Moreover, our extensive analysis shows that the MoE routing weights (RW) is complementary to the hidden state (HS) of LLMs, a widely-used embedding. Compared to HS, we find that RW is more robust to the choice of prompts and focuses on high-level semantics. Motivated by the analysis, we propose MoEE combining RW and HS, which achieves better performance than using either separately. Our exploration of their combination and prompting strategy shed several novel insights, e.g., a weighted sum of RW and HS similarities outperforms the similarity on their concatenation. Our experiments are conducted on 6 embedding tasks with 20 datasets from the Massive Text Embedding Benchmark (MTEB). The results demonstrate the significant improvement brought by MoEE to LLM-based embedding without further finetuning.

arxiv情報

著者 Ziyue Li,Tianyi Zhou
発行日 2024-10-14 17:59:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free はコメントを受け付けていません