1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs

要約

BitNet や BitNet b1.58 などの 1 ビットラージ言語モデル (LLM) の最近の進歩は、速度とエネルギー消費の点で LLM の効率を向上させる有望なアプローチを示しています。
これらの開発により、広範囲のデバイスにわたるローカル LLM 展開も可能になります。
この作業では、1 ビット LLM の可能性を最大限に引き出すように設計されたカスタマイズされたソフトウェア スタックである bitnet.cpp を紹介します。
具体的には、CPU 上の 3 値 BitNet b1.58 LLM の高速かつロスレス推論をサポートするカーネルのセットを開発します。
広範な実験により、bitnet.cpp はさまざまなモデル サイズにわたって、x86 CPU では 2.37 倍から 6.17 倍、ARM CPU では 1.37 倍から 5.07 倍の大幅な高速化が達成されることが実証されています。
コードは https://github.com/microsoft/BitNet で入手できます。

要約(オリジナル)

Recent advances in 1-bit Large Language Models (LLMs), such as BitNet and BitNet b1.58, present a promising approach to enhancing the efficiency of LLMs in terms of speed and energy consumption. These developments also enable local LLM deployment across a broad range of devices. In this work, we introduce bitnet.cpp, a tailored software stack designed to unlock the full potential of 1-bit LLMs. Specifically, we develop a set of kernels to support fast and lossless inference of ternary BitNet b1.58 LLMs on CPUs. Extensive experiments demonstrate that bitnet.cpp achieves significant speedups, ranging from 2.37x to 6.17x on x86 CPUs and from 1.37x to 5.07x on ARM CPUs, across various model sizes. The code is available at https://github.com/microsoft/BitNet.

arxiv情報

著者 Jinheng Wang,Hansong Zhou,Ting Song,Shaoguang Mao,Shuming Ma,Hongyu Wang,Yan Xia,Furu Wei
発行日 2024-10-21 16:14:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | 1-bit AI Infra: Part 1.1, Fast and Lossless BitNet b1.58 Inference on CPUs はコメントを受け付けていません

A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns

要約

大規模な言語モデルの開発により、さまざまな分野でエージェントとして広く使用されています。
エージェントの重要なコンポーネントはメモリです。メモリには重要な情報が保存されますが、ジェイルブレイク攻撃を受けやすいです。
既存の研究は主にシングルエージェント攻撃と共有メモリ攻撃に焦点を当てています。
ただし、現実世界のシナリオでは、多くの場合、独立したメモリが必要になります。
このペーパーでは、大規模なマルチエージェント、マルチトポロジのテキストベースの攻撃評価フレームワークである Troublemaker Makes Chaos in Honest Town (TMCHT) タスクを提案します。
TMCHT には、エージェント社会全体を誤解させようとする 1 人の攻撃者エージェントが関与します。
マルチエージェント攻撃における 2 つの主要な課題を特定します。(1) 不完全なグラフ構造、(2) 大規模システム。
これらの課題は、毒性の消失と呼ばれる現象によるものであると考えられます。
これらの問題に対処するために、我々は、有害なサンプルをより容易に取得できるように取得サフィックスを最適化し、汚染されたサンプルに伝染性を持たせるためにレプリケーションサフィックスを最適化する、Adversarial Replication Contagious Jailbreak (ARCJ) 手法を提案します。
TMCHT におけるアプローチの優位性を実証し、ライン トポロジ、スター トポロジ、および 100 エージェント設定で 23.51%、18.95%、および 52.93% の改善が見られました。
マルチエージェント システムのセキュリティに対するコミュニティの注目を奨励します。

要約(オリジナル)

With the development of large language models, they are widely used as agents in various fields. A key component of agents is memory, which stores vital information but is susceptible to jailbreak attacks. Existing research mainly focuses on single-agent attacks and shared memory attacks. However, real-world scenarios often involve independent memory. In this paper, we propose the Troublemaker Makes Chaos in Honest Town (TMCHT) task, a large-scale, multi-agent, multi-topology text-based attack evaluation framework. TMCHT involves one attacker agent attempting to mislead an entire society of agents. We identify two major challenges in multi-agent attacks: (1) Non-complete graph structure, (2) Large-scale systems. We attribute these challenges to a phenomenon we term toxicity disappearing. To address these issues, we propose an Adversarial Replication Contagious Jailbreak (ARCJ) method, which optimizes the retrieval suffix to make poisoned samples more easily retrieved and optimizes the replication suffix to make poisoned samples have contagious ability. We demonstrate the superiority of our approach in TMCHT, with 23.51%, 18.95%, and 52.93% improvements in line topology, star topology, and 100-agent settings. Encourage community attention to the security of multi-agent systems.

arxiv情報

著者 Tianyi Men,Pengfei Cao,Zhuoran Jin,Yubo Chen,Kang Liu,Jun Zhao
発行日 2024-10-21 16:21:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Troublemaker with Contagious Jailbreak Makes Chaos in Honest Towns はコメントを受け付けていません

Limpeh ga li gong: Challenges in Singlish Annotations

要約

シングリッシュ、または口語的なシンガポール英語は、多文化シンガポールにおける口頭および社会的コミュニケーションから形成された言語です。
この作業では、基本的な自然言語処理 (NLP) タスクであるシングリッシュ文の品詞 (POS) タグ付けに取り組みます。
分析のために、英語の直接翻訳と POS タグを含む並列シン​​グリッシュ データセットを構築し、翻訳と POS アノテーションはシングリッシュのネイティブ スピーカーによって行われます。
私たちの実験では、自動トランジションおよびトランスフォーマーベースのタガーは、人間が注釈を付けた POS ラベルに対して評価した場合、 $\sim 80\%$ の精度しか機能しないことが示されており、この言語の計算分析には実際に改善の余地があることが示唆されています。
私たちは、シングリッシュ アノテーションの課題、つまり形式と意味論における矛盾、言語の文脈に大きく依存する粒子、構造的で独特な表現、さまざまな媒体での言語のバリエーションについて説明します。
私たちのタスク定義、結果として得られるラベル、および結果は、さまざまな方言から定式化された口語言語を分析する際の課題を反映しており、POS タグ付けを超えた将来の研究への道を開きます。

要約(オリジナル)

Singlish, or Colloquial Singapore English, is a language formed from oral and social communication within multicultural Singapore. In this work, we work on a fundamental Natural Language Processing (NLP) task: Parts-Of-Speech (POS) tagging of Singlish sentences. For our analysis, we build a parallel Singlish dataset containing direct English translations and POS tags, with translation and POS annotation done by native Singlish speakers. Our experiments show that automatic transition- and transformer- based taggers perform with only $\sim 80\%$ accuracy when evaluated against human-annotated POS labels, suggesting that there is indeed room for improvement on computation analysis of the language. We provide an exposition of challenges in Singlish annotation: its inconsistencies in form and semantics, the highly context-dependent particles of the language, its structural unique expressions, and the variation of the language on different mediums. Our task definition, resultant labels and results reflects the challenges in analysing colloquial languages formulated from a variety of dialects, and paves the way for future studies beyond POS tagging.

arxiv情報

著者 Lynnette Hui Xian Ng,Luo Qi Chan
発行日 2024-10-21 16:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Limpeh ga li gong: Challenges in Singlish Annotations はコメントを受け付けていません

A Survey on Knowledge Distillation of Large Language Models

要約

大規模言語モデル (LLM) の時代には、知識蒸留 (KD) が、GPT-4 などの主要な独自の LLM から、LLaMA や Mistral などのオープンソースの対応物に高度な機能を転送するための極めて重要な方法論として浮上します。
さらに、オープンソース LLM が繁栄するにつれて、KD はこれらのモデルを圧縮することと、教師として雇用することで自己改善を促進することの両方において重要な役割を果たします。
この論文は、LLM の領域内での KD の役割の包括的な調査を示し、より小さなモデルに高度な知識を与える際のその重要な機能と、モデルの圧縮と自己改善におけるその有用性を強調します。
私たちの調査は、\textit{アルゴリズム}、\textit{スキル}、\textit{垂直化}という 3 つの基礎的な柱を中心に細心の注意を払って構成されており、KD メカニズム、特定の認知能力の強化、およびそれらの全体的な実践的な影響についての包括的な調査を提供します。
多様な分野。
重要なのは、この調査がデータ拡張 (DA) と KD の間の複雑な相互作用をナビゲートし、LLM のパフォーマンスを強化するための KD フレームワーク内で DA がどのように強力なパラダイムとして浮上するかを示していることです。
DA を活用してコンテキスト豊富なスキル固有のトレーニング データを生成することで、KD は従来の境界を超え、オープンソース モデルが独自のモデルに特徴的なコンテキストの熟練度、倫理的整合性、および深い意味論的洞察を近似できるようにします。
この研究は、KD における現在の方法論の詳細な概要を提供し、将来の研究の方向性を提案する、研究者と実践者に洞察力に富んだガイドを提供することを目的としています。
重要なのは、LLM の使用を規制する法的条件の遵守を強く主張し、LLM の KD の倫理的かつ合法的な適用を確保することです。
関連する Github リポジトリは、https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs で入手できます。

要約(オリジナル)

In the era of Large Language Models (LLMs), Knowledge Distillation (KD) emerges as a pivotal methodology for transferring advanced capabilities from leading proprietary LLMs, such as GPT-4, to their open-source counterparts like LLaMA and Mistral. Additionally, as open-source LLMs flourish, KD plays a crucial role in both compressing these models, and facilitating their self-improvement by employing themselves as teachers. This paper presents a comprehensive survey of KD’s role within the realm of LLM, highlighting its critical function in imparting advanced knowledge to smaller models and its utility in model compression and self-improvement. Our survey is meticulously structured around three foundational pillars: \textit{algorithm}, \textit{skill}, and \textit{verticalization} — providing a comprehensive examination of KD mechanisms, the enhancement of specific cognitive abilities, and their practical implications across diverse fields. Crucially, the survey navigates the intricate interplay between data augmentation (DA) and KD, illustrating how DA emerges as a powerful paradigm within the KD framework to bolster LLMs’ performance. By leveraging DA to generate context-rich, skill-specific training data, KD transcends traditional boundaries, enabling open-source models to approximate the contextual adeptness, ethical alignment, and deep semantic insights characteristic of their proprietary counterparts. This work aims to provide an insightful guide for researchers and practitioners, offering a detailed overview of current methodologies in KD and proposing future research directions. Importantly, we firmly advocate for compliance with the legal terms that regulate the use of LLMs, ensuring ethical and lawful application of KD of LLMs. An associated Github repository is available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.

arxiv情報

著者 Xiaohan Xu,Ming Li,Chongyang Tao,Tao Shen,Reynold Cheng,Jinyang Li,Can Xu,Dacheng Tao,Tianyi Zhou
発行日 2024-10-21 16:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Survey on Knowledge Distillation of Large Language Models はコメントを受け付けていません

From Tokens to Materials: Leveraging Language Models for Scientific Discovery

要約

物質科学における言語モデルの予測機能の探求は、継続的な関心の対象となっています。
この研究では、材料科学における材料特性予測を強化するための言語モデル埋め込みの適用を調査します。
さまざまなコンテキスト埋め込み手法と、トランスフォーマーからの双方向エンコーダー表現 (BERT) や生成事前トレーニング済みトランスフォーマー (GPT) を含む事前トレーニング済みモデルを評価することにより、ドメイン固有のモデル、特に MatBERT が暗黙的な抽出において汎用モデルよりも大幅に優れていることを実証します。
化合物名と材料特性からの知識。
私たちの調査結果は、MatBERT の 3 番目の層からの情報密度の高い埋め込みと、コンテキスト平均化アプローチを組み合わせることで、科学文献から材料と特性の関係を取得する最も効果的な方法を提供することを明らかにしました。
また、重要な「トークナイザー効果」も特定し、一貫したトークン数を維持しながら完全な複合名を保存する特殊なテキスト処理技術の重要性を強調しています。
これらの洞察は、材料科学アプリケーションにおけるドメイン固有のトレーニングとトークン化の価値を強調し、AI 主導のアプローチを通じて新材料の発見と開発を加速するための有望な道筋を提供します。

要約(オリジナル)

Exploring the predictive capabilities of language models in material science is an ongoing interest. This study investigates the application of language model embeddings to enhance material property prediction in materials science. By evaluating various contextual embedding methods and pre-trained models, including Bidirectional Encoder Representations from Transformers (BERT) and Generative Pre-trained Transformers (GPT), we demonstrate that domain-specific models, particularly MatBERT significantly outperform general-purpose models in extracting implicit knowledge from compound names and material properties. Our findings reveal that information-dense embeddings from the third layer of MatBERT, combined with a context-averaging approach, offer the most effective method for capturing material-property relationships from the scientific literature. We also identify a crucial ‘tokenizer effect,’ highlighting the importance of specialized text processing techniques that preserve complete compound names while maintaining consistent token counts. These insights underscore the value of domain-specific training and tokenization in materials science applications and offer a promising pathway for accelerating the discovery and development of new materials through AI-driven approaches.

arxiv情報

著者 Yuwei Wan,Tong Xie,Nan Wu,Wenjie Zhang,Chunyu Kit,Bram Hoex
発行日 2024-10-21 16:31:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB | From Tokens to Materials: Leveraging Language Models for Scientific Discovery はコメントを受け付けていません

Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models

要約

大規模言語モデル (LLM) は、多数の NLP タスクにおいて優れた機能を発揮します。
ただし、英語以外の言語に対するこのようなモデルの有効性は限定されることがよくあります。
これまでの研究では、BERT や XLM-RoBERTa などのエンコーダ専用モデルが、その機能を英語から他の言語に言語間で見事に移行できることが示されています。
この研究では、デコーダのみの LLM で同様の言語間伝達を実現するために能動的忘却を使用する事前トレーニング戦略を提案します。
私たちは、能動的忘却で事前訓練された LLM が、新しい未知の言語に適応する際に非常に効果的であることを示します。
広範な実験を通じて、能動的忘却で事前トレーニングされた LLM は、より優れた多言語表現を学習でき、それが多くの下流タスクのパフォーマンス向上につながることがわかりました。

要約(オリジナル)

Large Language Models (LLMs) demonstrate exceptional capabilities in a multitude of NLP tasks. However, the efficacy of such models to languages other than English is often limited. Prior works have shown that encoder-only models such as BERT or XLM-RoBERTa show impressive cross lingual transfer of their capabilities from English to other languages. In this work, we propose a pretraining strategy that uses active forgetting to achieve similar cross lingual transfer in decoder-only LLMs. We show that LLMs pretrained with active forgetting are highly effective when adapting to new and unseen languages. Through extensive experimentation, we find that LLMs pretrained with active forgetting are able to learn better multilingual representations which translates to better performance in many downstream tasks.

arxiv情報

著者 Divyanshu Aggarwal,Ashutosh Sathe,Sunayana Sitaram
発行日 2024-10-21 16:33:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models はコメントを受け付けていません

The First VoicePrivacy Attacker Challenge Evaluation Plan

要約

First VoicePrivacy Attacker Challenge は、VoicePrivacy イニシアチブの一部として組織され、SP Grand Challenge として ICASSP 2025 によってサポートされている新しい種類のチャレンジです。これは、音声匿名化に対する攻撃者システムの開発に焦点を当てており、提出された一連の匿名化システムに対して評価されます。
VoicePrivacy 2024 チャレンジ。
トレーニング、開発、評価のデータセットは、ベースラインの攻撃者システムとともに提供されます。
参加者は、自動話者認証システムの形で攻撃者システムを開発し、開発および評価データのスコアを主催者に提出する必要があります。
そのために、指定された期限までに公開され、宣言されている場合に限り、追加のトレーニング データとモデルを使用できます。
評価の指標は等誤り率 (EER) です。
結果は ICASSP 2025 特別セッションで発表され、選ばれた上位 5 名の参加者がチャレンジ システムの提出とプレゼンテーションを行うよう招待されます。

要約(オリジナル)

The First VoicePrivacy Attacker Challenge is a new kind of challenge organized as part of the VoicePrivacy initiative and supported by ICASSP 2025 as the SP Grand Challenge It focuses on developing attacker systems against voice anonymization, which will be evaluated against a set of anonymization systems submitted to the VoicePrivacy 2024 Challenge. Training, development, and evaluation datasets are provided along with a baseline attacker system. Participants shall develop their attacker systems in the form of automatic speaker verification systems and submit their scores on the development and evaluation data to the organizers. To do so, they can use any additional training data and models, provided that they are openly available and declared before the specified deadline. The metric for evaluation is equal error rate (EER). Results will be presented at the ICASSP 2025 special session to which 5 selected top-ranked participants will be invited to submit and present their challenge systems.

arxiv情報

著者 Natalia Tomashenko,Xiaoxiao Miao,Emmanuel Vincent,Junichi Yamagishi
発行日 2024-10-21 16:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, eess.AS | The First VoicePrivacy Attacker Challenge Evaluation Plan はコメントを受け付けていません

MagicPIG: LSH Sampling for Efficient LLM Generation

要約

長いコンテキスト ウィンドウを持つ大規模言語モデル (LLM) が大きな注目を集めています。
ただし、再計算を避けるために保存される KV キャッシュがボトルネックになります。
注意がまばらであるという共通の洞察を活用するために、さまざまな動的スパースまたは TopK ベースの注意近似方法が提案されています。
この論文では、最初に、TopK のアテンション自体が、アテンションが常に期待ほどまばらであるとは限らないため、特定の下流タスクにおいて品質低下の影響を受けることを示します。
最も高い注意スコアを持つキーと値を選択するのではなく、理論的な保証を備えたサンプリングにより、注意出力のより適切な推定が提供されます。
LLM 生成においてサンプリングベースの近似を実用化するために、局所性敏感ハッシュ (LSH) に基づくヘテロジニアス システムである MagicPIG を提案します。
MagicPIG は、さまざまなタスクに対して高精度を維持しながら、アテンション計算の作業負荷を大幅に軽減します。
MagicPIG は LSH ハッシュ テーブルを保存し、CPU 上でアテンション計算を実行します。これにより、より長いコンテキストとより大きなバッチ サイズを高い近似精度で処理できます。
MagicPIG は、さまざまな GPU ハードウェア全体でデコード スループットを $1.9\sim3.9\times$ 向上させ、96,000 トークンのコンテキストを持つ Llama-3.1-8B-Instruct モデルの単一 RTX 4090 で 110 ミリ秒のデコード レイテンシを達成できます。
コードは \url{https://github.com/Infini-AI-Lab/MagicPIG} で入手できます。

要約(オリジナル)

Large language models (LLMs) with long context windows have gained significant attention. However, the KV cache, stored to avoid re-computation, becomes a bottleneck. Various dynamic sparse or TopK-based attention approximation methods have been proposed to leverage the common insight that attention is sparse. In this paper, we first show that TopK attention itself suffers from quality degradation in certain downstream tasks because attention is not always as sparse as expected. Rather than selecting the keys and values with the highest attention scores, sampling with theoretical guarantees can provide a better estimation for attention output. To make the sampling-based approximation practical in LLM generation, we propose MagicPIG, a heterogeneous system based on Locality Sensitive Hashing (LSH). MagicPIG significantly reduces the workload of attention computation while preserving high accuracy for diverse tasks. MagicPIG stores the LSH hash tables and runs the attention computation on the CPU, which allows it to serve longer contexts and larger batch sizes with high approximation accuracy. MagicPIG can improve decoding throughput by $1.9\sim3.9\times$ across various GPU hardware and achieve 110ms decoding latency on a single RTX 4090 for Llama-3.1-8B-Instruct model with a context of 96k tokens. The code is available at \url{https://github.com/Infini-AI-Lab/MagicPIG}.

arxiv情報

著者 Zhuoming Chen,Ranajoy Sadhukhan,Zihao Ye,Yang Zhou,Jianyu Zhang,Niklas Nolte,Yuandong Tian,Matthijs Douze,Leon Bottou,Zhihao Jia,Beidi Chen
発行日 2024-10-21 16:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MagicPIG: LSH Sampling for Efficient LLM Generation はコメントを受け付けていません

RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style

要約

報酬モデルは、ヒューマン フィードバックからの強化学習 (RLHF) や推論スケーリング則などの手法において重要であり、言語モデルの調整をガイドし、最適な応答を選択します。
重要性にもかかわらず、既存の報酬モデル ベンチマークでは、さまざまな検出力のモデルによって生成された応答を区別するように求めてモデルを評価することがよくあります。
ただし、このアプローチでは、微妙だが重要なコンテンツの変更やスタイルの変化に関する報酬モデルを評価できず、その結果、ポリシー モデルのパフォーマンスとの相関が低くなります。
この目的を達成するために、コンテンツの微妙な違いに対する感度とスタイルのバイアスに対する耐性に基づいて報酬モデルを評価するように設計された新しいベンチマークである RM-Bench を紹介します。
広範な実験により、RM-Bench がポリシー モデルのパフォーマンスと強い相関関係があることが実証されており、言語モデルを効果的に調整するための報酬モデルを選択するための信頼できるリファレンスとなります。
RM-Bench では 40 近くの報酬モデルを評価しています。
私たちの結果では、最先端のモデルでも平均パフォーマンスはわずか 46.6% しか達成できず、スタイル バイアスの干渉に直面した場合、ランダム レベルの精度 (50%) に届かないことが明らかになりました。
これらの調査結果は、現在の報酬モデルに大きな改善の余地があることを浮き彫りにしています。
関連するコードとデータは https://github.com/THU-KEG/RM-Bench で入手できます。

要約(オリジナル)

Reward models are critical in techniques like Reinforcement Learning from Human Feedback (RLHF) and Inference Scaling Laws, where they guide language model alignment and select optimal responses. Despite their importance, existing reward model benchmarks often evaluate models by asking them to distinguish between responses generated by models of varying power. However, this approach fails to assess reward models on subtle but critical content changes and variations in style, resulting in a low correlation with policy model performance. To this end, we introduce RM-Bench, a novel benchmark designed to evaluate reward models based on their sensitivity to subtle content differences and resistance to style biases. Extensive experiments demonstrate that RM-Bench strongly correlates with policy model performance, making it a reliable reference for selecting reward models to align language models effectively. We evaluate nearly 40 reward models on RM-Bench. Our results reveal that even state-of-the-art models achieve an average performance of only 46.6%, which falls short of random-level accuracy (50%) when faced with style bias interference. These findings highlight the significant room for improvement in current reward models. Related code and data are available at https://github.com/THU-KEG/RM-Bench.

arxiv情報

著者 Yantao Liu,Zijun Yao,Rui Min,Yixin Cao,Lei Hou,Juanzi Li
発行日 2024-10-21 16:48:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style はコメントを受け付けていません

Contamination Report for Multilingual Benchmarks

要約

ベンチマークの汚染とは、大規模言語モデル (LLM) のトレーニング前またはトレーニング後のデータにテスト データセットが存在することを指します。
汚染によりベンチマークのスコアが膨らみ、評価結果が損なわれ、モデルの機能を判断することが困難になる可能性があります。
この研究では、複数の言語をサポートする LLM における一般的な多言語ベンチマークの汚染を研究します。
私たちはブラック ボックス テストを使用して、頻繁に使用される $7$ の多言語ベンチマークが $7$ の一般的なオープン LLM とクローズド LLM に汚染されているかどうかを判断し、ほぼすべてのモデルが、テストしたほぼすべてのベンチマークで汚染されている兆候を示していることを発見しました。
私たちの調査結果は、コミュニティが多言語評価に使用する最適なベンチマーク セットを決定するのに役立ちます。

要約(オリジナル)

Benchmark contamination refers to the presence of test datasets in Large Language Model (LLM) pre-training or post-training data. Contamination can lead to inflated scores on benchmarks, compromising evaluation results and making it difficult to determine the capabilities of models. In this work, we study the contamination of popular multilingual benchmarks in LLMs that support multiple languages. We use the Black Box test to determine whether $7$ frequently used multilingual benchmarks are contaminated in $7$ popular open and closed LLMs and find that almost all models show signs of being contaminated with almost all the benchmarks we test. Our findings can help the community determine the best set of benchmarks to use for multilingual evaluation.

arxiv情報

著者 Sanchit Ahuja,Varun Gumma,Sunayana Sitaram
発行日 2024-10-21 16:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Contamination Report for Multilingual Benchmarks はコメントを受け付けていません