HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly

要約

長いコンテキスト言語モデル(LCLMS)を評価するために多くのベンチマークが存在しますが、開発者はしばしば、ヘイスタック(NIAH)やタスクの任意のサブセットなどの合成タスクに依存しています。
ただし、これらのベンチマークがLCLMの多様なダウンストリームアプリケーションを反映しているかどうかは不明のままであり、そのような矛盾によりモデルの比較がさらに複雑になります。
これらのプラクティスの背後にある根本的な理由を調査し、アプリケーションのカバレッジが限られているため、コンテキストの長さが不十分、信頼性の低いメトリック、およびベースモデルとの互換性があるため、既存のベンチマークが騒々しい信号を提供することが多いことを発見しました。
この作業では、7つの多様なアプリケーション中心のカテゴリを含む包括的なベンチマークであるヘルメット(長いコンテキストモデルを効果的かつ徹底的に評価する方法)を紹介します。
また、最大128Kトークンまでの制御可能な長さを追加し、信頼できるメトリックのモデルベースの評価、およびベースモデルを強く評価するための少数のショットプロンプトを追加することにより、以前のベンチマークでいくつかの問題に対処します。
その結果、ヘルメットがフロンティアLCLMのより信頼性が高く一貫したランキングを提供することを実証します。
59のLCLMの包括的な研究を通じて、(1)Niahのような合成タスクは、下流のパフォーマンスを確実に予測していないことがわかります。
(2)ヘルメットの多様なカテゴリは、互いに明確な傾向と低い相関関係を示します。
(3)ほとんどのLCLMは完全なNiahスコアを達成しますが、タスクが完全なコンテキスト推論または複雑な指示に従う必要がある場合、オープンソースモデルは閉じたモデルに大幅に遅れています。
最後に、ラグタスクを使用して高速モデル開発を使用することをお勧めします。それらは簡単に実行できるため、他のダウンストリームパフォーマンスをよりよく予測することができます。
最終的に、私たちは多様なタスク全体の全体的な評価を提唱します。

要約(オリジナル)

Many benchmarks exist for evaluating long-context language models (LCLMs), yet developers often rely on synthetic tasks such as needle-in-a-haystack (NIAH) or an arbitrary subset of tasks. However, it remains unclear whether these benchmarks reflect the diverse downstream applications of LCLMs, and such inconsistencies further complicate model comparison. We investigate the underlying reasons behind these practices and find that existing benchmarks often provide noisy signals due to limited coverage of applications, insufficient context lengths, unreliable metrics, and incompatibility with base models. In this work, we introduce HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address several issues in previous benchmarks by adding controllable lengths up to 128K tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 59 LCLMs, we find that (1) synthetic tasks like NIAH do not reliably predict downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlations with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when tasks require full-context reasoning or following complex instructions — the gap widens as length increases. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and better predict other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.

arxiv情報

著者 Howard Yen,Tianyu Gao,Minmin Hou,Ke Ding,Daniel Fleischer,Peter Izsak,Moshe Wasserblat,Danqi Chen
発行日 2025-03-06 18:41:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly はコメントを受け付けていません

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

要約

Reasoning Languageモデルは、「Thinking long」、つまり、より長い考え方のシーケンスを生成し、したがってより多くのコンピューティングを使用することにより、テスト時にパフォーマンスを改善する不気味な能力を示しています。
ただし、考え方の連鎖推論の長さは制御できないため、テスト時間計算を割り当てることは不可能であり、望ましいレベルのパフォーマンスを実現します。
長さ制御されたポリシー最適化(LCPO)を導入します。これは、ユーザー指定の長さの制約の精度と順守を最適化する簡単な強化学習方法です。
LCPOを使用して、プロンプトに与えられた長さの制約を満たす出力を生成する推論言語モデルであるL1をトレーニングします。
L1の長さ制御により、幅広いタスクで計算コストと精度をスムーズに取引することができ、長さコントロールの最先端のS1メソッドを上回ります。
さらに、LCPOで訓練されたモデルで、予想外の短い考え方の能力を明らかにします。
たとえば、1.5B L1モデルは、等しい推論長でGPT-4Oを上回ります。
全体として、LCPOは推論長を正確に制御できるようにし、テスト時間の計算と精度の微調整された割り当てを可能にします。
https://www.cmu-l3.github.io/l1でコードとモデルをリリースします

要約(オリジナル)

Reasoning language models have shown an uncanny ability to improve performance at test-time by “thinking longer”-that is, by generating longer chain-of-thought sequences and hence using more compute. However, the length of their chain-of-thought reasoning is not controllable, making it impossible to allocate test-time compute to achieve a desired level of performance. We introduce Length Controlled Policy Optimization (LCPO), a simple reinforcement learning method that optimizes for accuracy and adherence to user-specified length constraints. We use LCPO to train L1, a reasoning language model that produces outputs satisfying a length constraint given in its prompt. L1’s length control allows for smoothly trading off computational cost and accuracy on a wide range of tasks, and outperforms the state-of-the-art S1 method for length control. Furthermore, we uncover an unexpected short chain-of-thought capability in models trained with LCPO. For instance, our 1.5B L1 model surpasses GPT-4o at equal reasoning lengths. Overall, LCPO enables precise control over reasoning length, allowing for fine-grained allocation of test-time compute and accuracy. We release code and models at https://www.cmu-l3.github.io/l1

arxiv情報

著者 Pranjal Aggarwal,Sean Welleck
発行日 2025-03-06 18:43:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning はコメントを受け付けていません

Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing

要約

このペーパーでは、データセットの法的リスクは、ライセンス条件だけでは正確に評価できないと主張しています。
代わりに、データセットの再分配とその完全なライフサイクルの追跡が不可欠です。
ただし、このプロセスは、法律専門家が大規模に手動で処理するには複雑すぎます。
データセットの起源の追跡、再分配権の検証、および複数の段階で進化する法的リスクの評価には、人間の能力を超えるレベルの精度と効率が必要です。
この課題に対処するには、データセットの再分配を体系的に追跡し、コンプライアンスを分析し、法的リスクを特定できるAIエージェントが効果的に要求されます。
Nexusと呼ばれる自動データコンプライアンスシステムを開発し、AIがこれらのタスクを人間の専門家よりも高い精度、効率、費用対効果で実行できることを示しています。
このアプローチを使用した17,429のユニークなエンティティと8,072のライセンス条件の当社の大規模な法的分析は、再分配前の元のデータセットとその再配布されたサブセット間の法的権利の矛盾を明らかにし、データライフサイクルに認識されたコンプライアンスの必要性を強調しています。
たとえば、商業的に実行可能な個別のライセンス条件を持つ2,852のデータセットのうち、商業化には法的に許可されているのは605(21%)のみであることがわかります。
この作業は、AIデータガバナンスの新しい基準を設定し、データセットの再分配のライフサイクル全体を体系的に調べて、透明性、法的、責任あるデータセット管理を確保するフレームワークを提唱します。

要約(オリジナル)

This paper argues that a dataset’s legal risk cannot be accurately assessed by its license terms alone; instead, tracking dataset redistribution and its full lifecycle is essential. However, this process is too complex for legal experts to handle manually at scale. Tracking dataset provenance, verifying redistribution rights, and assessing evolving legal risks across multiple stages require a level of precision and efficiency that exceeds human capabilities. Addressing this challenge effectively demands AI agents that can systematically trace dataset redistribution, analyze compliance, and identify legal risks. We develop an automated data compliance system called NEXUS and show that AI can perform these tasks with higher accuracy, efficiency, and cost-effectiveness than human experts. Our massive legal analysis of 17,429 unique entities and 8,072 license terms using this approach reveals the discrepancies in legal rights between the original datasets before redistribution and their redistributed subsets, underscoring the necessity of the data lifecycle-aware compliance. For instance, we find that out of 2,852 datasets with commercially viable individual license terms, only 605 (21%) are legally permissible for commercialization. This work sets a new standard for AI data governance, advocating for a framework that systematically examines the entire lifecycle of dataset redistribution to ensure transparent, legal, and responsible dataset management.

arxiv情報

著者 Jaekyeom Kim,Sungryull Sohn,Gerrard Jeongwon Jo,Jihoon Choi,Kyunghoon Bae,Hwayoung Lee,Yongmin Park,Honglak Lee
発行日 2025-03-06 18:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracing はコメントを受け付けていません

DEFT: Differentiable Branched Discrete Elastic Rods for Modeling Furcated DLOs in Real-Time

要約

自律ワイヤーハーネスアセンブリには、高精度と信頼性で複雑な分岐ケーブルを操作するためにロボットが必要です。
このプロセスを自動化する上での重要な課題は、これらの柔軟な構造と分岐構造が操作中にどのように振る舞うかを予測することです。
正確な予測がなければ、ロボットが組み立て操作を確実に計画または実行することは困難です。
既存の研究により、単一スレッドの変形可能な線形オブジェクト(DLOS)のモデリングが進歩しましたが、これらのアプローチを分岐した変形可能な線形オブジェクト(BDLOS)に拡張することは、基本的な課題を提示します。
BDLOSのジャンクションポイントは、複数のシングルドロモデルを接続するだけでは適切にキャプチャできない複雑な力の相互作用とひずみ伝播パターンを作成します。
これらの課題に対処するために、このペーパーでは、差別化可能な物理学ベースのモデルと学習フレームワークを組み合わせた新しいフレームワークである縁石のDLOSをリアルタイム(DEFT)でモデル化するための微分可能な離散分岐弾性ロッドを提示します。
BDLO操作。
包括的な一連の実世界の実験は、最先端の代替案と比較した精度、計算速度、および一般化可能性の観点からDeftの有効性を示しています。
プロジェクトページ:https://roahmlab.github.io/deft/。

要約(オリジナル)

Autonomous wire harness assembly requires robots to manipulate complex branched cables with high precision and reliability. A key challenge in automating this process is predicting how these flexible and branched structures behave under manipulation. Without accurate predictions, it is difficult for robots to reliably plan or execute assembly operations. While existing research has made progress in modeling single-threaded Deformable Linear Objects (DLOs), extending these approaches to Branched Deformable Linear Objects (BDLOs) presents fundamental challenges. The junction points in BDLOs create complex force interactions and strain propagation patterns that cannot be adequately captured by simply connecting multiple single-DLO models. To address these challenges, this paper presents Differentiable discrete branched Elastic rods for modeling Furcated DLOs in real-Time (DEFT), a novel framework that combines a differentiable physics-based model with a learning framework to: 1) accurately model BDLO dynamics, including dynamic propagation at junction points and grasping in the middle of a BDLO, 2) achieve efficient computation for real-time inference, and 3) enable planning to demonstrate dexterous BDLO manipulation. A comprehensive series of real-world experiments demonstrates DEFT’s efficacy in terms of accuracy, computational speed, and generalizability compared to state-of-the-art alternatives. Project page:https://roahmlab.github.io/DEFT/.

arxiv情報

著者 Yizhou Chen,Xiaoyue Wu,Yeheng Zong,Anran Li,Yuzhen Chen,Julie Wu,Bohao Zhang,Ram Vasudevan
発行日 2025-03-06 18:50:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.GR, cs.RO | DEFT: Differentiable Branched Discrete Elastic Rods for Modeling Furcated DLOs in Real-Time はコメントを受け付けていません

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

要約

エントロピー加重量子化(EWQ)を使用して、大規模な言語モデル(LLMS)の構造固有およびサイズ依存の圧縮法の制限を超越する選択モデル量子化に対する新しいアプローチを提示します。
変圧器ブロック全体のエントロピー分布を分析することにより、EWQは、モデルアーキテクチャやサイズとは無関係に、かなりの性能劣化を引き起こすことなく安全に量子化できるブロックを決定します。
私たちの方法は、均一な量子化アプローチよりも優れており、重要なモデルの0.5%内で大規模なマルチタスク言語理解(MMLU)精度スコアを維持しながら、メモリの使用量を最大18%削減します。
1.6Bから70Bの複数のアーキテクチャにわたるEWQの有効性を実証します。モデルスケールやアーキテクチャの設計に関係なく、品質コンプレッションのトレードオフの一貫した改善を示すパラメーターを除きます。
EWQの驚くべき発見は、未定量のモデルと比較して困惑を軽減する能力であり、選択的精密削減による有益な正則化の存在を示唆しています。
この改善は、さまざまなモデルファミリ全体でもたらされ、レイヤーレベルのエントロピーと最適な精度要件との根本的な関係を示しています。
さらに、モデルの重みをロードする必要性を排除するエントロピー分布分析の迅速な方法であるFasteWQを紹介します。
この手法は、さまざまなアーキテクチャやスケール全体にわたって持続するエントロピー分布の普遍的な特性を活用し、完全なエントロピー分析で80%の分類精度を維持しながら、吸気型の量子化決定を可能にします。
我々の結果は、効果的な量子化戦略を特定の建築の選択またはモデルサイズとは無関係に開発し、効率的なLLM展開の新しい可能性を開始できることを示しています。

要約(オリジナル)

We present a novel approach to selective model quantization that transcends the limitations of architecture-specific and size-dependent compression methods for Large Language Models (LLMs) using Entropy-Weighted Quantization (EWQ). By analyzing the entropy distribution across transformer blocks, EWQ determines which blocks can be safely quantized without causing significant performance degradation, independent of model architecture or size. Our method outperforms uniform quantization approaches, maintaining Massive Multitask Language Understanding (MMLU) accuracy scores within 0.5% of unquantized models while reducing memory usage by up to 18%. We demonstrate the effectiveness of EWQ across multiple architectures-from 1.6B to 70B parameters-showcasing consistent improvements in the quality-compression trade-off regardless of model scale or architectural design. A surprising finding of EWQ is its ability to reduce perplexity compared to unquantized models, suggesting the presence of beneficial regularization through selective precision reduction. This improvement holds across different model families, indicating a fundamental relationship between layer-level entropy and optimal precision requirements. Additionally, we introduce FastEWQ, a rapid method for entropy distribution analysis that eliminates the need for loading model weights. This technique leverages universal characteristics of entropy distribution that persist across various architectures and scales, enabling near-instantaneous quantization decisions while maintaining 80% classification accuracy with full entropy analysis. Our results demonstrate that effective quantization strategies can be developed independently of specific architectural choices or model sizes, opening new possibilities for efficient LLM deployment.

arxiv情報

著者 Alireza Behtash,Marijan Fofonjka,Ethan Baird,Tyler Mauer,Hossein Moghimifam,David Stout,Joel Dennison
発行日 2025-03-06 18:54:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size はコメントを受け付けていません

Self-Supervised Models for Phoneme Recognition: Applications in Children’s Speech for Reading Learning

要約

子どもの音声認識は、データの不足(特に英語以外の言語)とこのタスクの具体的な困難により、依然として未発達の研究分野です。
以前の研究で子供の音声認識のためのさまざまなアーキテクチャを探求した後、この記事では、最近の自己監視モデルに取り組んでいます。
最初にWAV2VEC 2.0、フランスの子供の発話の音素認識に適応したHubertおよびWAVLMモデルを比較し、それらの最高のWAVLM Base+を使用して実験を続けます。
次に、子どものスピーチを微調整中に変圧器ブロックを解除することでさらに適応します。これにより、パフォーマンスが大幅に向上し、ベースモデルであるトランス+CTCを大幅に上回ります。
最後に、アプリケーションの実際の条件下でこれら2つのモデルの動作を詳細に検討し、WAVLMベース+がさまざまな読み取りタスクとノイズレベルにより堅牢であることを示します。
インデックスの用語:音声認識、子どもの発話、自己教師の学習

要約(オリジナル)

Child speech recognition is still an underdeveloped area of research due to the lack of data (especially on non-English languages) and the specific difficulties of this task. Having explored various architectures for child speech recognition in previous work, in this article we tackle recent self-supervised models. We first compare wav2vec 2.0, HuBERT and WavLM models adapted to phoneme recognition in French child speech, and continue our experiments with the best of them, WavLM base+. We then further adapt it by unfreezing its transformer blocks during fine-tuning on child speech, which greatly improves its performance and makes it significantly outperform our base model, a Transformer+CTC. Finally, we study in detail the behaviour of these two models under the real conditions of our application, and show that WavLM base+ is more robust to various reading tasks and noise levels. Index Terms: speech recognition, child speech, self-supervised learning

arxiv情報

著者 Lucas Block Medin,Thomas Pellegrini,Lucile Gelin
発行日 2025-03-06 18:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD, eess.AS | Self-Supervised Models for Phoneme Recognition: Applications in Children’s Speech for Reading Learning はコメントを受け付けていません

Scaling Rich Style-Prompted Text-to-Speech Datasets

要約

豊かなスタイルのキャプションでスピーチの発話を注釈する大規模なデータセットであるパラリング語の音声キャプション(ParaspeechCaps)を紹介します。
豊富な抽象タグ(guttural、鼻、痛みなど)は小規模なヒトが発音したデータセットで探索されていますが、既存の大規模なデータセットは基本的なタグのみをカバーしています(例:ローピッチ、スロー、ラウド)。
既製のテキストと音声埋め込み剤、分類子、オーディオ言語モデルを組み合わせて、リッチタグアノテーションを初めて自動的にスケーリングします。
ParaspeechCapsは、スピーカーレベルの内因性タグと発話レベルの状況タグの両方を含む、合計59のスタイルタグをカバーしています。
これは、342時間のヒト標識データ(PSCベース)と2427時間の自動注釈データ(PSCスケール)で構成されています。
ParaspeechCapsで、オープンソーススタイルでプロンプト化されたTTSモデルであるFinetune Parler-TTSは、既存のリッチスタイルタグデータセットを組み合わせた最高のパフォーマンスのベースラインで、スタイルの一貫性(+7.9%の一貫性MO)と音声品質(+15.5%自然性MO)を実現します。
この分野での将来の作業の基礎を築くために、データセット設計の選択肢のいくつかを和らげます。
データセット、モデル、コードはhttps://github.com/ajd12342/paraspeechcapsでリリースされます。

要約(オリジナル)

We introduce Paralinguistic Speech Captions (ParaSpeechCaps), a large-scale dataset that annotates speech utterances with rich style captions. While rich abstract tags (e.g. guttural, nasal, pained) have been explored in small-scale human-annotated datasets, existing large-scale datasets only cover basic tags (e.g. low-pitched, slow, loud). We combine off-the-shelf text and speech embedders, classifiers and an audio language model to automatically scale rich tag annotations for the first time. ParaSpeechCaps covers a total of 59 style tags, including both speaker-level intrinsic tags and utterance-level situational tags. It consists of 342 hours of human-labelled data (PSC-Base) and 2427 hours of automatically annotated data (PSC-Scaled). We finetune Parler-TTS, an open-source style-prompted TTS model, on ParaSpeechCaps, and achieve improved style consistency (+7.9% Consistency MOS) and speech quality (+15.5% Naturalness MOS) over the best performing baseline that combines existing rich style tag datasets. We ablate several of our dataset design choices to lay the foundation for future work in this space. Our dataset, models and code are released at https://github.com/ajd12342/paraspeechcaps .

arxiv情報

著者 Anuj Diwan,Zhisheng Zheng,David Harwath,Eunsol Choi
発行日 2025-03-06 18:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Scaling Rich Style-Prompted Text-to-Speech Datasets はコメントを受け付けていません

How Far Are We on the Decision-Making of LLMs? Evaluating LLMs’ Gaming Ability in Multi-Agent Environments

要約

意思決定は、多様な能力を必要とする複雑なプロセスであり、大規模な言語モデル(LLM)を評価するための優れたフレームワークとなっています。
研究者は、ゲーム理論のレンズを通してLLMSの意思決定を調査しました。
ただし、既存の評価は、主にLLMが別のプレイヤーと競合する2つのプレイヤーシナリオに焦点を当てています。
さらに、以前のベンチマークは、静的な設計により、テストセットの漏れに悩まされています。
Multi-Agent環境でLLMSのゲーム能力を評価するための新しいフレームワークであるGama($ \ gamma $) – ベンチを紹介します。
8つの古典的なゲーム理論シナリオと、LLMSのパフォーマンスを定量的に評価するために特別に設計された動的なスコアリングスキームが含まれます。
$ \ gamma $ -benchは、柔軟なゲーム設定を可能にし、スコアリングシステムをさまざまなゲームパラメーターに適応させ、堅牢性、一般化可能性、および改善戦略の包括的な評価を可能にします。
我々の結果は、GPT-3.5が強い堅牢性を示しているが、一般化が制限されていることを示しています。
また、GPT-3.5、GPT-4、GEMINI、LLAMA-3.1、MIXTRAL、QWEN-2を含む6つのモデルファミリから13 LMSを評価します。
Gemini-1.5-Proは他の人を上回り、100ドルのうち69.8ドルを獲得し、続いてLlama-3.1-70b($ 65.9 $)およびMixtral-8x22b($ 62.4 $)が続きます。
コードと実験結果は、https://github.com/cuhk-arise/gamabenchで公開されています。

要約(オリジナル)

Decision-making is a complex process requiring diverse abilities, making it an excellent framework for evaluating Large Language Models (LLMs). Researchers have examined LLMs’ decision-making through the lens of Game Theory. However, existing evaluation mainly focus on two-player scenarios where an LLM competes against another. Additionally, previous benchmarks suffer from test set leakage due to their static design. We introduce GAMA($\gamma$)-Bench, a new framework for evaluating LLMs’ Gaming Ability in Multi-Agent environments. It includes eight classical game theory scenarios and a dynamic scoring scheme specially designed to quantitatively assess LLMs’ performance. $\gamma$-Bench allows flexible game settings and adapts the scoring system to different game parameters, enabling comprehensive evaluation of robustness, generalizability, and strategies for improvement. Our results indicate that GPT-3.5 demonstrates strong robustness but limited generalizability, which can be enhanced using methods like Chain-of-Thought. We also evaluate 13 LLMs from 6 model families, including GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, and Qwen-2. Gemini-1.5-Pro outperforms others, scoring of $69.8$ out of $100$, followed by LLaMA-3.1-70B ($65.9$) and Mixtral-8x22B ($62.4$). Our code and experimental results are publicly available at https://github.com/CUHK-ARISE/GAMABench.

arxiv情報

著者 Jen-tse Huang,Eric John Li,Man Ho Lam,Tian Liang,Wenxuan Wang,Youliang Yuan,Wenxiang Jiao,Xing Wang,Zhaopeng Tu,Michael R. Lyu
発行日 2025-03-06 18:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | How Far Are We on the Decision-Making of LLMs? Evaluating LLMs’ Gaming Ability in Multi-Agent Environments はコメントを受け付けていません

Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining

要約

多様なタスクにわたる大規模な言語モデル(LLM)の印象的な機能は現在確立されていますが、それらの効果的な展開には慎重なハイパーパラメーターの最適化が必要です。
多様な構成全体のグリッド検索を含む広範な経験的研究を通じて、これらのハイパーパラメーターを管理するユニバーサルスケーリング法則を発見します。最適な学習レートは、モデルパラメーターとデータサイズの両方とのパワーロー関係に従いますが、最適なバッチサイズは主にデータサイズでスケーリングします。
私たちの分析により、固定モデルとデータサイズの条件下でのハイパーパラメーターの凸状の最適化ランドスケープが明らかになりました。
この凸性は、最適なハイパーパラメータープラトーを意味します。
コミュニティに普遍的でプラグアンドプレイの最適なハイパーパラメーターツールを提供しています。
テストセットの推定値は、徹底的な検索で見つかった世界的に最適なLLMパフォーマンスからわずか0.07 \%です。
これらの法則は、モデルの球位、トレーニングデータ分布、モデルの形状の変動にわたる顕著な堅牢性を示しています。
私たちの最もよく知られている人にとって、これは、混合物モデルや密な変圧器など、さまざまなモデルの形状と構造を統一し、多様なデータ分布全体で最適なハイパーパラメータースケーリング法則を確立する最初の作業です。
この徹底的な最適化プロセスには、約100万個のNVIDIA H800 GPU時間を利用して、3,700 LLMのさまざまなサイズとハイパーパラメーターをゼロから訓練し、合計で約100兆個のトークンを消費するかなりの計算リソースを必要とします。
再現性とさらなる研究を促進するために、指定されたリポジトリhttps://step-law.github.io/を介してすべての損失測定とモデルチェックポイントを徐々にリリースします。

要約(オリジナル)

The impressive capabilities of Large Language Models (LLMs) across diverse tasks are now well-established, yet their effective deployment necessitates careful hyperparameter optimization. Through extensive empirical studies involving grid searches across diverse configurations, we discover universal scaling laws governing these hyperparameters: optimal learning rate follows a power-law relationship with both model parameters and data sizes, while optimal batch size scales primarily with data sizes. Our analysis reveals a convex optimization landscape for hyperparameters under fixed models and data size conditions. This convexity implies an optimal hyperparameter plateau. We contribute a universal, plug-and-play optimal hyperparameter tool for the community. Its estimated values on the test set are merely 0.07\% away from the globally optimal LLM performance found via an exhaustive search. These laws demonstrate remarkable robustness across variations in model sparsity, training data distribution, and model shape. To our best known, this is the first work that unifies different model shapes and structures, such as Mixture-of-Experts models and dense transformers, as well as establishes optimal hyperparameter scaling laws across diverse data distributions. This exhaustive optimization process demands substantial computational resources, utilizing nearly one million NVIDIA H800 GPU hours to train 3,700 LLMs of varying sizes and hyperparameters from scratch and consuming approximately 100 trillion tokens in total. To facilitate reproducibility and further research, we will progressively release all loss measurements and model checkpoints through our designated repository https://step-law.github.io/

arxiv情報

著者 Houyi Li,Wenzheng Zheng,Jingcheng Hu,Qiufeng Wang,Hanshan Zhang,Zili Wang,Yangshijie Xu,Shuigeng Zhou,Xiangyu Zhang,Daxin Jiang
発行日 2025-03-06 18:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, F.2.2 | Predictable Scale: Part I — Optimal Hyperparameter Scaling Law in Large Language Model Pretraining はコメントを受け付けていません

Enough Coin Flips Can Make LLMs Act Bayesian

要約

大規模な言語モデル(LLMS)は、入力プロンプトに与えられた少数のショットの例を一般化する能力を示します。
LLMSがICLを利用して、ベイジアンフレームワークと一致する方法で構造化された推論を実行するか、パターンマッチングに依存しているかどうかを調査します。
偏ったコインフリップの制御された設定を使用して、(1)LLMSには偏りのあるプライアーがしばしば存在し、ゼロショット設定で初期の発散を引き起こすことがわかります。
ベイジアン推論への影響。
ICLを介したバイアスコインフリップの十分なデモンストレーションにより、LLMSはベイジアンの方法でプライアーを更新します。

要約(オリジナル)

Large language models (LLMs) exhibit the ability to generalize given few-shot examples in their input prompt, an emergent capability known as in-context learning (ICL). We investigate whether LLMs utilize ICL to perform structured reasoning in ways that are consistent with a Bayesian framework or rely on pattern matching. Using a controlled setting of biased coin flips, we find that: (1) LLMs often possess biased priors, causing initial divergence in zero-shot settings, (2) in-context evidence outweighs explicit bias instructions, (3) LLMs broadly follow Bayesian posterior updates, with deviations primarily due to miscalibrated priors rather than flawed updates, and (4) attention magnitude has negligible effect on Bayesian inference. With sufficient demonstrations of biased coin flips via ICL, LLMs update their priors in a Bayesian manner.

arxiv情報

著者 Ritwik Gupta,Rodolfo Corona,Jiaxin Ge,Eric Wang,Dan Klein,Trevor Darrell,David M. Chan
発行日 2025-03-06 18:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Enough Coin Flips Can Make LLMs Act Bayesian はコメントを受け付けていません