LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention

要約

大規模な言語モデル(LLM)は、長いシーケンスと複雑な推論タスクの処理において顕著な可能性を示していますが、これらのモデルを効率的に提供することは、プレフィング段階の2次計算の複雑さとデコード段階のKVキャッシュの大きなメモリフットプリントのために依然として困難です。
これらの問題に対処するために、ハイブリッドスパースの注意を払って長いシーケンスLLMを加速する効率的なシステムであるLserveを導入します。
この方法は、さまざまなハードウェアに優しい、構造化されたスパース性パターンを統合して、注意を積み、それほど重要ではないトークンでの計算がブロックでスキップされる単一のフレームワークに注意を整えることができます。
LSERVEは、長いコンテキストLLMの注意における静的および動的なスパースの互換性を示しています。
この設計により、これらの最適化を組み合わせることにより、乗法高速化が可能になります。
具体的には、注目ヘッドの半分を、充填段階とデコード段階の両方で、ほぼフリーストリーミングヘッドに変換します。
さらに、コンテキストの長さに関係なく、長いコンテストと推論機能を保持するためには、一定のKVページのみが必要であることがわかります。
次に、クエリ中心の類似性に基づいてKVページを動的にプルーネする階層KVページ選択ポリシーを設計します。
平均して、LSERVEはLLMの充填を最大2.9倍に加速し、VLLMで1.3-2.1xずつデコードし、長いコンテキストの精度を維持します。
コードはhttps://github.com/mit-han-lab/omniserveでリリースされます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable potential in processing long sequences and complex reasoning tasks, yet efficiently serving these models remains challenging due to the quadratic computational complexity of attention in the prefilling stage and the large memory footprint of the KV cache in the decoding stage. To address these issues, we introduce LServe, an efficient system that accelerates long-sequence LLM serving via hybrid sparse attention. This method unifies different hardware-friendly, structured sparsity patterns for both prefilling and decoding attention into a single framework, where computations on less important tokens are skipped block-wise. LServe demonstrates the compatibility of static and dynamic sparsity in long-context LLM attention. This design enables multiplicative speedups by combining these optimizations. Specifically, we convert half of the attention heads to nearly free streaming heads in both the prefilling and decoding stages. Additionally, we find that only a constant number of KV pages is required to preserve long-context and reasoning capabilities, irrespective of context length. We then design a hierarchical KV page selection policy that dynamically prunes KV pages based on query-centric similarity. On average, LServe accelerates LLM prefilling by up to 2.9x and decoding by 1.3-2.1x over vLLM, maintaining long-context accuracy. Code is released at https://github.com/mit-han-lab/omniserve.

arxiv情報

著者 Shang Yang,Junxian Guo,Haotian Tang,Qinghao Hu,Guangxuan Xiao,Jiaming Tang,Yujun Lin,Zhijian Liu,Yao Lu,Song Han
発行日 2025-04-21 15:13:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG, cs.PF | LServe: Efficient Long-sequence LLM Serving with Unified Sparse Attention はコメントを受け付けていません

Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws

要約

大規模な言語モデル(LLMS)は、多数のタスクにわたって顕著な能力を実証していますが、基礎となるメカニズムと、スケーリング法、幻覚、関連行動など、いくつかの現象についての原則的な説明はとらえどころのないままです。
この作業では、Kolmogorovの複雑さとShannon情報理論に基づいた圧縮と予測の古典的な関係を再訪し、LLM行動に関するより深い洞察を提供します。
コルモゴロフ構造関数を活用し、LLM圧縮を2部構成のコーディングプロセスとして解釈することにより、LLMSが、広範な構文パターンから徐々に希少な知識要素まで、増加するモデルとデータスケール全体で情報を取得および保存する方法を詳細に見ています。
HeapとZIPFの法則に触発されたこの理論的な視点と自然な仮定に動機付けられ、Syntax-Knowledgeモデルと呼ばれる単純化された階層データ生成フレームワークを紹介します。
ベイジアンの設定では、このモデル内の予測と圧縮が自然にLLMの多様な学習とスケーリングの行動につながることを示します。
特に、当社の理論分析は、データとモデルのスケーリング法則、トレーニング中の知識獲得のダイナミクスとLLMSの微調整の事実の幻覚の両方について、直感的かつ原則的な説明を提供します。
実験結果は、理論的予測を検証します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet principled explanations for their underlying mechanisms and several phenomena, such as scaling laws, hallucinations, and related behaviors, remain elusive. In this work, we revisit the classical relationship between compression and prediction, grounded in Kolmogorov complexity and Shannon information theory, to provide deeper insights into LLM behaviors. By leveraging the Kolmogorov Structure Function and interpreting LLM compression as a two-part coding process, we offer a detailed view of how LLMs acquire and store information across increasing model and data scales — from pervasive syntactic patterns to progressively rarer knowledge elements. Motivated by this theoretical perspective and natural assumptions inspired by Heap’s and Zipf’s laws, we introduce a simplified yet representative hierarchical data-generation framework called the Syntax-Knowledge model. Under the Bayesian setting, we show that prediction and compression within this model naturally lead to diverse learning and scaling behaviors of LLMs. In particular, our theoretical analysis offers intuitive and principled explanations for both data and model scaling laws, the dynamics of knowledge acquisition during training and fine-tuning, factual knowledge hallucinations in LLMs. The experimental results validate our theoretical predictions.

arxiv情報

著者 Zhixuan Pan,Shaowen Wang,Jian Li
発行日 2025-04-21 15:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IT, cs.LG, math.IT | Understanding LLM Behaviors via Compression: Data Generation, Knowledge Acquisition and Scaling Laws はコメントを受け付けていません

Inverse Constitutional AI: Compressing Preferences into Principles

要約

フィードバックデータは、最先端のAIモデルの微調整と評価に広く使用されています。
ペアワイズテキストの設定は、人間またはAIアノテーターが2つのオプションの「より良い」を選択する場合、特に一般的です。
このような好みは、モデルをトレーニング(報酬)したり、統計を集約したりしてモデルをランク付けするために使用されます。
多くのアプリケーションでは、アノテーターの好みをモデル化に加えて理解することが望ましいです。特に、広範な事前の作業が優先データセットにさまざまな意図しないバイアスを示しているためです。
しかし、優先データセットは解釈するのが難しいままです。
ブラックボックスの報酬モデルも統計も、あるテキストが別のテキストよりも好まれる理由に答えることはできません。
通常、多数の(長い)応答ペアの手動解釈は、通常も同様に実行不可能です。
このホワイトペーパーでは、逆憲法AI(ICAI)問題を紹介し、ペアワイズテキスト選好データの圧縮タスクとして解釈を定式化します。
憲法AIでは、一連の原則(憲法)がフィードバックを提供し、AIモデルを微調整するために使用されます。
ICAIはこのプロセスを反転させます。フィードバックデータセットを考慮して、大規模な言語モデル(LLM)が元の注釈を再構築できるようにする憲法を抽出することを目指しています。
対応するICAIアルゴリズムを提案し、いくつかのデータセットの注釈再構成の精度に基づいて定量的に生成された構成要素を検証します。(a)既知の原則を持つ合成フィードバックデータ。
(b)アルパカエバルクロスアノテートされたヒトフィードバックデータ。
(c)クラウドソーシングチャットボットアリーナデータ。
(d)多様な人口統計グループからのプリズムデータ。
元のデータセットの短く解釈可能な表現として、生成された憲法には多くの潜在的なユースケースがあります。望ましくないアノテーターバイアスを識別し、モデルのパフォーマンスをよりよく理解し、目に見えないデータに対するフィードバックをスケールする、または個々のユーザーまたはグループの好みに合わせてモデルを適応させます。
https://github.com/rdnfn/icaiでソースコードをリリースします。

要約(オリジナル)

Feedback data is widely used for fine-tuning and evaluating state-of-the-art AI models. Pairwise text preferences, where human or AI annotators select the ‘better’ of two options, are particularly common. Such preferences are used to train (reward) models or to rank models with aggregate statistics. For many applications it is desirable to understand annotator preferences in addition to modelling them – not least because extensive prior work has shown various unintended biases in preference datasets. Yet, preference datasets remain challenging to interpret. Neither black-box reward models nor statistics can answer why one text is preferred over another. Manual interpretation of the numerous (long) response pairs is usually equally infeasible. In this paper, we introduce the Inverse Constitutional AI (ICAI) problem, formulating the interpretation of pairwise text preference data as a compression task. In constitutional AI, a set of principles (a constitution) is used to provide feedback and fine-tune AI models. ICAI inverts this process: given a feedback dataset, we aim to extract a constitution that best enables a large language model (LLM) to reconstruct the original annotations. We propose a corresponding ICAI algorithm and validate its generated constitutions quantitatively based on annotation reconstruction accuracy on several datasets: (a) synthetic feedback data with known principles; (b) AlpacaEval cross-annotated human feedback data; (c) crowdsourced Chatbot Arena data; and (d) PRISM data from diverse demographic groups. As a short and interpretable representation of the original dataset, generated constitutions have many potential use cases: help identify undesirable annotator biases, understand model performance better, scale feedback to unseen data, or adapt models to individual user or group preferences. We release the source code at https://github.com/rdnfn/icai.

arxiv情報

著者 Arduin Findeis,Timo Kaufmann,Eyke Hüllermeier,Samuel Albanie,Robert Mullins
発行日 2025-04-21 15:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Inverse Constitutional AI: Compressing Preferences into Principles はコメントを受け付けていません

Existing Industry Practice for the EU AI Act’s General-Purpose AI Code of Practice Safety and Security Measures

要約

このレポートは、EU AI法の汎用AI(GPAI)実践規範(第3草案)で提案された措置と、大手AI企業が採用した現在の慣行との詳細な比較を提供します。
EUがGPAIモデルプロバイダーの拘束力のある義務の実施に向けて移動すると、実践規範は、具体的な技術的コミットメントで法的要件を埋めるための鍵となります。
私たちの分析は、ドラフトの安全とセキュリティセクションに焦点を当てています。これは、最も先進的なモデル(コミットメントII.1-II.16)のプロバイダーにのみ関連し、個々の測定に関連する現在の公開文書の引用から抜粋しています。
Openai、Anthropic、Google Deepmind、Microsoft、Meta、Amazonなどを含む12を超える企業から、企業のフロンティア安全フレームワークやモデルカードを含むさまざまなドキュメントタイプを体系的にレビューしました。
このレポートは、法的コンプライアンスの兆候であることを意図したものでも、実践規範や企業のポリシーに関する規範的な観点をとることもありません。
代わりに、先例の証拠を浮上させることにより、規制当局とGPAIモデルプロバイダーの間の継続的な対話を知らせることを目指しています。

要約(オリジナル)

This report provides a detailed comparison between the measures proposed in the EU AI Act’s General-Purpose AI (GPAI) Code of Practice (Third Draft) and current practices adopted by leading AI companies. As the EU moves toward enforcing binding obligations for GPAI model providers, the Code of Practice will be key to bridging legal requirements with concrete technical commitments. Our analysis focuses on the draft’s Safety and Security section which is only relevant for the providers of the most advanced models (Commitments II.1-II.16) and excerpts from current public-facing documents quotes that are relevant to each individual measure. We systematically reviewed different document types – including companies’ frontier safety frameworks and model cards – from over a dozen companies, including OpenAI, Anthropic, Google DeepMind, Microsoft, Meta, Amazon, and others. This report is not meant to be an indication of legal compliance nor does it take any prescriptive viewpoint about the Code of Practice or companies’ policies. Instead, it aims to inform the ongoing dialogue between regulators and GPAI model providers by surfacing evidence of precedent.

arxiv情報

著者 Lily Stelling,Mick Yang,Rokas Gipiškis,Leon Staufer,Ze Shen Chin,Siméon Campos,Michael Chen
発行日 2025-04-21 15:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Existing Industry Practice for the EU AI Act’s General-Purpose AI Code of Practice Safety and Security Measures はコメントを受け付けていません

Shifting Attention to You: Personalized Brain-Inspired AI Models

要約

人間と人工知能の統合は、各システムが独自の計算洞察を提供するため、情報処理の理解を進めるための強力な手段を提供します。
ただし、人間とAIの統合の約束にもかかわらず、現在のAIモデルは大規模なデータセットで主に訓練されており、人口レベルのパフォーマンス向けに最適化されており、計算を個々のユーザーの知覚セマンティクスとニューラルダイナミクスに合わせるメカニズムがありません。
ここでは、微調整されたクリップベースのモデル内に人間の行動洞察とミリ秒スケールのニューラルデータを統合することは、知覚の一般化された個別化された側面をキャプチャするだけでなく、未修正のクリップベースラインと比較して2倍以上の行動パフォーマンスをキャプチャすることを示します。
人間の誘導バイアスを埋め込み、トレーニング中に動的な神経プロセスをミラーリングすることにより、個別化された神経細かい調整は、人間の類似性の判断の予測を改善し、個々の神経反応の時間的進化を追跡します。
私たちの研究は、神経科学、個別化医療、および人間コンピューターの相互作用に幅広い意味を持つ、適応型AIシステムを設計するための新しい解釈可能なフレームワークを確立しています。

要約(オリジナル)

The integration of human and artificial intelligence offers a powerful avenue for advancing our understanding of information processing, as each system provides unique computational insights. However, despite the promise of human-AI integration, current AI models are largely trained on massive datasets, optimized for population-level performance, lacking mechanisms to align their computations with individual users’ perceptual semantics and neural dynamics. Here we show that integrating human behavioral insights and millisecond scale neural data within a fine tuned CLIP based model not only captures generalized and individualized aspects of perception but also over doubles behavioral performance compared to the unmodified CLIP baseline. By embedding human inductive biases and mirroring dynamic neural processes during training, personalized neural fine tuning improves predictions of human similarity judgments and tracks the temporal evolution of individual neural responses. Our work establishes a novel, interpretable framework for designing adaptive AI systems, with broad implications for neuroscience, personalized medicine, and human-computer interaction.

arxiv情報

著者 Stephen Chong Zhao,Yang Hu,Jason Lee,Andrew Bender,Trisha Mazumdar,Mark Wallace,David A. Tovar
発行日 2025-04-21 15:57:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, q-bio.NC | Shifting Attention to You: Personalized Brain-Inspired AI Models はコメントを受け付けていません

Synergistic Weak-Strong Collaboration by Aligning Preferences

要約

現在の大規模な言語モデル(LLM)は、一般的な推論で優れていますが、独自またはドメイン固有の知識を必要とする特殊なタスクと格闘しています。
ニッチアプリケーションごとに微調整する大きなモデルは、ブラックボックスの制約と高い計算オーバーヘッドのために、しばしば実行不可能です。
これに対処するために、特殊な弱いモデルと一般的な強力なモデルを組み合わせた共同フレームワークを提案します。
特定のドメインに合わせた弱いモデルは、初期ドラフトと背景情報を生成しますが、強力なモデルはこれらのドラフトを改良するための高度な推論を活用し、LLMSの機能を重要でありながら専門的なタスクに拡張します。
このコラボレーションを最適化するために、弱いモデルを微調整するためのコラボレーションフィードバックを紹介します。これは、コラボレーション手順における弱いモデルの貢献の影響を定量化し、弱いモデルの優先チューニングを導く優先ペアを確立します。
3つのドメインでの実験を通じてフレームワークを検証します。
コラボレーションは、相補的な強さを活用することにより、各モデルのみを大幅に上回ることがわかります。
さらに、弱いモデルを共同設定に合わせると、全体的なパフォーマンスがさらに向上します。

要約(オリジナル)

Current Large Language Models (LLMs) excel in general reasoning yet struggle with specialized tasks requiring proprietary or domain-specific knowledge. Fine-tuning large models for every niche application is often infeasible due to black-box constraints and high computational overhead. To address this, we propose a collaborative framework that pairs a specialized weak model with a general strong model. The weak model, tailored to specific domains, produces initial drafts and background information, while the strong model leverages its advanced reasoning to refine these drafts, extending LLMs’ capabilities to critical yet specialized tasks. To optimize this collaboration, we introduce a collaborative feedback to fine-tunes the weak model, which quantifies the influence of the weak model’s contributions in the collaboration procedure and establishes preference pairs to guide preference tuning of the weak model. We validate our framework through experiments on three domains. We find that the collaboration significantly outperforms each model alone by leveraging complementary strengths. Moreover, aligning the weak model with the collaborative preference further enhances overall performance.

arxiv情報

著者 Yizhu Jiao,Xuchao Zhang,Zhaoyang Wang,Yubo Ma,Zhun Deng,Rujia Wang,Chetan Bansal,Saravan Rajmohan,Jiawei Han,Huaxiu Yao
発行日 2025-04-21 15:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Synergistic Weak-Strong Collaboration by Aligning Preferences はコメントを受け付けていません

Embedding Ontologies via Incorporating Extensional and Intensional Knowledge

要約

オントロジーには、ドメイン内の豊富な知識が含まれており、2つのカテゴリ、すなわち拡張知識とインテンションの知識に分類できます。
拡張知識は、オントロジーの特定の概念に属する具体的なインスタンスに関する情報を提供し、概念間の固有の特性、特性、およびセマンティックな関連付けを詳細に説明します。
ただし、既存のオントロジーの埋め込みアプローチは、拡張的な知識とインテンションの知識の両方を同時に微妙な考慮事項に取り入れることができません。
この論文では、EIKE(拡張およびインテンションの知識埋め込み)という名前の新しいオントロジー埋め込みアプローチを提案します。これは、拡張空間とインテンション空間と呼ばれる2つのスペースでオントロジーを表現します。
EIKEは、オントロジーにインスタンス、概念、およびそれらの関係を埋め込むための統一されたフレームワークを提示し、拡張知識をモデル化するためのジオメトリベースの方法と、構造情報とテキスト情報の両方をキャプチャできる意図的な知識をモデル化するためにモデル化された言語モデルをモデル化します。
実験結果は、EIKEがトリプル分類とリンク予測の両方で3つのデータセットで最先端の方法を大幅に上回ることを示しており、EIKEがドメインのより包括的で代表的な視点を提供することを示しています。

要約(オリジナル)

Ontologies contain rich knowledge within domain, which can be divided into two categories, namely extensional knowledge and intensional knowledge. Extensional knowledge provides information about the concrete instances that belong to specific concepts in the ontology, while intensional knowledge details inherent properties, characteristics, and semantic associations among concepts. However, existing ontology embedding approaches fail to take both extensional knowledge and intensional knowledge into fine consideration simultaneously. In this paper, we propose a novel ontology embedding approach named EIKE (Extensional and Intensional Knowledge Embedding) by representing ontologies in two spaces, called extensional space and intensional space. EIKE presents a unified framework for embedding instances, concepts and their relations in an ontology, applying a geometry-based method to model extensional knowledge and a pretrained language model to model intensional knowledge, which can capture both structure information and textual information. Experimental results show that EIKE significantly outperforms state-of-the-art methods in three datasets for both triple classification and link prediction, indicating that EIKE provides a more comprehensive and representative perspective of the domain.

arxiv情報

著者 Keyu Wang,Guilin Qi,Jiaoyan Chen,Yi Huang,Tianxing Wu
発行日 2025-04-21 15:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Embedding Ontologies via Incorporating Extensional and Intensional Knowledge はコメントを受け付けていません

‘The Diagram is like Guardrails’: Structuring GenAI-assisted Hypotheses Exploration with an Interactive Shared Representation

要約

データ分析には、高レベルの概念的推論から低レベルの実行まで、さまざまなタスクが含まれます。
AIを搭載したツールは、実行タスクをますますサポートしていますが、概念タスクにはインテリジェントな支援が必要です。
このペーパーでは、仮説探索の潜在的な共有表現として、AIに生成された情報ヒントと視覚化で増強された順序付けられたノードリンクツリーインターフェイスの設計を調査します。
設計プローブ(n = 22)を通じて、参加者は平均21.82仮説の図を生成しました。
私たちの調査結果は、ノードリンク図が仮説探索のための「ガードレール」として機能し、構造化されたワークフローを促進し、包括的な概要を提供し、効率的なバックトラッキングを可能にすることを示しました。
AIに生成された情報のヒント、特に視覚化は、ユーザーが抽象的なアイデアをデータ担当概念に変換しながら、認知負荷を減らしました。
さらに、ノードリンク図が仮説の定式化における並列探索と反復改良の両方をサポートする方法について説明し、潜在的に人間と共同データ分析の幅と深さを高めることができます。

要約(オリジナル)

Data analysis encompasses a spectrum of tasks, from high-level conceptual reasoning to lower-level execution. While AI-powered tools increasingly support execution tasks, there remains a need for intelligent assistance in conceptual tasks. This paper investigates the design of an ordered node-link tree interface augmented with AI-generated information hints and visualizations, as a potential shared representation for hypothesis exploration. Through a design probe (n=22), participants generated diagrams averaging 21.82 hypotheses. Our findings showed that the node-link diagram acts as ‘guardrails’ for hypothesis exploration, facilitating structured workflows, providing comprehensive overviews, and enabling efficient backtracking. The AI-generated information hints, particularly visualizations, aided users in transforming abstract ideas into data-backed concepts while reducing cognitive load. We further discuss how node-link diagrams can support both parallel exploration and iterative refinement in hypothesis formulation, potentially enhancing the breadth and depth of human-AI collaborative data analysis.

arxiv情報

著者 Zijian Ding,Michelle Brachman,Joel Chan,Werner Geyer
発行日 2025-04-21 16:05:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | ‘The Diagram is like Guardrails’: Structuring GenAI-assisted Hypotheses Exploration with an Interactive Shared Representation はコメントを受け付けていません

Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges

要約

検索された生成(RAG)により、大規模な言語モデル(LLM)は、「グラウンドトゥルース」を含むソースドキュメントからの引用を使用して回答を生成し、それによりシステムの幻覚が減少します。
RAG評価の重要な要因は、引用されたドキュメントの情報が答えをサポートしているかどうかにかかわらず、「サポート」です。
この目的のために、36のトピックに関する45人の参加者提出に関する大規模な比較研究を実施し、TREC 2024 RAGトラックに、サポート評価のために自動LLMジャッジ(GPT-4O)を人間の裁判官と比較しました。
2つの条件を検討しました。(1)ゼロからの完全な手動評価と(2)LLM予測の編集後の手動評価。
我々の結果は、マニュアルからのマニュアルからの56%の場合、人間とGPT-4Oの予測は完全に(3レベルのスケールで)完全に一致し、編集後の状態でマニュアルで72%に増加することを示しています。
さらに、公平な研究で意見の相違を慎重に分析することにより、独立した人間の裁判官は、人間の裁判官よりもGPT-4Oとよりよく相関していることがわかり、LLM裁判官はサポート評価のための信頼できる代替手段になることが示唆されました。
結論として、サポート評価の将来の反復を導くのに役立つヒトおよびGPT-4Oエラーの定性分析を提供します。

要約(オリジナル)

Retrieval-augmented generation (RAG) enables large language models (LLMs) to generate answers with citations from source documents containing ‘ground truth’, thereby reducing system hallucinations. A crucial factor in RAG evaluation is ‘support’, whether the information in the cited documents supports the answer. To this end, we conducted a large-scale comparative study of 45 participant submissions on 36 topics to the TREC 2024 RAG Track, comparing an automatic LLM judge (GPT-4o) against human judges for support assessment. We considered two conditions: (1) fully manual assessments from scratch and (2) manual assessments with post-editing of LLM predictions. Our results indicate that for 56% of the manual from-scratch assessments, human and GPT-4o predictions match perfectly (on a three-level scale), increasing to 72% in the manual with post-editing condition. Furthermore, by carefully analyzing the disagreements in an unbiased study, we found that an independent human judge correlates better with GPT-4o than a human judge, suggesting that LLM judges can be a reliable alternative for support assessment. To conclude, we provide a qualitative analysis of human and GPT-4o errors to help guide future iterations of support assessment.

arxiv情報

著者 Nandan Thakur,Ronak Pradeep,Shivani Upadhyay,Daniel Campos,Nick Craswell,Jimmy Lin
発行日 2025-04-21 16:20:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | Support Evaluation for the TREC 2024 RAG Track: Comparing Human versus LLM Judges はコメントを受け付けていません

Compute-Optimal LLMs Provably Generalize Better With Scale

要約

なぜ大規模な言語モデルはよりよく一般化するのですか?
この質問を調査するために、Chinchillaのスケーリング法で説明されているように、計算最適なレジームの大規模な言語モデル(LLMS)の事前販売目標に関する一般化境界を築きます。
損失関数の分散を考慮することにより既存の境界を強化する、完全に完全に経験的なフリードマン型のマーティンゲール濃度の不平等を導入します。
この一般化境界は、トークンあたりのパラメーターの数、損失の分散、固定ビットレートでの量子化誤差の3つの解釈可能なコンポーネントに分解できます。
計算最適な言語モデルが拡大されるため、データポイントあたりのパラメーターの数は一定のままです。
ただし、損失の分散と量子化誤差の両方が減少し、より大きなモデルがより小さな一般化ギャップを持つはずであることを意味します。
より大きなモデルが情報理論的な観点からより量子化できる傾向がある理由を調べ、新しい情報を統合できる速度が、計算最適なフロンティアの容量よりもゆっくりと成長することを示しています。
これらの調査結果から、私たちは一般化ギャップのためのスケーリング法則を作成します。

要約(オリジナル)

Why do larger language models generalize better? To investigate this question, we develop generalization bounds on the pretraining objective of large language models (LLMs) in the compute-optimal regime, as described by the Chinchilla scaling laws. We introduce a novel, fully empirical Freedman-type martingale concentration inequality that tightens existing bounds by accounting for the variance of the loss function. This generalization bound can be decomposed into three interpretable components: the number of parameters per token, the loss variance, and the quantization error at a fixed bitrate. As compute-optimal language models are scaled up, the number of parameters per data point remains constant; however, both the loss variance and the quantization error decrease, implying that larger models should have smaller generalization gaps. We examine why larger models tend to be more quantizable from an information theoretic perspective, showing that the rate at which they can integrate new information grows more slowly than their capacity on the compute-optimal frontier. From these findings we produce a scaling law for the generalization gap, with bounds that become predictably stronger with scale.

arxiv情報

著者 Marc Finzi,Sanyam Kapoor,Diego Granziol,Anming Gu,Christopher De Sa,J. Zico Kolter,Andrew Gordon Wilson
発行日 2025-04-21 16:26:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Compute-Optimal LLMs Provably Generalize Better With Scale はコメントを受け付けていません