Simple linear attention language models balance the recall-throughput tradeoff

要約

最近の研究では、注意に基づいた言語モデルがリコール時に優れていることが示されています。これは、以前にコンテキストで見られたトークンで世代を接地する能力です。
ただし、注意ベースのモデルの効率は、KV-Cacheの積極的なメモリ消費による推論中にボトルネックされています。
この作業では、リコールを妥協することなく、言語モデルの効率を改善できるかどうか(たとえば、メモリ消費を減らすことで)を探ります。
実験と理論を幅広いアーキテクチャに適用することにより、モデルの状態サイズとリコール能力の間の重要なトレードオフを特定します。
注意の効率的な代替手段(例:H3、Mamba、RWKV)は固定サイズの再発状態を維持しているが、リコールに苦労することを示しています。
線形とスライドのウィンドウの注意を組み合わせたシンプルなアーキテクチャを基にして提案します。
さまざまなベースのウィンドウサイズと線形注意特徴の寸法により、状態サイズをダイヤルして、リコールメモリトレードオフカーブのパレートフロンティアを通過し、一方の端での注意の完全な品質と、他方の注意相対者の小さな状態サイズを回復できます。
1.3Bパラメーターまでの言語モデルをトレーニングし、ベースが困惑の最も強力な亜二次モデル(MAMBAなど)と一致し、実際のリコール集約型タスクで6.22の精度ポイントでそれらを上回ることを示します。
線形注意の実装は、最適化された標準的な注意実装よりも効率が低いことがよくあります。
1.3Bパラメーターモデルを使用して1024トークンを生成するときに、Flashattention-2よりも言語生成で24倍高いスループットを有効にするIO認識アルゴリズムを開発するために、1.3Bパラメーターモデルを使用して1024トークンを開発します。
この作業のコードは、https://github.com/hazyresearch/badedに提供されています。

要約(オリジナル)

Recent work has shown that attention-based language models excel at recall, the ability to ground generations in tokens previously seen in context. However, the efficiency of attention-based models is bottle-necked during inference by the KV-cache’s aggressive memory consumption. In this work, we explore whether we can improve language model efficiency (e.g. by reducing memory consumption) without compromising on recall. By applying experiments and theory to a broad set of architectures, we identify a key tradeoff between a model’s state size and recall ability. We show that efficient alternatives to attention (e.g. H3, Mamba, RWKV) maintain a fixed-size recurrent state, but struggle at recall. We propose BASED a simple architecture combining linear and sliding window attention. By varying BASED window size and linear attention feature dimension, we can dial the state size and traverse the pareto frontier of the recall-memory tradeoff curve, recovering the full quality of attention on one end and the small state size of attention-alternatives on the other. We train language models up to 1.3b parameters and show that BASED matches the strongest sub-quadratic models (e.g. Mamba) in perplexity and outperforms them on real-world recall-intensive tasks by 6.22 accuracy points. Implementations of linear attention are often less efficient than optimized standard attention implementations. To make BASED competitive, we develop IO-aware algorithms that enable 24x higher throughput on language generation than FlashAttention-2, when generating 1024 tokens using 1.3b parameter models. Code for this work is provided at: https://github.com/HazyResearch/based.

arxiv情報

著者 Simran Arora,Sabri Eyuboglu,Michael Zhang,Aman Timalsina,Silas Alberti,Dylan Zinsley,James Zou,Atri Rudra,Christopher Ré
発行日 2025-03-07 18:57:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Simple linear attention language models balance the recall-throughput tradeoff はコメントを受け付けていません

A Survey on 3D Gaussian Splatting

要約

3D Gaussian Splatting(GS)は、明示的な輝きフィールドとコンピューターグラフィックスの変革的手法として浮上しています。
数百万人の学習可能な3Dガウスの使用を特徴とするこの革新的なアプローチは、主流の神経放射輝度フィールドアプローチからの重要な逸脱を表しています。これは、主に暗黙の座標ベースのモデルを使用して、空間座標をピクセル値にマッピングします。
明示的なシーン表現と微分可能なレンダリングアルゴリズムを備えた3D GSは、リアルタイムのレンダリング機能を約束するだけでなく、前例のないレベルの編集可能性を導入します。
これにより、3D GSは、次世代の3D再構成と表現の潜在的なゲームチェンジャーとして位置付けられています。
本論文では、3D GSのドメインにおける最近の開発と重要な貢献の最初の体系的な概要を説明します。
私たちは、基礎となる原則と3D GSの出現の背後にある原動力の詳細な調査から始め、その重要性を理解するための基礎を築きます。
私たちの議論の焦点は、3D GSの実用的な適用性です。
前例のないレンダリング速度を可能にすることにより、3D GSは、仮想現実からインタラクティブなメディアなどに至るまで、多数のアプリケーションを開きます。
これは、さまざまなベンチマークタスクで評価され、パフォーマンスと実用的なユーティリティを強調するために、主要な3D GSモデルの比較分析によって補完されます。
この調査は、現在の課題を特定し、将来の研究のための潜在的な手段を提案することで締めくくられます。
この調査を通じて、私たちは新人とベテランの両方の研究者の両方に貴重なリソースを提供し、明示的な輝き分野でのさらなる探求と進歩を促進することを目指しています。

要約(オリジナル)

3D Gaussian splatting (GS) has emerged as a transformative technique in explicit radiance field and computer graphics. This innovative approach, characterized by the use of millions of learnable 3D Gaussians, represents a significant departure from mainstream neural radiance field approaches, which predominantly use implicit, coordinate-based models to map spatial coordinates to pixel values. 3D GS, with its explicit scene representation and differentiable rendering algorithm, not only promises real-time rendering capability but also introduces unprecedented levels of editability. This positions 3D GS as a potential game-changer for the next generation of 3D reconstruction and representation. In the present paper, we provide the first systematic overview of the recent developments and critical contributions in the domain of 3D GS. We begin with a detailed exploration of the underlying principles and the driving forces behind the emergence of 3D GS, laying the groundwork for understanding its significance. A focal point of our discussion is the practical applicability of 3D GS. By enabling unprecedented rendering speed, 3D GS opens up a plethora of applications, ranging from virtual reality to interactive media and beyond. This is complemented by a comparative analysis of leading 3D GS models, evaluated across various benchmark tasks to highlight their performance and practical utility. The survey concludes by identifying current challenges and suggesting potential avenues for future research. Through this survey, we aim to provide a valuable resource for both newcomers and seasoned researchers, fostering further exploration and advancement in explicit radiance field.

arxiv情報

著者 Guikun Chen,Wenguan Wang
発行日 2025-03-07 13:06:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.MM | A Survey on 3D Gaussian Splatting はコメントを受け付けていません

Static Program Analysis Guided LLM Based Unit Test Generation

要約

大規模な言語モデル(LLM)を使用して、Javaメソッドの単体テスト生成を自動化するための新しいアプローチについて説明します。
既存のLLMベースのアプローチは、テストする方法(焦点方法)のサンプル使用法に依存しており、焦点メソッドのクラス全体を入力プロンプトとコンテキストとして提供します。
前者のアプローチは、特に新たに書かれた焦点方法のために、サンプルの使用が不足しているため、しばしば実行可能ではありません。
後者のアプローチは十分にスケーリングしません。
焦点法と関連するクラスの複雑さが大きいほど、適切なテストコードを作成することはより困難です(基礎となるLLMのプロンプトとコンテキストの長さを超えるなどの要因のため)。
焦点分析によって取得されたプログラム分析%で得られた\ emph {concise}および\ emph {precise}コンテキスト情報を使用してプロンプトを増やすと、LLMを介して単体テストコードを生成する有効性が向上することを示します。
大規模な商用Javaプロジェクトと人気のあるオープンソースJavaプロジェクトでのアプローチを検証します。

要約(オリジナル)

We describe a novel approach to automating unit test generation for Java methods using large language models (LLMs). Existing LLM-based approaches rely on sample usage(s) of the method to test (focal method) and/or provide the entire class of the focal method as input prompt and context. The former approach is often not viable due to the lack of sample usages, especially for newly written focal methods. The latter approach does not scale well enough; the bigger the complexity of the focal method and larger associated class, the harder it is to produce adequate test code (due to factors such as exceeding the prompt and context lengths of the underlying LLM). We show that augmenting prompts with \emph{concise} and \emph{precise} context information obtained by program analysis %of the focal method increases the effectiveness of generating unit test code through LLMs. We validate our approach on a large commercial Java project and a popular open-source Java project.

arxiv情報

著者 Sujoy Roychowdhury,Giriprasad Sridhara,A K Raghavan,Joy Bose,Sourav Mazumdar,Hamender Singh,Srinivasan Bajji Sugumaran,Ricardo Britto
発行日 2025-03-07 13:09:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | Static Program Analysis Guided LLM Based Unit Test Generation はコメントを受け付けていません

An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning

要約

この論文では、複雑なマルチステップ推論タスクで標準のオープンウェイトLLMSのパフォーマンスを強化するために、回答セットプログラミング(ASP)とともに、コンフォーマル言語モデリング(CLM)の使用を調べます。
空間的推論が必要なStepGameデータセットを使用して、LLMからASPプログラムのセットを生成するためにCLMを適用し、出力の正確性に関する統計的保証を提供します。
実験結果は、CLMが標準サンプリング方法を使用するベースラインモデルを大幅に上回り、異なるレベルの推論複雑さにわたって大幅な精度の改善を達成することを示しています。
さらに、LLM-As-Judgeメトリックは、特に構造的および論理的に正しいASP出力を評価する際に、CLMのパフォーマンスを向上させます。
ただし、多様なキャリブレーションセットを使用してCLMを較正すると、タスクの一般化性が改善されず、より長い推論ステップが必要であり、より複雑なタスクの処理の制限を示しています。

要約(オリジナル)

In this paper, we examine the use of Conformal Language Modelling (CLM) alongside Answer Set Programming (ASP) to enhance the performance of standard open-weight LLMs on complex multi-step reasoning tasks. Using the StepGame dataset, which requires spatial reasoning, we apply CLM to generate sets of ASP programs from an LLM, providing statistical guarantees on the correctness of the outputs. Experimental results show that CLM significantly outperforms baseline models that use standard sampling methods, achieving substantial accuracy improvements across different levels of reasoning complexity. Additionally, the LLM-as-Judge metric enhances CLM’s performance, especially in assessing structurally and logically correct ASP outputs. However, calibrating CLM with diverse calibration sets did not improve generalizability for tasks requiring much longer reasoning steps, indicating limitations in handling more complex tasks.

arxiv情報

著者 Navdeep Kaur,Lachlan McPheat,Alessandra Russo,Anthony G Cohn,Pranava Madhyastha
発行日 2025-03-07 14:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning はコメントを受け付けていません

Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts

要約

線形注意、状態空間モデル、線形RNN、および混合物(MOE)などの線形シーケンスモデリング(LSM)が最近、大幅なアーキテクチャの改善として浮上しています。
この論文では、LSMをMOEと統合する大規模モデルをモデリングおよびトレーニングするための生産レベルのシステムであるLinear-Moeを紹介します。
線形MOEは、リニア複合シーケンスモデリング用の両方のLSMモジュールの利点と、まばらに活性化するためのMOE層を活用し、効率的なトレーニングで高性能を提供することを目指しています。
線形MOEシステムは、次のもので構成されています。1)モデリングサブシステムは、LSMのすべてのインスタンスをサポートする統一されたフレームワークを提供します。
2)トレーニングサブシステム。これは、さまざまな高度な並列性テクノロジー、特に線形モーイモデル向けに設計されたシーケンス並列性を組み込むことにより、効率的なトレーニングを促進します。
さらに、線形モーイ層と標準トランスモー層を組み合わせたハイブリッドモデルと、モデルの柔軟性とパフォーマンスをさらに高めるために、シーケンスの並列性を調べます。
A0.3B-2BとA1B-7Bの2つのモデルシリーズの評価は、線形MOEがさまざまなベンチマークで競争力のあるパフォーマンスを維持しながら、効率の向上を達成し、次世代の基礎モデルアーキテクチャとしての可能性を示しています。
コード:https://github.com/opensparsellms/linear-moe。

要約(オリジナル)

Linear Sequence Modeling (LSM) like linear attention, state space models and linear RNNs, and Mixture-of-Experts (MoE) have recently emerged as significant architectural improvements. In this paper, we introduce Linear-MoE, a production-level system for modeling and training large-scale models that integrate LSM with MoE. Linear-MoE leverages the advantages of both LSM modules for linear-complexity sequence modeling and MoE layers for sparsely activation, aiming to offer high performance with efficient training. The Linear-MoE system comprises: 1) Modeling subsystem, which provides a unified framework supporting all instances of LSM. and 2) Training subsystem, which facilitates efficient training by incorporating various advanced parallelism technologies, particularly Sequence Parallelism designed for Linear-MoE models. Additionally, we explore hybrid models that combine Linear-MoE layers with standard Transformer-MoE layers with its Sequence Parallelism to further enhance model flexibility and performance. Evaluations on two model series, A0.3B-2B and A1B-7B, demonstrate Linear-MoE achieves efficiency gains while maintaining competitive performance on various benchmarks, showcasing its potential as a next-generation foundational model architecture. Code: https://github.com/OpenSparseLLMs/Linear-MoE.

arxiv情報

著者 Weigao Sun,Disen Lan,Tong Zhu,Xiaoye Qu,Yu Cheng
発行日 2025-03-07 14:17:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DC, cs.LG | Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts はコメントを受け付けていません

LLM-based Iterative Approach to Metamodeling in Automotive

要約

この論文では、大規模な言語モデル(LLM)に依存するドメイン固有のメタモデル構造への自動化されたアプローチを紹介します。
主な焦点は、自動車ドメインでの採用です。
結果として、Pythonプログラミング言語を使用したプロトタイプがWebサービスとして実装され、OpenaiのGPT-4Oが基礎となるLLMとして使用されました。
最初の実験に基づいて、このアプローチは、自動車要件のセットに基づいてエコールメタモデルを構築し、Plantuml表記を使用することで視覚化するため、人間の専門家は結果を改善するためにフィードバックを提供できます。
最後に、必要な制限と追加の手順を含む、ローカルに展開可能なソリューションも考慮されます。

要約(オリジナル)

In this paper, we introduce an automated approach to domain-specific metamodel construction relying on Large Language Model (LLM). The main focus is adoption in automotive domain. As outcome, a prototype was implemented as web service using Python programming language, while OpenAI’s GPT-4o was used as the underlying LLM. Based on the initial experiments, this approach successfully constructs Ecore metamodel based on set of automotive requirements and visualizes it making use of PlantUML notation, so human experts can provide feedback in order to refine the result. Finally, locally deployable solution is also considered, including the limitations and additional steps required.

arxiv情報

著者 Nenad Petrovic,Fengjunjie Pan,Vahid Zolfaghari,Alois Knoll
発行日 2025-03-07 14:19:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | LLM-based Iterative Approach to Metamodeling in Automotive はコメントを受け付けていません

AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems

要約

毎日、機械学習モデルに頼って、ハイステークタスクと決定を自動化およびサポートしています。
この存在感は、人間が現在、機械学習ベースのシステムと常に相互作用し、毎日モデルをトレーニングし、使用していることを意味します。
コンピューターサイエンスのいくつかの異なる手法は、機械学習システムとの人間の相互作用を説明していますが、それらの分類はまばらであり、目標はさまざまです。
この調査では、ハイブリッドの意思決定システムの分類法を提案し、現在のコンピューターサイエンスの文献が人間と機械間の相互作用をどのようにモデル化するかを理解するための概念的および技術的な枠組みの両方を提供します。

要約(オリジナル)

Everyday we increasingly rely on machine learning models to automate and support high-stake tasks and decisions. This growing presence means that humans are now constantly interacting with machine learning-based systems, training and using models everyday. Several different techniques in computer science literature account for the human interaction with machine learning systems, but their classification is sparse and the goals varied. This survey proposes a taxonomy of Hybrid Decision Making Systems, providing both a conceptual and technical framework for understanding how current computer science literature models interaction between humans and machines.

arxiv情報

著者 Clara Punzi,Roberto Pellungrini,Mattia Setzu,Fosca Giannotti,Dino Pedreschi
発行日 2025-03-07 14:20:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | AI, Meet Human: Learning Paradigms for Hybrid Decision Making Systems はコメントを受け付けていません

Soft Policy Optimization: Online Off-Policy RL for Sequence Models

要約

言語モデルのRLベースのトレーニングは、PPOなどのポリシー上のメソッドを使用してほぼ排他的に行われます。
これらの方法は、トレーニング、以前の実行、人間の専門家やその他のポリシー、または解読および探索方法によって以前に作成されたものなどの任意のシーケンスから学習することはできません。
これにより、重度のサンプルの非効率性と探査の困難、および政策対応の多様性の潜在的な損失がもたらされます。
さらに、非同期PPOの実装では、頻繁で費用のかかるモデル転送が必要であり、通常、大量のメモリを必要とする値モデルを使用します。
このペーパーでは、任意のオンラインおよびオフラインの軌跡から学習し、個別の値モデルを必要としないシーケンスモデルポリシーのシンプルでスケーラブルで原則的なソフトRLメソッドであるSoft Policy Optimization(SPO)を紹介します。
コードコンテストの実験では、SPOがパス@10のPPOを上回り、メモリ効率が大幅に高く、ポリシー外データの恩恵を受け、安定性の改善、より多様な(つまりソフト)ポリシーを学ぶことができることを示しています。

要約(オリジナル)

RL-based post-training of language models is almost exclusively done using on-policy methods such as PPO. These methods cannot learn from arbitrary sequences such as those produced earlier in training, in earlier runs, by human experts or other policies, or by decoding and exploration methods. This results in severe sample inefficiency and exploration difficulties, as well as a potential loss of diversity in the policy responses. Moreover, asynchronous PPO implementations require frequent and costly model transfers, and typically use value models which require a large amount of memory. In this paper we introduce Soft Policy Optimization (SPO), a simple, scalable and principled Soft RL method for sequence model policies that can learn from arbitrary online and offline trajectories and does not require a separate value model. In experiments on code contests, we shows that SPO outperforms PPO on pass@10, is significantly faster and more memory efficient, is able to benefit from off-policy data, enjoys improved stability, and learns more diverse (i.e. soft) policies.

arxiv情報

著者 Taco Cohen,David W. Zhang,Kunhao Zheng,Yunhao Tang,Remi Munos,Gabriel Synnaeve
発行日 2025-03-07 14:23:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Soft Policy Optimization: Online Off-Policy RL for Sequence Models はコメントを受け付けていません

Controllable Complementarity: Subjective Preferences in Human-AI Collaboration

要約

人間と協力の研究は、多くの場合、客観的なパフォーマンスを優先します。
ただし、人間の補完性と人間の経験を改善するには、人間の主観的な好みを理解することが不可欠です。
AIの動作に対する明示的な制御を可能にする強化学習アルゴリズムであるBehavior Shaping(BS)を使用して、AIパートナーと共有ワークスペースタスクでの制御性に対する人間の好みを調査します。
ある実験では、コントロールが隠されている場合、自己プレイポリシーに関連する効果的なAIポリシーを作成する際のBSの堅牢性を検証します。
別の実験では、人間のコントロールを可能にし、参加者がAIパートナーがAIの行動を直接決定できる場合、より効果的で楽しいと認識していることを示します。
私たちの調査結果は、タスクのパフォーマンスと主観的な人間の好みの両方を優先するAIを設計する必要性を強調しています。
AIの動作を人間の好みに合わせて調整することにより、客観的な結果を超えて主観的な好みを含める方法を人間の補完性がどのように拡張できるかを示します。

要約(オリジナル)

Research on human-AI collaboration often prioritizes objective performance. However, understanding human subjective preferences is essential to improving human-AI complementarity and human experiences. We investigate human preferences for controllability in a shared workspace task with AI partners using Behavior Shaping (BS), a reinforcement learning algorithm that allows humans explicit control over AI behavior. In one experiment, we validate the robustness of BS in producing effective AI policies relative to self-play policies, when controls are hidden. In another experiment, we enable human control, showing that participants perceive AI partners as more effective and enjoyable when they can directly dictate AI behavior. Our findings highlight the need to design AI that prioritizes both task performance and subjective human preferences. By aligning AI behavior with human preferences, we demonstrate how human-AI complementarity can extend beyond objective outcomes to include subjective preferences.

arxiv情報

著者 Chase McDonald,Cleotilde Gonzalez
発行日 2025-03-07 14:27:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MA | Controllable Complementarity: Subjective Preferences in Human-AI Collaboration はコメントを受け付けていません

The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence

要約

マルチエージェントシステムは、人工知能(AI)ファンデーションモデルのアクセシビリティとスケーラビリティの問題に対処します。これは、多くの場合、大規模な言語モデルで表されます。
私たちは、複数のAI基礎モデル間の相互作用を調整し、現代の進化理論に従うことによって自然界で観察された動物の群れの行動を模倣するフレームワーク – 「Hivemindの社会」(SOHM) – を開発します。
一方で、SOHMは、主に実際の知識を必要とするタスクに無視できる利益を提供することがわかります。
一方、集中的な論理的推論を必要とするタスクの大幅な改善に注意して、マルチエージェントシステムが個々のエージェントと比較して集団の推論能力を高めることができることを示しています。
私たちの調査結果は、多数の多様なAIファンデーションモデルを組み合わせて、特定の環境との相互作用を通じて自己改善が可能な人工的な群れインテリジェンスを形成する可能性を示しています。

要約(オリジナル)

Multi-agent systems address issues of accessibility and scalability of artificial intelligence (AI) foundation models, which are often represented by large language models. We develop a framework – the ‘Society of HiveMind’ (SOHM) – that orchestrates the interaction between multiple AI foundation models, imitating the observed behavior of animal swarms in nature by following modern evolutionary theories. On the one hand, we find that the SOHM provides a negligible benefit on tasks that mainly require real-world knowledge. On the other hand, we remark a significant improvement on tasks that require intensive logical reasoning, indicating that multi-agent systems are capable of increasing the reasoning capabilities of the collective compared to the individual agents. Our findings demonstrate the potential of combining a multitude of diverse AI foundation models to form an artificial swarm intelligence capable of self-improvement through interactions with a given environment.

arxiv情報

著者 Noah Mamie,Susie Xi Rao
発行日 2025-03-07 14:45:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.NE | The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence はコメントを受け付けていません