QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts

要約

混合物(MOE)は、大規模な言語モデルの学習能力を拡大する有望な方法です。
パラメーターの数を増やし、スパース活性化を通じて推論中にフロップをほぼ一定に保ちます。
しかし、それは膨大なパラメーターサイズのために依然として重要なメモリオーバーヘッドに苦しんでおり、モデルの圧縮技術が必要です。
トレーニング後の量子化は、モデル圧縮の強力なアプローチを提供します。
既存の方法は、MOEモデル全体に​​固定量子化精度を採用しています。
この厳格なセットアップは、固有のスパース構造を考慮せずに、最適ではないパフォーマンスにつながる可能性があります。
たとえば、MOEのまばらなルーティングメカニズムはさまざまな活性化パターンにつながります。ここでは、共有の専門家がすべてのトークンからアクセスされ、トークン条件の専門家が選択的にアクティブ化されます。
この活性化の格差は、異なる量子化要件を示唆しており、モデルの品質を維持するために、より高い精度が必要になる可能性がある一貫して活性化された共有専門家があります。
このホワイトペーパーでは、MOE量子化のためのきめの細かい精度セットアップを研究します。
粗い(例:MOE層)から細かい粒度(例えば、線形層)に至るまで、MOE構造を意識した量子化ヒューリスティックを探索します。
私たちの調査は、さまざまなMOE構造が効果的な量子化のためにさまざまな数のビットを必要とする重要な原則を明らかにしています。
結論は、2つの代表的なMOEモデルと、常識的な推論と自然言語の理解を含む6つのタスクにわたる広範なベンチマークによってサポートされています。
さらに、微調整された混合精度で量子化されたMOEが、ベースライン64.30%(つまり、GPTQ)と比較して、平均して最先端の65.35%のパフォーマンスを達成したことを示しています。
さらに、調査結果に基づいて、Outlier-aware Linear Layer ScorerやMoE Blockの重要性予測子など、MOE量子化のビット割り当てを最適化するための新しいデータ駆動型の手法を導入します。

要約(オリジナル)

Mixture-of-Experts (MoE) is a promising way to scale up the learning capacity of large language models. It increases the number of parameters while keeping FLOPs nearly constant during inference through sparse activation. Yet, it still suffers from significant memory overheads due to the vast parameter size, necessitating model compression techniques. Post-training quantization offers a powerful approach for model compression. Existing methods adopt a fixed quantization precision for the entire MoE model. This rigid setup can lead to suboptimal performance, without considering the inherent sparse structure. For example, MoE’s sparse routing mechanism leads to different activation patterns, where shared experts are accessed by all tokens while token-conditioned experts are selectively activated. This activation disparity suggests different quantization requirements, with consistently activated shared experts potentially needing higher precision to maintain model quality. In this paper, we study a fine-grained precision setup for MoE quantization. We explore MoE structure-aware quantization heuristics, ranging from coarse (e.g., MoE layers) to fine granularity (e.g., linear layers). Our investigations reveal critical principles, where different MoE structures require varying numbers of bits for effective quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks including commonsense reasoning and natural language understanding. We further show that an MoE quantized in a fined-grained mixed precision achieved state-of-the-art 65.35% performance on average compared to the baseline 64.30% (i.e., GPTQ). Moreover, based on the findings, we introduce novel data-driven techniques for optimizing bit allocation in MoE quantization, including the outlier-aware linear layer scorer and MoE block importance predictor.

arxiv情報

著者 Pingzhi Li,Xiaolong Jin,Zhen Tan,Yu Cheng,Tianlong Chen
発行日 2025-02-25 18:29:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | QuantMoE-Bench: Examining Post-Training Quantization for Mixture-of-Experts はコメントを受け付けていません

ToMCAT: Theory-of-Mind for Cooperative Agents in Teams via Multiagent Diffusion Policies

要約

このペーパーでは、Tomcat(チームの協同エージェントの理論の理論)を紹介します。これは、TOMコンディショニングされた軌跡を生成するための新しいフレームワークです。
メタ学習メカニズムを組み合わせて、チームメイトの根底にある目標と将来の行動を推論するトムと、エージェントの目標とチームメイトの特性の両方を条件付けたエージェントとそのチームメイトの計画を生み出すマルチエージェントの除去拡散モデルと、
トム経由で計算されたとおり。
以前に生成された計画と世界の現在の状態との相違を検出するたびに、拡散モデルから新しい軌跡(REPLAN)を動的にサンプリングするオンライン計画システムを実装しました。
シミュレートされた調理ドメインでTomcatを使用していくつかの実験を実施しました。
私たちの結果は、チームのパフォーマンスを犠牲にすることなくリソースの使用を減らすことにおける動的な再生メカニズムの重要性を強調しています。
また、トムの推論と組み合わせたエピソードの過程でエージェントによって収集された世界とチームメイトの行動に関する最近の観察は、チームメイトへの動的な適応のためのチームを意識する計画を生み出すために重要であることを示しています。

要約(オリジナル)

In this paper we present ToMCAT (Theory-of-Mind for Cooperative Agents in Teams), a new framework for generating ToM-conditioned trajectories. It combines a meta-learning mechanism, that performs ToM reasoning over teammates’ underlying goals and future behavior, with a multiagent denoising-diffusion model, that generates plans for an agent and its teammates conditioned on both the agent’s goals and its teammates’ characteristics, as computed via ToM. We implemented an online planning system that dynamically samples new trajectories (replans) from the diffusion model whenever it detects a divergence between a previously generated plan and the current state of the world. We conducted several experiments using ToMCAT in a simulated cooking domain. Our results highlight the importance of the dynamic replanning mechanism in reducing the usage of resources without sacrificing team performance. We also show that recent observations about the world and teammates’ behavior collected by an agent over the course of an episode combined with ToM inferences are crucial to generate team-aware plans for dynamic adaptation to teammates, especially when no prior information is provided about them.

arxiv情報

著者 Pedro Sequeira,Vidyasagar Sadhu,Melinda Gervasio
発行日 2025-02-25 18:31:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA | ToMCAT: Theory-of-Mind for Cooperative Agents in Teams via Multiagent Diffusion Policies はコメントを受け付けていません

MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning

要約

複数の大規模な言語モデル(LLM)を活用して、共同のマルチエージェントワークフローを構築することで、重大な可能性が示されています。
ただし、以前の研究のほとんどは、すぐに表示されるようにLLMSのパフォーマンスを改善しない可能性のあるコラボレーションのための生来の能力に依存して、すぐに使用できるLLMSを促すことに焦点を当てています。
このペーパーでは、新しいトレーニング後のパラダイムMaporl(補強学習と共同LLMのマルチエージェント後訓練)を紹介し、共同行動を明示的に引き出し、マルチエージェントLLMフレームワークの力をさらに解き放ちます。
Maporlでは、複数のLLMが最初に独自の応答を独立して生成し、最終回答を共同で改善するために多ターンディスカッションに参加します。
最終的に、Maporl検証剤は、回答の正確性を検証するスコアを割り当てると同時に、是正と説得力のある議論を促進するインセンティブを追加することにより、答えと議論の両方を評価します。
スコアは共同トレーニングの報酬として機能し、マルチエージェントRLを通じて最大化されます。
既存のLLMポストトレーニングパラダイムとは異なり、Maporlは、より良い一般化のためにRLを使用して複数のLLMの共同トレーニングを一緒に提唱しています。
分析的な洞察を伴う実験は、個々のLLMだけをトレーニングするだけでは効果的なコラボレーションを誘導するには不十分であることを示しています。
対照的に、マルチエージェントの共同トレーニングは、目に見えないドメインへの一般化により、ベンチマーク全体のコラボレーションパフォーマンスを高めることができます。

要約(オリジナル)

Leveraging multiple large language models (LLMs) to build collaborative multi-agentic workflows has demonstrated significant potential. However, most previous studies focus on prompting the out-of-the-box LLMs, relying on their innate capability for collaboration, which may not improve LLMs’ performance as shown recently. In this paper, we introduce a new post-training paradigm MAPoRL (Multi-Agent Post-co-training for collaborative LLMs with Reinforcement Learning), to explicitly elicit the collaborative behaviors and further unleash the power of multi-agentic LLM frameworks. In MAPoRL, multiple LLMs first generate their own responses independently and engage in a multi-turn discussion to collaboratively improve the final answer. In the end, a MAPoRL verifier evaluates both the answer and the discussion, by assigning a score that verifies the correctness of the answer, while adding incentives to encourage corrective and persuasive discussions. The score serves as the co-training reward, and is then maximized through multi-agent RL. Unlike existing LLM post-training paradigms, MAPoRL advocates the co-training of multiple LLMs together using RL for better generalization. Accompanied by analytical insights, our experiments demonstrate that training individual LLMs alone is insufficient to induce effective collaboration. In contrast, multi-agent co-training can boost the collaboration performance across benchmarks, with generalization to unseen domains.

arxiv情報

著者 Chanwoo Park,Seungju Han,Xingzhi Guo,Asuman Ozdaglar,Kaiqing Zhang,Joo-Kyung Kim
発行日 2025-02-25 18:33:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | MAPoRL: Multi-Agent Post-Co-Training for Collaborative Large Language Models with Reinforcement Learning はコメントを受け付けていません

Disambiguate First Parse Later: Generating Interpretations for Ambiguity Resolution in Semantic Parsing

要約

あいまいさと特別な除外の処理は、特にテキストからSQLのセマンティック解析などのタスクでは、自然言語界面において重要な課題です。
これらを論理フォーム(SQLクエリなど)にマッピングする前に、自然言語解釈を使用して曖昧さを解決するモジュラーアプローチを提案します。
LLMSは明確な発話を解析することに優れていますが、それらは曖昧なものに対して強いバイアスを示し、通常は好ましい解釈のみを予測します。
このバイアスを建設的に活用して、初期の優先除去セットを生成し、特殊な充填モデルを適用して、欠落している解釈を特定して生成します。
充填モデルをトレーニングするために、SQL実行を使用してさまざまな意味を検証する注釈方法を紹介します。
私たちのアプローチは、解釈のカバレッジを改善し、さまざまな注釈スタイル、データベース構造、あいまいさの種類を備えたデータセット間で一般化します。

要約(オリジナル)

Handling ambiguity and underspecification is an important challenge in natural language interfaces, particularly for tasks like text-to-SQL semantic parsing. We propose a modular approach that resolves ambiguity using natural language interpretations before mapping these to logical forms (e.g., SQL queries). Although LLMs excel at parsing unambiguous utterances, they show strong biases for ambiguous ones, typically predicting only preferred interpretations. We constructively exploit this bias to generate an initial set of preferred disambiguations and then apply a specialized infilling model to identify and generate missing interpretations. To train the infilling model, we introduce an annotation method that uses SQL execution to validate different meanings. Our approach improves interpretation coverage and generalizes across datasets with different annotation styles, database structures, and ambiguity types.

arxiv情報

著者 Irina Saparina,Mirella Lapata
発行日 2025-02-25 18:42:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Disambiguate First Parse Later: Generating Interpretations for Ambiguity Resolution in Semantic Parsing はコメントを受け付けていません

Windowed MAPF with Completeness Guarantees

要約

従来のマルチエージェントパスファインディング(MAPF)メソッドは、衝突がないスタートゴールパス全体を計算しようとします。
ただし、パス全体を計算するには、エージェントが高速に再生する必要があるMAPFシステムには時間がかかりすぎる場合があります。
これに対処する方法は、通常、「ウィンドウされた」アプローチを使用し、小さなウィンドウのタイムステップホライズンの衝突自由パスを見つけようとします。
この適応は不完全さを犠牲にしてもたらされます。
現在のすべてのウィンドウアプローチは、デッドロックまたはリヴェロックで立ち往生する可能性があります。
私たちの主な貢献は、完全性を可能にするウィンドウされたMAPFのフレームワークであるWinc-Mapfを導入することです。
私たちのフレームワークでは、シングルエージェントのリアルタイムヒューリスティック検索アルゴリズムからのヒューリスティック更新洞察と、MAPFアルゴリズムからのエージェント独立アイデアを使用しています。
また、CBSへの新しい変更を使用して、このフレームワークのインスタンス化であるシングルステップCBS(SS-CBS)も開発します。
単一のステップを計画し、ヒューリスティックを更新するSS-CBSが、既存のウィンドウアプローチが失敗する厳しいシナリオを効果的に解決する方法を示します。

要約(オリジナル)

Traditional multi-agent path finding (MAPF) methods try to compute entire start-goal paths which are collision free. However, computing an entire path can take too long for MAPF systems where agents need to replan fast. Methods that address this typically employ a ‘windowed’ approach and only try to find collision free paths for a small windowed timestep horizon. This adaptation comes at the cost of incompleteness; all current windowed approaches can become stuck in deadlock or livelock. Our main contribution is to introduce our framework, WinC-MAPF, for Windowed MAPF that enables completeness. Our framework uses heuristic update insights from single-agent real-time heuristic search algorithms as well as agent independence ideas from MAPF algorithms. We also develop Single-Step CBS (SS-CBS), an instantiation of this framework using a novel modification to CBS. We show how SS-CBS, which only plans a single step and updates heuristics, can effectively solve tough scenarios where existing windowed approaches fail.

arxiv情報

著者 Rishi Veerapaneni,Muhammad Suhail Saleem,Jiaoyang Li,Maxim Likhachev
発行日 2025-02-25 18:44:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.MA, cs.RO | Windowed MAPF with Completeness Guarantees はコメントを受け付けていません

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

要約

最近のDeepSeek-R1リリースは、大規模な言語モデル(LLMS)の一般的な推論能力を高める上で、強化学習(RL)の計り知れない可能性を実証しています。
DeepSeek-R1およびその他のフォローアップ作業は、主にRLを競争力のあるコーディングと数学の問題に適用することに焦点を当てていますが、このホワイトペーパーでは、RLベースのLLM推論の最初のアプローチであるSWE-RLを実世界のソフトウェアエンジニアリングに導入します。
SWE-RLは、軽量のルールベースの報酬を活用して(例:グラウンドトゥルースとLLM生成ソリューションの間の類似性スコア)、LLMが大規模なオープンソースソフトウェア進化データから学習することにより、開発者の推論プロセスとソリューションを自律的に回復できるようにすることができます –
コードスナップショット、コードの変更、問題やプル要求などのイベントなど、ソフトウェアのライフサイクル全体の記録。
Llama 3の上で訓練された結果として、結果として得られる推論モデルであるLlama3-Swe-RL-70Bは、SWE-Bench検証の41.0%の解決率を達成します。
私たちの知る限り、これはこれまでの中規模(<100b)LLMについて報告されている最高のパフォーマンスであり、GPT-4oのような主要な独自のLLMに匹敵します。 驚くべきことに、ソフトウェアの進化データのみでRLを実行しているにもかかわらず、LLAMA3-SWE-RLは、一般化された推論スキルでも登場しています。 たとえば、5つのドメイン外のタスク、つまり、機能コーディング、ライブラリの使用、コード推論、数学、および一般的な言語理解の結果が改善されていますが、監督された財政ベースラインは平均してパフォーマンスの低下につながります。 全体として、SWE-RLは、大規模なソフトウェアエンジニアリングデータの強化学習を通じて、LLMSの推論機能を改善するための新しい方向性を開きます。

要約(オリジナル)

The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer’s reasoning processes and solutions by learning from extensive open-source software evolution data — the record of a software’s entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified — a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.

arxiv情報

著者 Yuxiang Wei,Olivier Duchenne,Jade Copet,Quentin Carbonneaux,Lingming Zhang,Daniel Fried,Gabriel Synnaeve,Rishabh Singh,Sida I. Wang
発行日 2025-02-25 18:45:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SE | SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution はコメントを受け付けていません

FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response

要約

大規模な言語モデル(LLM)には、実質的な常識推論の可能性があります。
ただし、これらの機能は、多くの場合、より大きなモデルで出現します。
これは、ローカルで実行できる小さなモデルがあまり役に立たず、特定の推論タスクに関して能力があることを意味します。
問題のある空間要件を満たすために、これらのドメインには複雑で低周波の物理的常識の知識が含まれるため、より小さなLLMSを災害ドメインに微調整します。
パイプラインを導入して、フィールド対応命令デコードエージェント(FRIDA)モデルを作成します。ドメインの専門家と言語学者が知識を組み合わせて、微調整の合成データを生成するために使用される高品質の種子データを作成します。
合成生成のための130の種子命令のセット、25000の指示の合成データセット、および一般的および地震固有のオブジェクトアフォーダンスの両方に関連する119の評価命令を作成します。
いくつかのラマとミストラルの指導チューニングモデルを微調整し、Fridaモデルがさまざまなサイズでベースモデルよりも優れていることがわかります。
次に、アブレーション研究を実行して、どの種類の合成データがパフォーマンスに最も影響を与えるかを理解し、トレーニングの物理的状態とオブジェクト機能の常識的知識だけで、すべてのデータでトレーニングされたFRIDAモデルよりも改善されることがわかります。
Frida Pipelineは一般的な常識を浸透させることができると結論付けていますが、特定のドメイン知識のための情報検索で増強する必要があります。

要約(オリジナル)

Large Language Models (LLMs) have the potential for substantial common sense reasoning. However, these capabilities are often emergent in larger models. This means smaller models that can be run locally are less helpful and capable with respect to certain reasoning tasks. To meet our problem space requirements, we fine-tune smaller LLMs to disaster domains, as these domains involve complex and low-frequency physical common sense knowledge. We introduce a pipeline to create Field Ready Instruction Decoding Agent (FRIDA) models, where domain experts and linguists combine their knowledge to make high-quality seed data that is used to generate synthetic data for fine-tuning. We create a set of 130 seed instructions for synthetic generation, a synthetic dataset of 25000 instructions, and 119 evaluation instructions relating to both general and earthquake-specific object affordances. We fine-tune several LLaMa and Mistral instruction-tuned models and find that FRIDA models outperform their base models at a variety of sizes. We then run an ablation study to understand which kinds of synthetic data most affect performance and find that training physical state and object function common sense knowledge alone improves over FRIDA models trained on all data. We conclude that the FRIDA pipeline is capable of instilling general common sense, but needs to be augmented with information retrieval for specific domain knowledge.

arxiv情報

著者 Mollie Shichman,Claire Bonial,Austin Blodgett,Taylor Hudson,Francis Ferraro,Rachel Rudinger
発行日 2025-02-25 18:51:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | FRIDA to the Rescue! Analyzing Synthetic Data Effectiveness in Object-Based Common Sense Reasoning for Disaster Response はコメントを受け付けていません

Scalable Equilibrium Sampling with Sequential Boltzmann Generators

要約

熱力学的平衡における分子状態のスケーラブルなサンプリングは、統計物理学における長年の課題です。
Boltzmannジェネレーターは、強力な正規化フローと重要なサンプリングを組み合わせて、ターゲット分布の下で統計的に独立したサンプルを取得することにより、この問題に取り組みます。
このホワイトペーパーでは、Boltzmannジェネレーターフレームワークを拡張し、2つの重要な改善を伴うシーケンシャルボルツマンジェネレーター(SBG)を導入します。
1つ目は、全原子デカルト座標で直接動作する非常に効率的でない非識別変圧器ベースの正規化フローです。
以前の方法の同等の連続流とは対照的に、サンプル生成と尤度計算の両方で非常に効率的な、正確に反転可能な非等変量アーキテクチャを活用します。
その結果、これは標準的な重要性サンプリングを超えて、より洗練された推論戦略のロックを解除します。
より正確には、2番目の重要な改善として、アニールされたLangevinダイナミクスを使用してフローサンプルの推論時間スケーリングを実行し、ターゲット分布に向けてサンプルを輸送し、より低い忠実度のモンテカルロでのより高い忠実度の再サンプリングを可能にします。
SBGは最先端のパフォーマンスW.R.T.
分子系のすべてのメトリックは、以前のボルツマン発電機にとってこれまでに扱いにくいTRI、TETRA、およびヘキサペプチドのデカルト座標における最初の平衡サンプリングを実証しています。

要約(オリジナル)

Scalable sampling of molecular states in thermodynamic equilibrium is a long-standing challenge in statistical physics. Boltzmann generators tackle this problem by pairing powerful normalizing flows with importance sampling to obtain statistically independent samples under the target distribution. In this paper, we extend the Boltzmann generator framework and introduce Sequential Boltzmann generators (SBG) with two key improvements. The first is a highly efficient non-equivariant Transformer-based normalizing flow operating directly on all-atom Cartesian coordinates. In contrast to equivariant continuous flows of prior methods, we leverage exactly invertible non-equivariant architectures which are highly efficient both during sample generation and likelihood computation. As a result, this unlocks more sophisticated inference strategies beyond standard importance sampling. More precisely, as a second key improvement we perform inference-time scaling of flow samples using annealed Langevin dynamics which transports samples toward the target distribution leading to lower variance (annealed) importance weights which enable higher fidelity resampling with sequential Monte Carlo. SBG achieves state-of-the-art performance w.r.t. all metrics on molecular systems, demonstrating the first equilibrium sampling in Cartesian coordinates of tri, tetra, and hexapeptides that were so far intractable for prior Boltzmann generators.

arxiv情報

著者 Charlie B. Tan,Avishek Joey Bose,Chen Lin,Leon Klein,Michael M. Bronstein,Alexander Tong
発行日 2025-02-25 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Scalable Equilibrium Sampling with Sequential Boltzmann Generators はコメントを受け付けていません

SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

要約

大規模なモデルには、二次時間の複雑さがあるため、効率的な注意実装が不可欠です。
幸いなことに、注意は一般的にスパース性を示します。つまり、注意マップの多くの値はゼロに近く、対応する計算を省略します。
多くの研究では、注意を促すためにまばらなパターンを利用しています。
ただし、ほとんどの既存の作品は、注意マップの特定のまばらなパターンを活用することにより、特定のモデル内で注意を最適化することに焦点を当てています。
多様なモデルのスピードアップとエンドツーエンドのパフォーマンスの両方を保証する普遍的なまばらな注意は、とらえどころのないままです。
この論文では、あらゆるモデルの普遍的なまばらで量子化された注意であるSpargeattnを提案します。
私たちの方法では、2段階のオンラインフィルターを使用しています。最初の段階では、注意マップを迅速かつ正確に予測し、いくつかのマトリックス乗算のスキップが注意を払うことを可能にします。
第2段階では、オーバーヘッドが追加されず、マトリックスの乗算をさらにスキップするオンラインソフトマックス認識フィルターを設計します。
実験では、この方法は、エンドツーエンドのメトリックを犠牲にすることなく、言語、画像、ビデオ生成を含む多様なモデルを大幅に加速することを示しています。
コードはhttps://github.com/thu-ml/spargeattnで入手できます。

要約(オリジナル)

An efficient attention implementation is essential for large models due to its quadratic time complexity. Fortunately, attention commonly exhibits sparsity, i.e., many values in the attention map are near zero, allowing for the omission of corresponding computations. Many studies have utilized the sparse pattern to accelerate attention. However, most existing works focus on optimizing attention within specific models by exploiting certain sparse patterns of the attention map. A universal sparse attention that guarantees both the speedup and end-to-end performance of diverse models remains elusive. In this paper, we propose SpargeAttn, a universal sparse and quantized attention for any model. Our method uses a two-stage online filter: in the first stage, we rapidly and accurately predict the attention map, enabling the skip of some matrix multiplications in attention. In the second stage, we design an online softmax-aware filter that incurs no extra overhead and further skips some matrix multiplications. Experiments show that our method significantly accelerates diverse models, including language, image, and video generation, without sacrificing end-to-end metrics. The codes are available at https://github.com/thu-ml/SpargeAttn.

arxiv情報

著者 Jintao Zhang,Chendong Xiang,Haofeng Huang,Jia Wei,Haocheng Xi,Jun Zhu,Jianfei Chen
発行日 2025-02-25 12:02:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.PF | SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference はコメントを受け付けていません

LightFC-X: Lightweight Convolutional Tracker for RGB-X Tracking

要約

マルチモーダルトラッキングの大きな進歩にもかかわらず、これらのトラッカーはリソースに制約のあるデバイスには重すぎて高価なままです。
この問題を軽減するために、軽量のマルチモーダル追跡のための統一された畳み込みアーキテクチャを探索する軽量畳み込みRGB-XトラッカーのファミリーであるLightFC-Xを提案します。
私たちの核となるアイデアは、軽量のクロスモーダルモデリングとマルチモーダル機能とターゲットの時空間的な外観の特徴の共同洗練を実現することです。
具体的には、新しい効率的なクロスアテナンスモジュール(ECAM)と、新しい時空テンプレート集約モジュール(STAM)を提案します。
ECAMは、わずか0.08mパラメーターを持つテンプレート検索領域統合機能の軽量のクロスモーダル相互作用を実現します。
STAMは、モジュールの微調整パラダイムを介して一時的な情報のモデルの利用を強化します。
包括的な実験は、LightFC-Xが最先端のパフォーマンスとパラメーター、パフォーマンス、速度の間の最適なバランスを達成することを示しています。
たとえば、LightFC-T-STは、SRおよびPRでCMDを4.3%および5.7%上回り、ラッシャーベンチマークでは、パラメーターの2.6倍の削減と2.7倍のスピードアップを達成します。
22 fpsの速度でCPUでリアルタイムで実行されます。
このコードは、https://github.com/liyunfenglyf/lightfc-xで入手できます。

要約(オリジナル)

Despite great progress in multimodal tracking, these trackers remain too heavy and expensive for resource-constrained devices. To alleviate this problem, we propose LightFC-X, a family of lightweight convolutional RGB-X trackers that explores a unified convolutional architecture for lightweight multimodal tracking. Our core idea is to achieve lightweight cross-modal modeling and joint refinement of the multimodal features and the spatiotemporal appearance features of the target. Specifically, we propose a novel efficient cross-attention module (ECAM) and a novel spatiotemporal template aggregation module (STAM). The ECAM achieves lightweight cross-modal interaction of template-search area integrated feature with only 0.08M parameters. The STAM enhances the model’s utilization of temporal information through module fine-tuning paradigm. Comprehensive experiments show that our LightFC-X achieves state-of-the-art performance and the optimal balance between parameters, performance, and speed. For example, LightFC-T-ST outperforms CMD by 4.3% and 5.7% in SR and PR on the LasHeR benchmark, which it achieves 2.6x reduction in parameters and 2.7x speedup. It runs in real-time on the CPU at a speed of 22 fps. The code is available at https://github.com/LiYunfengLYF/LightFC-X.

arxiv情報

著者 Yunfeng Li,Bo Wang,Ye Li
発行日 2025-02-25 12:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LightFC-X: Lightweight Convolutional Tracker for RGB-X Tracking はコメントを受け付けていません