Reservoir Computing: A New Paradigm for Neural Networks

要約

リザーバー・コンピューティングの文献レビュー。 人工知能が計算科学の一分野となる以前から、人類は人間の脳の活動を模倣しようとしてきた。1940年代初頭、純粋に数学的な概念として最初の人工ニューロンモデルが作られた。その後何年もかけて、神経科学とコンピューターサイエンスのアイデアが、現代のニューラルネットワークを開発するために使われた。これらのモデルへの関心は急速に高まったが、実用的なアプリケーションへの応用がうまくいかなかったため下火となり、2000年代後半にコンピューティングパワーの飛躍的な向上とともに再び高まった。特に自然言語処理の分野では、ディープニューラルネットワークを多用した最先端の音声認識などがある。 リカレント・ニューラル・ネットワーク(RNN)は、ネットワーク内にサイクルを持つニューラルネットワークの一種で、従来のニューラルネットの難点を悪化させている。収束が遅いため小規模なネットワークに限られること、リカレントダイナミクスのため勾配漸進法による学習が困難であることなどが、RNNの研究を妨げているが、生物学的な妥当性と単純な関数上の力学系をモデル化できる能力は、計算研究者にとって興味深いものである。 リザーバー・コンピューティングは、RNNが従来直面していたこれらの問題を解決するソリューションとして登場した。理論的に正しく、かつ計算速度が速いことが期待されるリザーバー・コンピューティングは、すでに自然言語処理、計算生物学、神経科学、ロボット工学、さらには物理学など、多くの分野で応用され、成功を収めている。このサーベイでは、従来のフィードフォワード・ニューラルネットワークとリカレント・ニューラルネットワークの歴史と魅力を探った後、この新しいリザーバー・コンピューティング・パラダイムの理論とモデルについて説明する。最後に、様々な科学分野でリザーバー・コンピューティングを使用した最近の論文をレビューする。

要約(オリジナル)

A Literature Review of Reservoir Computing. Even before Artificial Intelligence was its own field of computational science, humanity has tried to mimic the activity of the human brain. In the early 1940s the first artificial neuron models were created as purely mathematical concepts. Over the years, ideas from neuroscience and computer science were used to develop the modern Neural Network. The interest in these models rose quickly but fell when they failed to be successfully applied to practical applications, and rose again in the late 2000s with the drastic increase in computing power, notably in the field of natural language processing, for example with the state-of-the-art speech recognizer making heavy use of deep neural networks. Recurrent Neural Networks (RNNs), a class of neural networks with cycles in the network, exacerbates the difficulties of traditional neural nets. Slow convergence limiting the use to small networks, and difficulty to train through gradient-descent methods because of the recurrent dynamics have hindered research on RNNs, yet their biological plausibility and their capability to model dynamical systems over simple functions makes then interesting for computational researchers. Reservoir Computing emerges as a solution to these problems that RNNs traditionally face. Promising to be both theoretically sound and computationally fast, Reservoir Computing has already been applied successfully to numerous fields: natural language processing, computational biology and neuroscience, robotics, even physics. This survey will explore the history and appeal of both traditional feed-forward and recurrent neural networks, before describing the theory and models of this new reservoir computing paradigm. Finally recent papers using reservoir computing in a variety of scientific fields will be reviewed.

arxiv情報

著者 Felix Grezes
発行日 2025-04-03 14:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Reservoir Computing: A New Paradigm for Neural Networks はコメントを受け付けていません

A Dynamic, Ordinal Gaussian Process Item Response Theoretic Model

要約

社会科学者はしばしば、時間と共に変化する潜在特性を推定するために順序指標を使用することに関心がある。多くの場合、このような潜在特性と観測された指標との関係を記述する項目応答理論(IRT)モデルを用いて行われる。我々は、項目応答関数の形状に関する最小限の仮定を行うベイズ型ノンパラメトリックIRTの最近の進歩と、縦断的観測から潜在形質の動的構造を捕捉するガウス過程時系列法を組み合わせる。我々は、一般化された動的ガウス過程項目反応理論(GD-GPIRT)と、潜在形質と反応関数の両方を推定するためのマルコフ連鎖モンテカルロサンプリングアルゴリズムを提案する。動的IRTのベースラインに対するシミュレーション研究でGD-GPIRTを評価し、経済環境に関する世論や人工妊娠中絶議論に関する議会イデオロギーの評価など、様々な実質的研究に適用する。

要約(オリジナル)

Social scientists are often interested in using ordinal indicators to estimate latent traits that change over time. Frequently, this is done with item response theoretic (IRT) models that describe the relationship between those latent traits and observed indicators. We combine recent advances in Bayesian nonparametric IRT, which makes minimal assumptions on shapes of item response functions, and Gaussian process time series methods to capture dynamic structures in latent traits from longitudinal observations. We propose a generalized dynamic Gaussian process item response theory (GD-GPIRT) as well as a Markov chain Monte Carlo sampling algorithm for estimation of both latent traits and response functions. We evaluate GD-GPIRT in simulation studies against baselines in dynamic IRT, and apply it to various substantive studies, including assessing public opinions on economy environment and congressional ideology related to abortion debate.

arxiv情報

著者 Yehu Chen,Jacob Montgomery,Roman Garnett
発行日 2025-04-03 14:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ME | A Dynamic, Ordinal Gaussian Process Item Response Theoretic Model はコメントを受け付けていません

Solving the Paint Shop Problem with Flexible Management of Multi-Lane Buffers Using Reinforcement Learning and Action Masking

要約

ペイントショップの問題では、異なる色に割り当てられた車の順序のない入庫順序を、色の変更回数を最小にする目的で再シャッフルしなければならない。入庫順序を入れ替えるために、製造業者は先入れ先出しのマルチレーンバッファシステムを採用することができ、格納と取り出しの操作を可能にする。これまでのところ、先行研究は主に貪欲のような単純な決定ヒューリスティックや、単純化された問題変形に焦点をあてており、格納・取り出し操作を行う際に完全な柔軟性を与えることはできない。本研究では、保存と取り出しの操作を任意の順序で実行できる柔軟な問題変形に対して、色の変化を最小化する強化学習アプローチを提案する。貪欲な検索が最適であることを証明した後、アクションマスキングを用いてこの知見をモデルに組み込む。2〜8個のバッファレーンと5〜15色の色を持つ170個の問題インスタンスに基づく我々の評価は、我々のアプローチが、問題のサイズに依存して、既存の方法と比較して、かなりのマージンで色の変化を低減することを示している。さらに、異なるバッファサイズと不均衡な色分布に対する我々のアプローチの頑健性を示す。

要約(オリジナル)

In the paint shop problem, an unordered incoming sequence of cars assigned to different colors has to be reshuffled with the objective of minimizing the number of color changes. To reshuffle the incoming sequence, manufacturers can employ a first-in-first-out multi-lane buffer system allowing store and retrieve operations. So far, prior studies primarily focused on simple decision heuristics like greedy or simplified problem variants that do not allow full flexibility when performing store and retrieve operations. In this study, we propose a reinforcement learning approach to minimize color changes for the flexible problem variant, where store and retrieve operations can be performed in an arbitrary order. After proving that greedy retrieval is optimal, we incorporate this finding into the model using action masking. Our evaluation, based on 170 problem instances with 2-8 buffer lanes and 5-15 colors, shows that our approach reduces color changes compared to existing methods by considerable margins depending on the problem size. Furthermore, we demonstrate the robustness of our approach towards different buffer sizes and imbalanced color distributions.

arxiv情報

著者 Mirko Stappert,Bernhard Lutz,Janis Brammer,Dirk Neumann
発行日 2025-04-03 14:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC | Solving the Paint Shop Problem with Flexible Management of Multi-Lane Buffers Using Reinforcement Learning and Action Masking はコメントを受け付けていません

MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators

要約

膨大なパラメータを持つMoE(Mixture-of-Experts)モデルを効率的に展開するための重要なアプローチは量子化である。しかし、最先端のMoEモデルは、4ビット以下のような極端な量子化では無視できない精度の低下に悩まされる。この問題に対処するために、我々はMiLoを導入する。MiLoは、高度に量子化されたMoEを、低ランク補償器の混合で補強する新しい手法である。これらの補償器は、わずかな追加メモリしか消費しませんが、極端な量子化による精度損失を大幅に回復します。MiLoはまた、密と疎のハイブリッドアーキテクチャにより、MoEモデルが重みごとに特徴的な特性を示すことを特定し、精度のギャップを埋めるために反復最適化とともに適応的なランク選択ポリシーを採用しています。MiLoはキャリブレーションデータに依存しないため、キャリブレーションセットにオーバーフィットすることなく、異なるMoEモデルやデータセットに一般化することができます。3ビットのような極端な量子化によるハードウェアの非効率性を回避するため、MiLoはTensor Coreに適した3ビットカーネルを開発し、3ビット量子化MoEモデルで測定された待ち時間の高速化を可能にしています。我々の評価では、MiLoは様々なタスクにおいて、SoTA MoEモデルで既存の手法を凌駕しています。

要約(オリジナル)

A critical approach for efficiently deploying Mixture-of-Experts (MoE) models with massive parameters is quantization. However, state-of-the-art MoE models suffer from non-negligible accuracy loss with extreme quantization, such as under 4 bits. To address this, we introduce MiLo, a novel method that augments highly quantized MoEs with a mixture of low-rank compensators. These compensators consume only a small amount of additional memory but significantly recover accuracy loss from extreme quantization. MiLo also identifies that MoEmodels exhibit distinctive characteristics across weights due to their hybrid dense-sparse architectures, and employs adaptive rank selection policies along with iterative optimizations to close the accuracy gap. MiLo does not rely on calibration data, allowing it to generalize to different MoE models and datasets without overfitting to a calibration set. To avoid the hardware inefficiencies of extreme quantization, such as 3-bit, MiLo develops Tensor Core-friendly 3-bit kernels, enabling measured latency speedups on 3-bit quantized MoE models. Our evaluation shows that MiLo outperforms existing methods on SoTA MoE models across various tasks.

arxiv情報

著者 Beichen Huang,Yueming Yuan,Zelei Shao,Minjia Zhang
発行日 2025-04-03 14:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | MiLo: Efficient Quantized MoE Inference with Mixture of Low-Rank Compensators はコメントを受け付けていません

When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances

要約

最近の法規制により、説明可能で透明性の高い人工知能システムの必要性が強調され、説明可能な人工知能(XAI)分野への関心が高まっている。それにもかかわらず、説明手法を検証するための標準化された基準がないことが、信頼できるシステムを開発する上での大きな障害となっている。我々は、XAIにおいて重要でありながら見落とされがちな、説明の頑健性という側面を取り上げる。この目的のために、非逆的摂動に対するニューラルネットワークの説明の頑健性を分析する新しいアプローチを提案し、多様体仮説を活用して、観測されたデータ分布に似た新しい摂動データポイントを生成する。さらに、様々な説明を統合するためのアンサンブル手法を提示し、説明を統合することが、モデルの決定の理解と頑健性の評価の両方に有益であることを示す。我々の研究の目的は、モデルの説明の信頼性を評価するためのフレームワークを実務家に提供することである。表形式のデータセットに適用されたニューラルネットワークから得られる特徴量の実験結果は、実用的なアプリケーションにおける頑健な説明の重要性を強調している。

要約(オリジナル)

Recent legislative regulations have underlined the need for accountable and transparent artificial intelligence systems and have contributed to a growing interest in the Explainable Artificial Intelligence (XAI) field. Nonetheless, the lack of standardized criteria to validate explanation methodologies remains a major obstacle to developing trustworthy systems. We address a crucial yet often overlooked aspect of XAI, the robustness of explanations, which plays a central role in ensuring trust in both the system and the provided explanation. To this end, we propose a novel approach to analyse the robustness of neural network explanations to non-adversarial perturbations, leveraging the manifold hypothesis to produce new perturbed datapoints that resemble the observed data distribution. We additionally present an ensemble method to aggregate various explanations, showing how merging explanations can be beneficial for both understanding the model’s decision and evaluating the robustness. The aim of our work is to provide practitioners with a framework for evaluating the trustworthiness of model explanations. Experimental results on feature importances derived from neural networks applied to tabular datasets highlight the importance of robust explanations in practical applications.

arxiv情報

著者 Ilaria Vascotto,Alex Rodriguez,Alessandro Bonaita,Luca Bortolussi
発行日 2025-04-03 14:59:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | When Can You Trust Your Explanations? A Robustness Analysis on Feature Importances はコメントを受け付けていません

Integrating Human Knowledge Through Action Masking in Reinforcement Learning for Operations Research

要約

強化学習(RL)は、オペレーションズ・リサーチにおける問題に対処するための強力な手法を提供する。しかし、その実世界での応用は、ユーザーの受容と信頼の欠如のためにしばしば失敗する。可能な救済策は、人間の専門家の知識を取り入れることによって、管理者にRL方針を変更する可能性を提供することである。本研究では、アクションマスキングによって人間の知識を取り入れることの利点と注意点を分析する。アクションマスキングはこれまで無効なアクションを除外するために使用されてきたが、人間の専門知識を統合する能力はまだ未解明である。人間の知識はしばしばヒューリスティックに包含され、特定の状況において合理的で最適に近い行動を提案する。そのような行動を強制することで、モデルの決定を信頼する人間の作業員の信頼が高まるはずである。しかし、ヒューリスティックな行動を厳格に強制することは、ポリシーが優れた行動を探索することを制限し、それによって全体的なパフォーマンスの低下を招く可能性もある。我々は、異なる特徴を持つ3つの問題、すなわち、塗装工場のスケジューリング、ピーク負荷管理、および在庫管理に基づいて、アクションマスキングの効果を分析する。その結果、アクションマスキングを通じて人間の知識を取り入れることで、アクションマスキングなしで訓練された政策よりも大幅な改善を達成できることが実証された。さらに、アクションマスキングは、あるアクションが限られた回数しか実行できないような制約のあるアクション空間において、効果的なポリシーを学習するために極めて重要であることがわかった。最後に、アクションマスクが過度に制限的である場合、最適な結果が得られない可能性を強調する。

要約(オリジナル)

Reinforcement learning (RL) provides a powerful method to address problems in operations research. However, its real-world application often fails due to a lack of user acceptance and trust. A possible remedy is to provide managers with the possibility of altering the RL policy by incorporating human expert knowledge. In this study, we analyze the benefits and caveats of including human knowledge via action masking. While action masking has so far been used to exclude invalid actions, its ability to integrate human expertise remains underexplored. Human knowledge is often encapsulated in heuristics, which suggest reasonable, near-optimal actions in certain situations. Enforcing such actions should hence increase trust among the human workforce to rely on the model’s decisions. Yet, a strict enforcement of heuristic actions may also restrict the policy from exploring superior actions, thereby leading to overall lower performance. We analyze the effects of action masking based on three problems with different characteristics, namely, paint shop scheduling, peak load management, and inventory management. Our findings demonstrate that incorporating human knowledge through action masking can achieve substantial improvements over policies trained without action masking. In addition, we find that action masking is crucial for learning effective policies in constrained action spaces, where certain actions can only be performed a limited number of times. Finally, we highlight the potential for suboptimal outcomes when action masks are overly restrictive.

arxiv情報

著者 Mirko Stappert,Bernhard Lutz,Niklas Goby,Dirk Neumann
発行日 2025-04-03 15:00:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC | Integrating Human Knowledge Through Action Masking in Reinforcement Learning for Operations Research はコメントを受け付けていません

End-To-End Self-Tuning Self-Supervised Time Series Anomaly Detection

要約

時系列異常検出(TSAD)は、環境センサー、産業KPI、患者バイオマーカーなどのモニタリングなど、多くのアプリケーションに利用されている。TSADの2つの課題は、ラベル付けされたデータなしで、様々な異なるタイプの時系列異常(スパイク、不連続性、トレンドシフトなど)を検出できる、汎用性の高い教師なしモデルである。最新のニューラルネットワークは、複雑な時系列のモデル化において卓越した能力を持っている。特に自己教師ありモデルは、学習のために擬似的なアノマリーを作成するために、様々な補強を介して入力を変換することにより、教師なしTSADに取り組む。しかし、その性能は、実際には選択しにくいオーグメンテーションの選択に敏感であり、ラベルのないTSADのためのデータオーグメンテーションチューニングに関する文献は存在しない。我々の研究はこのギャップを埋めることを目的とする。我々はTSAのためのTSAPを「自動操縦(on autoPilot)」で導入する。それは、微分可能なオーグメンテーションアーキテクチャと、オーグメンテーションタイプとアノマリータイプの間の整合性を効果的に評価するための教師なし検証ロスである。ケーススタディでは、TSAPが(離散的な)オーグメンテーションタイプと関連する(連続的な)ハイパーパラメータを効果的に選択できることを示している。その結果、TSAPは、異なる異常タイプを示す多様なTSADタスクにおいて、SOTA自己教師モデルを含む確立されたベースラインを凌駕する。

要約(オリジナル)

Time series anomaly detection (TSAD) finds many applications such as monitoring environmental sensors, industry KPIs, patient biomarkers, etc. A two-fold challenge for TSAD is a versatile and unsupervised model that can detect various different types of time series anomalies (spikes, discontinuities, trend shifts, etc.) without any labeled data. Modern neural networks have outstanding ability in modeling complex time series. Self-supervised models in particular tackle unsupervised TSAD by transforming the input via various augmentations to create pseudo anomalies for training. However, their performance is sensitive to the choice of augmentation, which is hard to choose in practice, while there exists no effort in the literature on data augmentation tuning for TSAD without labels. Our work aims to fill this gap. We introduce TSAP for TSA ‘on autoPilot’, which can (self-)tune augmentation hyperparameters end-to-end. It stands on two key components: a differentiable augmentation architecture and an unsupervised validation loss to effectively assess the alignment between augmentation type and anomaly type. Case studies show TSAP’s ability to effectively select the (discrete) augmentation type and associated (continuous) hyperparameters. In turn, it outperforms established baselines, including SOTA self-supervised models, on diverse TSAD tasks exhibiting different anomaly types.

arxiv情報

著者 Boje Deforce,Meng-Chieh Lee,Bart Baesens,Estefanía Serral Asensio,Jaemin Yoo,Leman Akoglu
発行日 2025-04-03 15:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | End-To-End Self-Tuning Self-Supervised Time Series Anomaly Detection はコメントを受け付けていません

Compositionality Unlocks Deep Interpretable Models

要約

我々は$chi$-netを提案する。$chi$-netは、テンソルネットワークの構成的なマルチリニア構造と、ディープニューラルネットワークの表現力と効率性を組み合わせた、本質的に解釈可能なアーキテクチャである。chi$-netは、ベースラインと比較して、同等の精度を保持する。我々の新しい効率的な対角化アルゴリズムODTは、多層SVHNモデルの線形低ランク構造を明らかにする。我々はこれを、正式な重みベースの解釈可能性とモデル圧縮に向けて活用する。

要約(オリジナル)

We propose $\chi$-net, an intrinsically interpretable architecture combining the compositional multilinear structure of tensor networks with the expressivity and efficiency of deep neural networks. $\chi$-nets retain equal accuracy compared to their baseline counterparts. Our novel, efficient diagonalisation algorithm, ODT, reveals linear low-rank structure in a multilayer SVHN model. We leverage this toward formal weight-based interpretability and model compression.

arxiv情報

著者 Thomas Dooms,Ward Gauderis,Geraint A. Wiggins,Jose Oramas
発行日 2025-04-03 15:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Compositionality Unlocks Deep Interpretable Models はコメントを受け付けていません

Handover and SINR-Aware Path Optimization in 5G-UAV mmWave Communication using DRL

要約

無人航空機(UAV)が支援する次世代無線ネットワークの経路計画と最適化は、モビリティ管理、UAVの安全性とユビキタス接続の確保、特に道路峡谷や高層ビルが密集する都市環境において極めて重要である。通信ネットワークにおける経路最適化には、従来から統計的手法やモデルベース手法が用いられてきた。しかし、見通し線(LOS)、干渉、ハンドオーバー、信号対干渉・雑音比(SINR)などの動的なチャネル伝搬特性が経路最適化に含まれる場合、統計的およびモデルベースの経路計画ソリューションは、特にミリ波帯の動的かつ時間的に変化する無線チャネルに適応できないため、時代遅れになります。本論文では、UAV通信の4つの重要な側面を組み合わせた、UAV支援5G mmWave無線ネットワークにおける経路最適化のための、新しいモデルフリーのアクター・クリティック深層強化学習(AC-DRL)フレームワークを提案する:\このフレームワークは、UAV通信の4つの重要な側面:飛行時間、ハンドオーバー、接続性、SINR}を組み合わせたものである。我々は、gNBに接続されたUAVが、接続性と可能な限り高いSINRを維持しながら、gNBのハンドオーバーを最小限に抑え、最短時間で希望する目的地までの最適なパスを決定することを可能にするAC-RLエージェントを訓練します。このツールは、伝搬環境の3D画像を使用し、実際の伝搬環境に近いデータを提供します。シミュレーションの結果、我々のシステムは、他の選択されたRLアルゴリズムと比較して、高いSINRを追跡する優れた性能を有することが示された。

要約(オリジナル)

Path planning and optimization for unmanned aerial vehicles (UAVs)-assisted next-generation wireless networks is critical for mobility management and ensuring UAV safety and ubiquitous connectivity, especially in dense urban environments with street canyons and tall buildings. Traditional statistical and model-based techniques have been successfully used for path optimization in communication networks. However, when dynamic channel propagation characteristics such as line-of-sight (LOS), interference, handover, and signal-to-interference and noise ratio (SINR) are included in path optimization, statistical and model-based path planning solutions become obsolete since they cannot adapt to the dynamic and time-varying wireless channels, especially in the mmWave bands. In this paper, we propose a novel model-free actor-critic deep reinforcement learning (AC-DRL) framework for path optimization in UAV-assisted 5G mmWave wireless networks, which combines four important aspects of UAV communication: \textit{flight time, handover, connectivity and SINR}. We train an AC-RL agent that enables a UAV connected to a gNB to determine the optimal path to a desired destination in the shortest possible time with minimal gNB handover, while maintaining connectivity and the highest possible SINR. We train our model with data from a powerful ray tracing tool called Wireless InSite, which uses 3D images of the propagation environment and provides data that closely resembles the real propagation environment. The simulation results show that our system has superior performance in tracking high SINR compared to other selected RL algorithms.

arxiv情報

著者 Achilles Kiwanuka Machumilane,Alberto Gotta,Pietro Cassarà
発行日 2025-04-03 15:28:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, cs.NI, eess.SP | Handover and SINR-Aware Path Optimization in 5G-UAV mmWave Communication using DRL はコメントを受け付けていません

GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration

要約

GPTQv2は、大規模変換器アーキテクチャを圧縮するための新しい微調整不要の量子化手法である。各層を独立に較正する従来のGPTQ法とは異なり、量子化された層の出力を常に全精度モデルの正確な出力に一致させることで、非対称較正と呼ぶ方式を実現する。このような方式は、前の層で蓄積された量子化誤差を効果的に減らすことができる。我々は最適脳圧縮を用いてこの問題を解析し、近い形の解を導出する。この新しい解は、量子化誤差だけでなく、蓄積された非対称誤差も明示的に最小化する。さらに、解の計算を並列化するために、チャネル並列化、ニューロン分解、行列融合のためのコレスキー再定式化など、様々な技術を利用する。その結果、GPTQv2は実装が容易で、GPTQより20行多いコードを使用するだけで、低ビット量子化での性能が向上しました。驚くべきことに、1つのGPUで405Bの言語変換器と、90%の事前学習Imagenet精度を達成したランクファーストビジョントランスフォーマーEVA-02を量子化することができます。コードはgithub.com/Intelligent-Computing-Lab-Yale/GPTQv2にあります。

要約(オリジナル)

We introduce GPTQv2, a novel finetuning-free quantization method for compressing large-scale transformer architectures. Unlike the previous GPTQ method, which independently calibrates each layer, we always match the quantized layer’s output to the exact output in the full-precision model, resulting in a scheme that we call asymmetric calibration. Such a scheme can effectively reduce the quantization error accumulated in previous layers. We analyze this problem using optimal brain compression to derive a close-formed solution. The new solution explicitly minimizes the quantization error as well as the accumulated asymmetry error. Furthermore, we utilize various techniques to parallelize the solution calculation, including channel parallelization, neuron decomposition, and Cholesky reformulation for matrix fusion. As a result, GPTQv2 is easy to implement, simply using 20 more lines of code than GPTQ but improving its performance under low-bit quantization. Remarkably, on a single GPU, we quantize a 405B language transformer as well as EVA-02 the rank first vision transformer that achieves 90% pretraining Imagenet accuracy. Code is available at github.com/Intelligent-Computing-Lab-Yale/GPTQv2.

arxiv情報

著者 Yuhang Li,Ruokai Yin,Donghyun Lee,Shiting Xiao,Priyadarshini Panda
発行日 2025-04-03 15:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration はコメントを受け付けていません