GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration

要約

GPTQv2は、大規模変換器アーキテクチャを圧縮するための新しい微調整不要の量子化手法である。各層を独立に較正する従来のGPTQ法とは異なり、量子化された層の出力を常に全精度モデルの正確な出力に一致させることで、非対称較正と呼ぶ方式を実現する。このような方式は、前の層で蓄積された量子化誤差を効果的に減らすことができる。我々は最適脳圧縮を用いてこの問題を解析し、近い形の解を導出する。この新しい解は、量子化誤差だけでなく、蓄積された非対称誤差も明示的に最小化する。さらに、解の計算を並列化するために、チャネル並列化、ニューロン分解、行列融合のためのコレスキー再定式化など、様々な技術を利用する。その結果、GPTQv2は実装が容易で、GPTQより20行多いコードを使用するだけで、低ビット量子化での性能が向上しました。驚くべきことに、1つのGPUで405Bの言語変換器と、90%の事前学習Imagenet精度を達成したランクファーストビジョントランスフォーマーEVA-02を量子化することができます。コードはgithub.com/Intelligent-Computing-Lab-Yale/GPTQv2にあります。

要約(オリジナル)

We introduce GPTQv2, a novel finetuning-free quantization method for compressing large-scale transformer architectures. Unlike the previous GPTQ method, which independently calibrates each layer, we always match the quantized layer’s output to the exact output in the full-precision model, resulting in a scheme that we call asymmetric calibration. Such a scheme can effectively reduce the quantization error accumulated in previous layers. We analyze this problem using optimal brain compression to derive a close-formed solution. The new solution explicitly minimizes the quantization error as well as the accumulated asymmetry error. Furthermore, we utilize various techniques to parallelize the solution calculation, including channel parallelization, neuron decomposition, and Cholesky reformulation for matrix fusion. As a result, GPTQv2 is easy to implement, simply using 20 more lines of code than GPTQ but improving its performance under low-bit quantization. Remarkably, on a single GPU, we quantize a 405B language transformer as well as EVA-02 the rank first vision transformer that achieves 90% pretraining Imagenet accuracy. Code is available at github.com/Intelligent-Computing-Lab-Yale/GPTQv2.

arxiv情報

著者 Yuhang Li,Ruokai Yin,Donghyun Lee,Shiting Xiao,Priyadarshini Panda
発行日 2025-04-03 15:30:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Semiparametric Counterfactual Regression

要約

我々は反事実回帰を研究しており、これはデータで観察されたシナリオとは異なる仮想的なシナリオのもとで、入力特徴を結果に対応付けることを目的としている。これは、治療パターンの突然のシフトに適応することが不可欠な場合の意思決定に特に有用である。我々は、セミパラメトリック理論と確率最適化のツールを用いて、幅広いクラスのリスク関数と柔軟な制約に対応する一般化可能な枠組みの中で、反事実回帰のための二重にロバストなスタイルの推定量を提案する。我々のアプローチは、標準的な手法との整合性を維持しながら適応性を高めるために、漸進的な介入を用いる。目標とする推定量を確率最適化問題の最適解として定式化し、最新の最適化アルゴリズムの急速な発展を活用できる効率的な推定戦略を開発する。さらに、収束率を分析し、漸近分布の特徴を明らかにする。我々の解析は、提案する推定器が幅広いクラスの問題に対して$sqrt{n}$無矛盾性と漸近正規性を達成できることを示す。パラメトリックな収束率を維持しながら、未知の反事実シナリオに適応する有効性を数値図によって強調する。

要約(オリジナル)

We study counterfactual regression, which aims to map input features to outcomes under hypothetical scenarios that differ from those observed in the data. This is particularly useful for decision-making when adapting to sudden shifts in treatment patterns is essential. We propose a doubly robust-style estimator for counterfactual regression within a generalizable framework that accommodates a broad class of risk functions and flexible constraints, drawing on tools from semiparametric theory and stochastic optimization. Our approach uses incremental interventions to enhance adaptability while maintaining consistency with standard methods. We formulate the target estimand as the optimal solution to a stochastic optimization problem and develop an efficient estimation strategy, where we can leverage rapid development of modern optimization algorithms. We go on to analyze the rates of convergence and characterize the asymptotic distributions. Our analysis shows that the proposed estimators can achieve $\sqrt{n}$-consistency and asymptotic normality for a broad class of problems. Numerical illustrations highlight their effectiveness in adapting to unseen counterfactual scenarios while maintaining parametric convergence rates.

arxiv情報

著者 Kwangho Kim
発行日 2025-04-03 15:32:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ME, stat.ML | コメントする

Navigating in High-Dimensional Search Space: A Hierarchical Bayesian Optimization Approach

要約

高次元探索空間におけるブラックボックス関数の最適化は、従来のベイズ最適化(BO)では困難であることが知られている。本論文では、HiBOを紹介する。HiBOは、グローバルレベルの探索空間分割情報をローカルBOベースのオプティマイザの獲得戦略に統合する新しい階層的アルゴリズムである。HiBOは探索木をベースとしたグローバルレベルナビゲータを採用し、探索空間を異なるサンプリングポテンシャルを持つパーティションに適応的に分割する。そして、ローカル・オプティマイザは、このグローバルレベルの情報を利用して、探索空間内の最も有望な領域に向けて獲得戦略を導く。包括的な評価により、HiBOは高次元の合成ベンチマークにおいて最先端の手法を凌駕し、データベース管理システム(DBMS)の設定をチューニングする実世界のタスクにおいて重要な実用的効果を示すことが実証された。

要約(オリジナル)

Optimizing black-box functions in high-dimensional search spaces has been known to be challenging for traditional Bayesian Optimization (BO). In this paper, we introduce HiBO, a novel hierarchical algorithm integrating global-level search space partitioning information into the acquisition strategy of a local BO-based optimizer. HiBO employs a search-tree-based global-level navigator to adaptively split the search space into partitions with different sampling potential. The local optimizer then utilizes this global-level information to guide its acquisition strategy towards most promising regions within the search space. A comprehensive set of evaluations demonstrates that HiBO outperforms state-of-the-art methods in high-dimensional synthetic benchmarks and presents significant practical effectiveness in the real-world task of tuning configurations of database management systems (DBMSs).

arxiv情報

著者 Wenxuan Li,Taiyi Wang,Eiko Yoneki
発行日 2025-04-03 15:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

TinyML NLP Scheme for Semantic Wireless Sentiment Classification with Privacy Preservation

要約

セマンティック感情分析やテキスト合成などの自然言語処理(NLP)操作は、しばしばプライバシーの懸念を引き起こし、デバイス上で大きな計算リソースを必要とする。エッジでの集中学習(CL)はエネルギー効率の良い代替手段を提供するが、生データを収集する必要があり、ユーザーのプライバシーを損なう。統合学習(FL)はプライバシーを向上させるが、リソースに制約のあるデバイスに高い計算エネルギーを要求する。我々は、エネルギー効率に優れ、プライバシーを保持するタイニーマシンラーニング(TinyML)フレームワークとしてスプリットラーニング(SL)を導入し、レイリーフェージングと加法性ノイズの存在下でFLとCLと比較する。その結果、SLはFLと比較して再構成誤差が4倍、CLと比較して18倍近く増加することから明らかなように、プライバシーを向上させながら計算量とCO2排出量を大幅に削減できることが示された。対照的に、FLはプライバシーと効率の間でバランスの取れたトレードオフを提供する。本研究は、プライバシーを保護し、エネルギー効率に優れたNLPモデルをエッジデバイスに展開するための知見を提供する。

要約(オリジナル)

Natural Language Processing (NLP) operations, such as semantic sentiment analysis and text synthesis, often raise privacy concerns and demand significant on-device computational resources. Centralized Learning (CL) on the edge provides an energy-efficient alternative but requires collecting raw data, compromising user privacy. While Federated Learning (FL) enhances privacy, it imposes high computational energy demands on resource-constrained devices. We introduce Split Learning (SL) as an energy-efficient, privacy-preserving Tiny Machine Learning (TinyML) framework and compare it to FL and CL in the presence of Rayleigh fading and additive noise. Our results show that SL significantly reduces computational power and CO2 emissions while enhancing privacy, as evidenced by a fourfold increase in reconstruction error compared to FL and nearly eighteen times that of CL. In contrast, FL offers a balanced trade-off between privacy and efficiency. This study provides insights into deploying privacy-preserving, energy-efficient NLP models on edge devices.

arxiv情報

著者 Ahmed Y. Radwan,Mohammad Shehab,Mohamed-Slim Alouini
発行日 2025-04-03 15:49:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 68T50, 94A12, C.2.1, cs.CR, cs.IT, cs.LG, math.IT | コメントする

Reducing Reasoning Costs: The Path of Optimization for Chain of Thought via Sparse Attention Mechanism

要約

大規模言語モデルの推論コスト急増における思考連鎖に対処するため、本研究では、少数の関連するトークンのみに注目するスパースアテンションメカニズムの使用を提案する。研究者は新しい注意メカニズムを構築し、実験ツールとしてカスタムGPTで訓練したGiantRabbitを使用した。実験では、MIT OpenCourseWareの線形代数のテスト問題を解く際に、このモデルとo1プレビューの推論時間、正しさのスコア、思考の連鎖の長さをテストし、比較した。その結果、GiantRabbitの推論時間と思考連鎖長はo1 Previewよりも有意に短いことが示された。これは、思考連鎖推論を最適化するためのスパースアテンションメカニズムの実現可能性を検証するものである。詳細なアーキテクチャの詳細と実験過程はGithubにアップロードされている。リンクはhttps://github.com/brucewang123456789/GeniusTrail.git。

要約(オリジナル)

In order to address the chain of thought in the large language model inference cost surge, this research proposes to use a sparse attention mechanism that only focuses on a few relevant tokens. The researcher constructed a new attention mechanism and used GiantRabbit trained with custom GPTs as an experimental tool. The experiment tested and compared the reasoning time, correctness score and chain of thought length of this model and o1 Preview in solving the linear algebra test questions of MIT OpenCourseWare. The results show that GiantRabbit’s reasoning time and chain of thought length are significantly lower than o1 Preview. It verifies the feasibility of sparse attention mechanism for optimizing chain of thought reasoning. Detailed architectural details and experimental process have been uploaded to Github, the link is:https://github.com/brucewang123456789/GeniusTrail.git.

arxiv情報

著者 Libo Wang
発行日 2025-04-03 16:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Pushing the Limit of PPG Sensing in Sedentary Conditions by Addressing Poor Skin-sensor Contact

要約

光電式容積脈波(PPG)は、民生機器や医療機器において、心血管系の健康状態や様々な生理学的パラメータをモニタリングするために広く使用されている非侵襲的手法である。動的な環境ではモーションアーチファクトがよく知られた課題ですが、座っている状態では皮膚とセンサーの接触が最適でないため、PPG信号の形態が歪み、本質的な波形の特徴が失われたりシフトしたりして、センシング性能が低下します。この研究では、接触圧で歪んだPPG信号を理想的な形態を持つ信号に変換する新しいアプローチであるCP-PPGを提案します。CP-PPGには、新しいデータ収集アプローチ、よく練られた信号処理パイプライン、およびカスタムPPG認識損失関数で訓練された高度なディープ敵対モデルが組み込まれています。私たちは、1)私たちの自己収集データセット上の形態変換性能、2)公開データセット上の下流の生理学的モニタリング性能、3)野生の性能を含む包括的な評価を通じてCP-PPGを検証した。広範な実験により、心拍数(HR)、心拍変動(HRV)、呼吸数(RR)、血圧(BP)の推定において、信号の忠実度(平均絶対誤差:0.09、元の信号に対して40%の改善)だけでなく、ダウンストリームの性能も、すべての評価において実質的かつ一貫して改善されていることが実証されました(平均して、HRで21%、HRVで41~46%、RRで6%、BPで4~5%の改善)。これらの結果は、正確で信頼性の高いPPGベースの生理学的モニタリングのためには、皮膚とセンサーの接触問題を解決することが極めて重要であることを強調している。さらに、CP-PPGは、PPG信号品質を向上させるための汎用プラグインAPIとしての役割を果たすことができる。

要約(オリジナル)

Photoplethysmography (PPG) is a widely used non-invasive technique for monitoring cardiovascular health and various physiological parameters on consumer and medical devices. While motion artifacts are well-known challenges in dynamic settings, suboptimal skin-sensor contact in sedentary conditions – a critical issue often overlooked in existing literature – can distort PPG signal morphology, leading to the loss or shift of essential waveform features and therefore degrading sensing performance. In this work, we propose CP-PPG, a novel approach that transforms Contact Pressure-distorted PPG signals into ones with the ideal morphology. CP-PPG incorporates a novel data collection approach, a well-crafted signal processing pipeline, and an advanced deep adversarial model trained with a custom PPG-aware loss function. We validated CP-PPG through comprehensive evaluations, including 1) morphology transformation performance on our self-collected dataset, 2) downstream physiological monitoring performance on public datasets, and 3) in-the-wild performance. Extensive experiments demonstrate substantial and consistent improvements in signal fidelity (Mean Absolute Error: 0.09, 40% improvement over the original signal) as well as downstream performance across all evaluations in Heart Rate (HR), Heart Rate Variability (HRV), Respiration Rate (RR), and Blood Pressure (BP) estimation (on average, 21% improvement in HR; 41-46% in HRV; 6% in RR; and 4-5% in BP). These findings highlight the critical importance of addressing skin-sensor contact issues for accurate and dependable PPG-based physiological monitoring. Furthermore, CP-PPG can serve as a generic, plug-in API to enhance PPG signal quality.

arxiv情報

著者 Manh Pham Hung,Matthew Yiwen Ho,Yiming Zhang,Dimitris Spathis,Aaqib Saeed,Dong Ma
発行日 2025-04-03 16:22:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.HC, cs.LG | コメントする

Atrial constitutive neural networks

要約

本研究では、構成的ニューラルネットワークを用いて心房組織の力学的挙動を特徴付ける新しいアプローチを提示する。健康なヒト心房の実験的二軸引張試験データに基づいて、最も適切な構成材料モデルを自動的に発見し、それによって従来のあらかじめ定義されたモデルの限界を克服する。このアプローチは心房力学のモデリングに新しい視点を提供し、心臓の健康状態のシミュレーションと予測を改善するための重要な一歩である。

要約(オリジナル)

This work presents a novel approach for characterizing the mechanical behavior of atrial tissue using constitutive neural networks. Based on experimental biaxial tensile test data of healthy human atria, we automatically discover the most appropriate constitutive material model, thereby overcoming the limitations of traditional, pre-defined models. This approach offers a new perspective on modeling atrial mechanics and is a significant step towards improved simulation and prediction of cardiac health.

arxiv情報

著者 Mathias Peirlinck,Kevin Linka,Ellen Kuhl
発行日 2025-04-03 16:35:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.soft, cs.CE, cs.LG, physics.med-ph, q-bio.TO | コメントする

Automated Video-EEG Analysis in Epilepsy Studies: Advances and Challenges

要約

てんかんは通常、脳波(EEG)と長期間のビデオEEG(vEEG)モニタリングによって診断される。vEEG記録を手作業で分析するのは時間がかかるため、発作検出のための自動化ツールが必要となる。最近の機械学習の進歩は、EEGやビデオデータを用いたリアルタイムの発作検出と予測に有望であることを示している。しかし、発作症状の多様性、マークアップの曖昧さ、マルチモーダルデータセットの限られた利用可能性が、進歩の妨げとなっている。本稿では、自動化されたビデオEEG解析の最新動向をレビューし、マルチモーダルデータの統合について議論する。また、概念に基づく学習を用いたvEEGデータからの治療効果推定のための新しいパイプラインを提案し、この領域における今後の研究の道筋を提示する。

要約(オリジナル)

Epilepsy is typically diagnosed through electroencephalography (EEG) and long-term video-EEG (vEEG) monitoring. The manual analysis of vEEG recordings is time-consuming, necessitating automated tools for seizure detection. Recent advancements in machine learning have shown promise in real-time seizure detection and prediction using EEG and video data. However, diversity of seizure symptoms, markup ambiguities, and limited availability of multimodal datasets hinder progress. This paper reviews the latest developments in automated video-EEG analysis and discusses the integration of multimodal data. We also propose a novel pipeline for treatment effect estimation from vEEG data using concept-based learning, offering a pathway for future research in this domain.

arxiv情報

著者 Valerii A. Zuev,Elena G. Salmagambetova,Stepan N. Djakov,Lev V. Utkin
発行日 2025-04-03 17:13:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.IV | コメントする

Quantum Generative Models for Image Generation: Insights from MNIST and MedMNIST

要約

量子生成モデルは、量子回路を活用してデータ生成能力を向上させることにより、機械学習における有望な新しい方向性を提供する。本研究では、変分量子回路を拡散ベースのモデルに統合したハイブリッド量子古典画像生成フレームワークを提案する。学習ダイナミクスと生成品質を向上させるために、2つの新しいノイズ戦略を導入する:内在する量子生成ノイズとテーラーメイドのノイズスケジューリング機構である。本手法は軽量なU-Netアーキテクチャ上に構築されており、量子層はその効果を分離するためにボトルネックモジュールに組み込まれている。MNISTデータセットとMedMNISTデータセットで我々のモデルを評価し、その実現可能性と性能を検証した。その結果、限られたデータ条件下(100枚以下の学習画像)では、量子モデルを用いた方が、同じアーキテクチャを用いた従来のモデルよりも、知覚品質と分布類似度が高い画像を生成できることが明らかになった。量子モデルはMNISTのようなグレースケールのデータでは優位性を示すが、PathMNISTのような複雑で色彩豊かなデータセットでは、その性能はより微妙なものとなる。これらの結果は、量子生成モデルの潜在的な可能性と現在の限界を浮き彫りにし、低リソース画像生成やバイオメディカル画像生成における今後の開発の基礎を築くものである。

要約(オリジナル)

Quantum generative models offer a promising new direction in machine learning by leveraging quantum circuits to enhance data generation capabilities. In this study, we propose a hybrid quantum-classical image generation framework that integrates variational quantum circuits into a diffusion-based model. To improve training dynamics and generation quality, we introduce two novel noise strategies: intrinsic quantum-generated noise and a tailored noise scheduling mechanism. Our method is built upon a lightweight U-Net architecture, with the quantum layer embedded in the bottleneck module to isolate its effect. We evaluate our model on MNIST and MedMNIST datasets to examine its feasibility and performance. Notably, our results reveal that under limited data conditions (fewer than 100 training images), the quantum-enhanced model generates images with higher perceptual quality and distributional similarity than its classical counterpart using the same architecture. While the quantum model shows advantages on grayscale data such as MNIST, its performance is more nuanced on complex, color-rich datasets like PathMNIST. These findings highlight both the potential and current limitations of quantum generative models and lay the groundwork for future developments in low-resource and biomedical image generation.

arxiv情報

著者 Chi-Sheng Chen,Wei An Hou,Hsiang-Wei Hu,Zhen-Sheng Cai
発行日 2025-04-03 17:40:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, quant-ph | コメントする

ADO-LLM: Analog Design Bayesian Optimization with In-Context Learning of Large Language Models

要約

アナログ回路設計には、人的な専門知識と関与が不可欠であり、これが設計の生産性を大きく阻害している。ベイズ最適化(BO)は、機械学習をベースとした一般的な最適化戦略であり、さまざまな回路トポロジーや技術に適用できることから、アナログ設計の自動化に活用されてきた。従来のBO手法は、ブラックボックスのガウス過程代用モデルと最適化されたラベル付きデータ・クエリを採用し、探索と利用をトレードオフすることで最適化ソリューションを見つける。しかし、BOにおける最適設計解の探索は、特に高次元の最適化問題では、計算量とデータ使用量の両方の観点から高くつく可能性がある。本稿では、アナログ設計最適化のために大規模言語モデル(LLM)とベイズ最適化を統合した最初の研究であるADO-LLMを紹介する。ADO-LLMは、BOの確率的サロゲートモデルがカバーする限られた設計空間の下で、特に価値の高い設計領域を見つけるというBOの非効率性を改善するために、ドメイン知識を注入して実行可能な設計点を迅速に生成するLLMの能力を活用する。一方、反復的なBOプロセスで評価された設計点のサンプリングは、注入された広範な設計知識を活用しながら、LLMが高品質の設計点を生成するための品質実証を提供します。さらに、BOの探索によってもたらされる多様性は、LLMの文脈理解を豊かにし、LLMが設計空間をより広く探索し、反復的で冗長な提案を防ぐことを可能にする。提案するフレームワークを2つの異なるタイプのアナログ回路で評価し、設計効率と効果の顕著な改善を実証する。

要約(オリジナル)

Analog circuit design requires substantial human expertise and involvement, which is a significant roadblock to design productivity. Bayesian Optimization (BO), a popular machine learning based optimization strategy, has been leveraged to automate analog design given its applicability across various circuit topologies and technologies. Traditional BO methods employ black box Gaussian Process surrogate models and optimized labeled data queries to find optimization solutions by trading off between exploration and exploitation. However, the search for the optimal design solution in BO can be expensive from both a computational and data usage point of view, particularly for high dimensional optimization problems. This paper presents ADO-LLM, the first work integrating large language models (LLMs) with Bayesian Optimization for analog design optimization. ADO-LLM leverages the LLM’s ability to infuse domain knowledge to rapidly generate viable design points to remedy BO’s inefficiency in finding high value design areas specifically under the limited design space coverage of the BO’s probabilistic surrogate model. In the meantime, sampling of design points evaluated in the iterative BO process provides quality demonstrations for the LLM to generate high quality design points while leveraging infused broad design knowledge. Furthermore, the diversity brought by BO’s exploration enriches the contextual understanding of the LLM and allows it to more broadly search in the design space and prevent repetitive and redundant suggestions. We evaluate the proposed framework on two different types of analog circuits and demonstrate notable improvements in design efficiency and effectiveness.

arxiv情報

著者 Yuxuan Yin,Yu Wang,Boxun Xu,Peng Li
発行日 2025-04-03 17:40:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする