WIP: Large Language Model-Enhanced Smart Tutor for Undergraduate Circuit Analysis

要約

この研究から実用的な作業中(WIP)ペーパーでは、学部巡回区分析コースの学生に宿題の評価とフィードバックを提供するように設計されたAI対応のスマートチューターを紹介します。
家庭教師の設計哲学と、自由回答形式の質問応答や宿題のフィードバック生成など、コアコンポーネントについて詳しく説明します。
プロンプトは、さまざまな問題にわたって応答を最適化するために慎重に作成されています。
スマートチューターはMicrosoft Azureプラットフォームに展開され、現在、米国南東部の大規模で公的な研究集約型の機関にある電気およびコンピューター工学部の学部巡回分析コースで使用されています。
パーソナライズされた指導とフィードバックを提供するだけでなく、家庭教師は学生の相互作用データを収集します。これは要約され、コースインストラクターと共有されます。
その有効性を評価するために、学生のフィードバックを収集し、90.9%の回答が家庭教師に対する満足度を示しています。
さらに、予備回路分析のトピックに関する収集されたデータのサブセットを分析して、各問題のチューターの使用頻度を評価し、よくある質問を特定します。
これらの洞察は、インストラクターが学生の困難をリアルタイムで認識し、よりターゲットを絞った教室での指導を可能にするのに役立ちます。
将来の作業では、2025年春の学期以降に完全なデータセットが利用可能になったら、完全な分析をリリースします。
また、改善されたプロンプト、図認識方法、およびデータベース管理戦略を開発することにより、このスマートチューターの潜在的なアプリケーションを、より広範なエンジニアリング分野にまたがる潜在的なアプリケーションを調査します。

要約(オリジナル)

This research-to-practice work-in-progress (WIP) paper presents an AI-enabled smart tutor designed to provide homework assessment and feedback for students in an undergraduate circuit analysis course. We detail the tutor’s design philosophy and core components, including open-ended question answering and homework feedback generation. The prompts are carefully crafted to optimize responses across different problems. The smart tutor was deployed on the Microsoft Azure platform and is currently in use in an undergraduate circuit analysis course at the School of Electrical and Computer Engineering in a large, public, research-intensive institution in the Southeastern United States. Beyond offering personalized instruction and feedback, the tutor collects student interaction data, which is summarized and shared with the course instructor. To evaluate its effectiveness, we collected student feedback, with 90.9% of responses indicating satisfaction with the tutor. Additionally, we analyze a subset of collected data on preliminary circuit analysis topics to assess tutor usage frequency for each problem and identify frequently asked questions. These insights help instructors gain real-time awareness of student difficulties, enabling more targeted classroom instruction. In future work, we will release a full analysis once the complete dataset is available after the Spring 2025 semester. We also explore the potential applications of this smart tutor across a broader range of engineering disciplines by developing improved prompts, diagram-recognition methods, and database management strategies, which remain ongoing areas of research.

arxiv情報

著者 Liangliang Chen,Huiru Xie,Jacqueline Rohde,Ying Zhang
発行日 2025-06-10 16:35:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC | WIP: Large Language Model-Enhanced Smart Tutor for Undergraduate Circuit Analysis はコメントを受け付けていません

Evaluating Generative Vehicle Trajectory Models for Traffic Intersection Dynamics

要約

都市部の道路ネットワークは、人と商品の動きを規制するため、都市の道路ネットワークには交通の交差点が不可欠です。
しかし、それらは矛盾する軌跡の領域であり、事故を起こしやすいです。
信号化された交差点でのトラフィックダイナミクスの深い生成モデルは、交通当局が効率と安全性の側面をよりよく理解するのに大いに役立ちます。
現在、モデルは主に軌道再構成エラーを見る計算メトリックで評価されています。
それらは、「ライブ」マイクロシミュレーションシナリオでオンラインで評価されていません。
さらに、これらのメトリックは、レッドライト違反、許可されていない停止などのトラフィックエンジニアリング固有の懸念を適切に考慮していません。この作業では、交通工学の観点からモデルパフォーマンスに関するより良い洞察を提供するメトリックを訓練、実行、評価する包括的な分析ツールを提供します。
現実世界の都市交差点のキャリブレーションされたシナリオを実行することによって収集された大きなデータセットで、最先端のマルチビークル軌道予測モデルを訓練します。
次に、目に見えない交通条件の下で、マイクロシミュレータでオンラインで予測モデルのパフォーマンスを評価します。
理想的に避難した軌跡を入力として使用し、低い軌跡の再構成エラーを達成したにもかかわらず、生成された軌道はトラフィックルールを破る動作を示すことを示します。
このような望ましくない行動を評価し、結果を提示するための新しいメトリックを紹介します。

要約(オリジナル)

Traffic Intersections are vital to urban road networks as they regulate the movement of people and goods. However, they are regions of conflicting trajectories and are prone to accidents. Deep Generative models of traffic dynamics at signalized intersections can greatly help traffic authorities better understand the efficiency and safety aspects. At present, models are evaluated on computational metrics that primarily look at trajectory reconstruction errors. They are not evaluated online in a `live’ microsimulation scenario. Further, these metrics do not adequately consider traffic engineering-specific concerns such as red-light violations, unallowed stoppage, etc. In this work, we provide a comprehensive analytics tool to train, run, and evaluate models with metrics that give better insights into model performance from a traffic engineering point of view. We train a state-of-the-art multi-vehicle trajectory forecasting model on a large dataset collected by running a calibrated scenario of a real-world urban intersection. We then evaluate the performance of the prediction models, online in a microsimulator, under unseen traffic conditions. We show that despite using ideally-behaved trajectories as input, and achieving low trajectory reconstruction errors, the generated trajectories show behaviors that break traffic rules. We introduce new metrics to evaluate such undesired behaviors and present our results.

arxiv情報

著者 Yash Ranjan,Rahul Sengupta,Anand Rangarajan,Sanjay Ranka
発行日 2025-06-10 16:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Evaluating Generative Vehicle Trajectory Models for Traffic Intersection Dynamics はコメントを受け付けていません

GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO

要約

少ないショットデータで高性能の報酬モデルをトレーニングする機能は、人間のフィードバック(RLHF)からの強化学習の効率とスケーラビリティを高めるために重要です。
小さなデータセットでトレーニングされた生成報酬モデルを可能にして、大規模なデータセットでトレーニングされたものと同等のパフォーマンスを実現できるデータの増強と拡張フレームワークを提案します。
直接選好最適化(DPO)などの生成報酬モデルをトレーニングする従来の方法は、サンプルペアリングの非効率性と限られたデータの多様性によって制約されます。
この作業では、優先順位の改良性が導入されます。これは、さまざまな高品質の優先関係を明らかにするために、考え方(COT)サンプリングを採用しています。
また、微妙な優先レベルを割り当てるための困惑ベースのスコアリングメカニズムを組み込み、マルチレベルの直接選好最適化(M-DPO)を利用して、モデルがサンプル間のより細かい優先嗜好の違いをキャプチャできるようにします。
実験結果は、提案された方法がデータの効率とモデルのパフォーマンスを大幅に向上させ、いくつかのショット設定でトレーニングされた報酬モデルを可能にして、大規模なデータセットでトレーニングされたものと同等の結果を達成できることを示しています。
この研究では、報酬モデルの最適化を進めるためのデータ効率の高い戦略の可能性を強調し、低リソースのRLHFアプリケーションに堅牢なソリューションを提供します。

要約(オリジナル)

The ability to train high-performing reward models with few-shot data is critical for enhancing the efficiency and scalability of Reinforcement Learning from Human Feedback (RLHF). We propose a data augmentation and expansion framework that enables generative reward models trained on small datasets to achieve comparable performance to those trained on large-scale datasets. Traditional methods to train a generative reward model, such as Direct Preference Optimization (DPO), are constrained by inefficiencies in sample pairing and limited data diversity. This work introduces preference refinement, which employs Chain-of-Thought (CoT) sampling to uncover diverse and high-quality preference relationships. It also incorporates a perplexity-based scoring mechanism to assign nuanced preference levels and utilizes Multi-level Direct Preference Optimization (M-DPO) to enable the model to capture finer-grained preference differences between samples. Experimental results demonstrate that the proposed method significantly enhances data efficiency and model performance, enabling reward models trained in a few-shot setting to achieve results on par with those trained on large-scale datasets. This study underscores the potential of data-efficient strategies in advancing reward model optimization, offering a robust solution for low-resource RLHF applications.

arxiv情報

著者 Yiyang Zhao,Huiyu Bai,Xuejiao Zhao
発行日 2025-06-10 16:37:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | GFRIEND: Generative Few-shot Reward Inference through EfficieNt DPO はコメントを受け付けていません

On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion

要約

ナレッジグラフ埋め込み(KGE)モデルは、知識グラフの完了のために広く研究されていますが、その評価は非現実的なベンチマークによって制約されたままです。
標準的な評価メトリックは、閉鎖された世界の仮定に依存しており、これは、リンク予測の基本的な目標と矛盾するトリプルの欠落を正しく予測するためにモデルを罰します。
これらのメトリックは、多くの場合、精度評価を単一の値に圧縮し、モデルの特定の長所と短所を不明瞭にします。
一般的な評価プロトコルであるリンク予測は、値を予測するエンティティのプロパティが事前に知られているという非現実的な仮定の下で動作します。
プロパティ予測、エンティティペアのランキング、トリプル分類などの代替プロトコルは、これらの制限の一部に対応していますが、それらは十分に活用されていません。
さらに、一般的に使用されるデータセットは、実際のデータを反映するには障害があるか、小さすぎます。
n ary関係のモデル化やドメイン全体のモデルパフォーマンスの変動を調査するために不可欠なメディエーターノードの役割を調べる研究はほとんどありません。
このペーパーでは、大規模なデータセットFB-CVT-REVおよびFB+CVT-REVで4つの代表的なKGEモデルの包括的な評価を実施します。
私たちの分析では、相対的なランキングと絶対的なメトリックの両方で、小規模および大規模なデータセット間の実質的なパフォーマンスの変動、n-ary関係が二層化されている場合のモデル能力の体系的な過大評価、および現在の評価プロトコルと指標の基本的な制限など、重要な洞察を明らかにしています。

要約(オリジナル)

Knowledge graph embedding (KGE) models are extensively studied for knowledge graph completion, yet their evaluation remains constrained by unrealistic benchmarks. Standard evaluation metrics rely on the closed-world assumption, which penalizes models for correctly predicting missing triples, contradicting the fundamental goals of link prediction. These metrics often compress accuracy assessment into a single value, obscuring models’ specific strengths and weaknesses. The prevailing evaluation protocol, link prediction, operates under the unrealistic assumption that an entity’s properties, for which values are to be predicted, are known in advance. While alternative protocols such as property prediction, entity-pair ranking, and triple classification address some of these limitations, they remain underutilized. Moreover, commonly used datasets are either faulty or too small to reflect real-world data. Few studies examine the role of mediator nodes, which are essential for modeling n-ary relationships, or investigate model performance variation across domains. This paper conducts a comprehensive evaluation of four representative KGE models on large-scale datasets FB-CVT-REV and FB+CVT-REV. Our analysis reveals critical insights, including substantial performance variations between small and large datasets, both in relative rankings and absolute metrics, systematic overestimation of model capabilities when n-ary relations are binarized, and fundamental limitations in current evaluation protocols and metrics.

arxiv情報

著者 Nasim Shirvani-Mahdavi,Farahnaz Akrami,Chengkai Li
発行日 2025-06-10 16:38:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | On Large-scale Evaluation of Embedding Models for Knowledge Graph Completion はコメントを受け付けていません

Calibrated Physics-Informed Uncertainty Quantification

要約

複雑な物理システムをシミュレートすることは、流体のダイナミクスや熱伝達、プラズマ物理学や構造力学など、さまざまなフィールド全体の現象を理解し、予測するために重要です。
従来のアプローチは、数値的手法を使用して部分微分方程式(PDE)を解くことに依存しています。これらは計算高価であり、多くの場合、リアルタイムアプリケーションや大規模なシミュレーションでは非常に遅くなります。
ニューラルPDEは、これらの費用のかかる数値ソルバーの効率的な代替品として浮上しており、重要な計算速度を提供しています。
ただし、堅牢な不確実性の定量化(UQ)の欠如は、重要なアプリケーションでの展開を制限します。
ラベル付きデータを必要とせずに保証された不確実性の推定値を提供するモデルに依存しない物理学に基づいたコンフォーマル予測(CP)フレームワークを導入します。
物理ベースのアプローチを利用することにより、データから生じる不確実性ではなく、物理学とのモデルの矛盾を定量化して調整できます。
私たちのアプローチは、畳み込み層を有限差ステンシルとして利用し、物理学の残留エラーを不適合スコアとしてレバレッジし、さまざまな複雑なPDEの予測ドメイン全体で限界および関節のカバレッジ保証を備えたデータフリーUQを可能にします。
さらに、融合反応器の血漿モデリングとショット設計の神経PDEモデルでの方法の有効性を検証します。

要約(オリジナル)

Simulating complex physical systems is crucial for understanding and predicting phenomena across diverse fields, such as fluid dynamics and heat transfer, as well as plasma physics and structural mechanics. Traditional approaches rely on solving partial differential equations (PDEs) using numerical methods, which are computationally expensive and often prohibitively slow for real-time applications or large-scale simulations. Neural PDEs have emerged as efficient alternatives to these costly numerical solvers, offering significant computational speed-ups. However, their lack of robust uncertainty quantification (UQ) limits deployment in critical applications. We introduce a model-agnostic, physics-informed conformal prediction (CP) framework that provides guaranteed uncertainty estimates without requiring labelled data. By utilising a physics-based approach, we can quantify and calibrate the model’s inconsistencies with the physics rather than the uncertainty arising from the data. Our approach utilises convolutional layers as finite-difference stencils and leverages physics residual errors as nonconformity scores, enabling data-free UQ with marginal and joint coverage guarantees across prediction domains for a range of complex PDEs. We further validate the efficacy of our method on neural PDE models for plasma modelling and shot design in fusion reactors.

arxiv情報

著者 Vignesh Gopakumar,Ander Gray,Lorenzo Zanisi,Timothy Nunn,Daniel Giles,Matt J. Kusner,Stanislas Pamela,Marc Peter Deisenroth
発行日 2025-06-10 16:38:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.comp-ph | Calibrated Physics-Informed Uncertainty Quantification はコメントを受け付けていません

A Survey of Link Prediction in N-ary Knowledge Graphs

要約

n-ary Knowledgeグラフ(NKG)は、複雑な実世界の事実を効率的に表すように設計された特殊なタイプの知識グラフです。
通常、事実が2つのエンティティを含む従来の知識グラフとは異なり、NKGは2つ以上のエンティティを含むn-aryの事実をキャプチャできます。
NKGSのリンク予測は、これらのn-aryの事実内で欠落している要素を予測することを目的としています。これは、NKGSを完了し、ダウンストリームアプリケーションのパフォーマンスを改善するために不可欠です。
このタスクは最近、大きな注目を集めています。
この論文では、NKGSのリンク予測に関する最初の包括的な調査を紹介し、フィールドの概要を提供し、既存の方法を体系的に分類し、パフォーマンスとアプリケーションのシナリオを分析します。
また、将来の研究のための有望な方向性を概説します。

要約(オリジナル)

N-ary Knowledge Graphs (NKGs) are a specialized type of knowledge graph designed to efficiently represent complex real-world facts. Unlike traditional knowledge graphs, where a fact typically involves two entities, NKGs can capture n-ary facts containing more than two entities. Link prediction in NKGs aims to predict missing elements within these n-ary facts, which is essential for completing NKGs and improving the performance of downstream applications. This task has recently gained significant attention. In this paper, we present the first comprehensive survey of link prediction in NKGs, providing an overview of the field, systematically categorizing existing methods, and analyzing their performance and application scenarios. We also outline promising directions for future research.

arxiv情報

著者 Jiyao Wei,Saiping Guan,Da Li,Xiaolong Jin,Jiafeng Guo,Xueqi Cheng
発行日 2025-06-10 16:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A Survey of Link Prediction in N-ary Knowledge Graphs はコメントを受け付けていません

Tailored Architectures for Time Series Forecasting: Evaluating Deep Learning Models on Gaussian Process-Generated Data

要約

深い学習の開発により、順次データに固有の複雑な時間的依存性のより正確なモデリングを可能にすることにより、時系列予測が大幅に改善されました。
このようなモデルの有効性は、特定の現実世界のデータの限られたセットでしばしば実証されています。
これにより比較分析が可能ですが、個々のモデルのアーキテクチャの強みと特定のデータ特性がどのように整合するかをまだ示していません。
私たちの研究は、時系列の特性と特定のモデルの間の明確な接続を明らかにすることを目的としています。
ガウスプロセスを使用して生成された新しいデータセットを導入します。これは、モデル適応性のターゲット評価のための明確で既知の特性を表示するように特別に設計されています。
さらに、トレンドや定期的なパターンを含む多様な時間的ダイナミクスを処理するように調整されたモジュラーアーキテクチャを組み込んだ新しいモデルであるTimeFlexを提示します。
このモデルは、現在の最先端モデルと比較され、さまざまな時系列条件下でモデルのパフォーマンスをより深く理解しています。

要約(オリジナル)

Developments in Deep Learning have significantly improved time series forecasting by enabling more accurate modeling of complex temporal dependencies inherent in sequential data. The effectiveness of such models is often demonstrated on limited sets of specific real-world data. Although this allows for comparative analysis, it still does not demonstrate how specific data characteristics align with the architectural strengths of individual models. Our research aims at uncovering clear connections between time series characteristics and particular models. We introduce a novel dataset generated using Gaussian Processes, specifically designed to display distinct, known characteristics for targeted evaluations of model adaptability to them. Furthermore, we present TimeFlex, a new model that incorporates a modular architecture tailored to handle diverse temporal dynamics, including trends and periodic patterns. This model is compared to current state-of-the-art models, offering a deeper understanding of how models perform under varied time series conditions.

arxiv情報

著者 Victoria Hankemeier,Malte Schilling
発行日 2025-06-10 16:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Tailored Architectures for Time Series Forecasting: Evaluating Deep Learning Models on Gaussian Process-Generated Data はコメントを受け付けていません

Propositional Logic for Probing Generalization in Neural Networks

要約

ニューラルネットワークが象徴的なルールを獲得し、表現できる程度は、研究と議論の重要なトピックのままです。
現在の作業は、大規模な言語モデルの印象的な能力と、幅広い推論タスクでしばしば不適切な失敗に焦点を当てています。
この論文では、対照的に、命題論理に根ざした制御されたタスクにおける3つの重要な神経アーキテクチャ(変圧器、グラフ畳み込みネットワーク、LSTM)の一般化挙動を調査します。
このタスクでは、モデルが論理式の満足のいく割り当てを生成する必要があり、構成性を研究するための構造的で解釈可能な設定にします。
既存のデータセットのバランスの取れた拡張機能を導入して、表面的なパターンを排除し、目に見えない演算子の組み合わせでテストを可能にします。
このデータセットを使用して、3つのアーキテクチャがトレーニング分布を超えて一般化する能力を評価します。
すべてのモデルは分配的な分布を十分に発揮しますが、目に見えないパターン、特に否定を含むパターンへの一般化は依然として重要な課題であることがわかります。
構造バイアスが導入されていない限り、変圧器は否定組成を適用できません。
私たちの調査結果は、標準的なアーキテクチャが論理演算子の体系的な表現を学習する能力の持続的な制限を強調しており、堅牢なルールベースの推論をサポートするためのより強力な帰納的バイアスの必要性を示唆しています。

要約(オリジナル)

The extent to which neural networks are able to acquire and represent symbolic rules remains a key topic of research and debate. Much current work focuses on the impressive capabilities of large language models, as well as their often ill-understood failures on a wide range of reasoning tasks. In this paper, in contrast, we investigate the generalization behavior of three key neural architectures (Transformers, Graph Convolution Networks and LSTMs) in a controlled task rooted in propositional logic. The task requires models to generate satisfying assignments for logical formulas, making it a structured and interpretable setting for studying compositionality. We introduce a balanced extension of an existing dataset to eliminate superficial patterns and enable testing on unseen operator combinations. Using this dataset, we evaluate the ability of the three architectures to generalize beyond the training distribution. While all models perform well in-distribution, we find that generalization to unseen patterns, particularly those involving negation, remains a significant challenge. Transformers fail to apply negation compositionally, unless structural biases are introduced. Our findings highlight persistent limitations in the ability of standard architectures to learn systematic representations of logical operators, suggesting the need for stronger inductive biases to support robust rule-based reasoning.

arxiv情報

著者 Anna Langedijk,Jaap Jumelet,Willem Zuidema
発行日 2025-06-10 16:46:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Propositional Logic for Probing Generalization in Neural Networks はコメントを受け付けていません

DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、知識と生成能力が大幅に向上し、高品質のデータ合成のためにLLMを活用することに関心が高まっています。
ただし、特に構造化されたフォーマットデータのために、LLMSがターゲットデータ分布の限られた理解と迅速なエンジニアリングの複雑さのために、LLMSをプロンプトすることによる合成データ生成は依然として困難です。
これらの問題に対処するために、変分自動エンコーダー(VAE)に基づいた制御可能なデータ合成フレームワークであるDifflMを紹介します。これは、(1)拡散モデルをレバレッジして、学習した潜在分布の元の分布と形式構造のより多くの情報を予約し、(2)プラグアンドプレイの特徴的なインジェクションモデュールを介したLLMのジェネレーティブな客観からのターゲット分布知識の学習を隔離します。
VAEの潜在表現と実際のデータ分布との間に有意な矛盾が観察されたため、潜在的な拡散モジュールがフレームワークに導入され、完全に表現力のある潜在的な分布が学習されます。
構造化されたフォーマットデータ(つまり、表形式、コード、およびツールデータ)を使用した7つの実際のデータセットの評価は、DIFFLMが高品質のデータを生成し、ダウンストリームタスクのパフォーマンスを特定のケースで実際のデータのパフォーマンスを上回ることを示しています。
データとコードはhttps://github.com/bytedance/difflmで入手できます。

要約(オリジナル)

Recent advancements in large language models (LLMs) have significantly enhanced their knowledge and generative capabilities, leading to a surge of interest in leveraging LLMs for high-quality data synthesis. However, synthetic data generation via prompting LLMs remains challenging due to LLMs’ limited understanding of target data distributions and the complexity of prompt engineering, especially for structured formatted data. To address these issues, we introduce DiffLM, a controllable data synthesis framework based on variational autoencoder (VAE), which further (1) leverages diffusion models to reserve more information of original distribution and format structure in the learned latent distribution and (2) decouples the learning of target distribution knowledge from the LLM’s generative objectives via a plug-and-play latent feature injection module. As we observed significant discrepancies between the VAE’s latent representations and the real data distribution, the latent diffusion module is introduced into our framework to learn a fully expressive latent distribution. Evaluations on seven real-world datasets with structured formatted data (i.e., Tabular, Code, and Tool data) demonstrate that DiffLM generates high-quality data, with performance on downstream tasks surpassing that of real data by 2%-7% in certain cases. Data and code are available at https://github.com/bytedance/DiffLM.

arxiv情報

著者 Ying Zhou,Xinyao Wang,Yulei Niu,Yaojie Shen,Lexin Tang,Fan Chen,Ben He,Le Sun,Longyin Wen
発行日 2025-06-10 16:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | DiffLM: Controllable Synthetic Data Generation via Diffusion Language Models はコメントを受け付けていません

Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models

要約

状態空間モデル(SSM)は、一貫したメモリの使用と高性能のために、トランスの魅力的な代替品として浮上しています。
それにもかかわらず、クラウドサービスまたはリミテッドリソースデバイスでSSMをスケールアップすることは、そのストレージ要件と計算能力のために困難です。
これを克服するために、ビット幅データ形式が低いSSMを量子化すると、モデルのサイズを削減し、ハードウェアアクセラレーションから利益を得ることができます。
SSMは量子化によるエラーが発生しやすいため、最近の努力は、パフォーマンスを犠牲にすることなく、特定のモデルまたは効率のためにビット幅を最適化することに焦点を当てています。
ただし、大型バッチデコード速度を高めるためのW4A8や、単一のユーザーの短いプロンプトアプリケーションで生成速度を向上させるためのW4A16など、異なるシナリオには異なるビット幅構成が不可欠です。
この目的のために、Mamba1とMamba2の両方の骨格についてW8A8​​、W4A8、およびW4A16と互換性のあるQuamba2を提示し、さまざまなプラットフォームでのSSM展開の需要の増加に対処します。
SSMのチャネル順序の保存と活性化の持続性に基づいて、入力$ x $を選別およびクラスタリングすることにより、8ビットの線形再発の入力を量子化するオフラインアプローチを提案します。
SSM出力での計算不変性を確保するために、クラスタリングシーケンスに従って重みをオフラインで再配置します。
この実験では、Quamba2-8Bが2つの最先端のSSM量子化方法を上回り、それぞれ1.3 $ \ Times $および3 $ \ Times $のスピードアップを事前充填段階と生成段階で提供し、$ 1.6 \%$の精度の低下で4 $ \ Times $メモリ削減を提供することが示されています。
MMLUの評価は、フレームワークの一般化と堅牢性を示しています。
コードと量子化されたモデルは、https://github.com/enyac-group/quambaでリリースされます。

要約(オリジナル)

State Space Models (SSMs) are emerging as a compelling alternative to Transformers because of their consistent memory usage and high performance. Despite this, scaling up SSMs on cloud services or limited-resource devices is challenging due to their storage requirements and computational power. To overcome this, quantizing SSMs with low bit-width data formats can reduce model size and benefit from hardware acceleration. As SSMs are prone to quantization-induced errors, recent efforts have focused on optimizing a particular model or bit-width for efficiency without sacrificing performance. However, distinct bit-width configurations are essential for different scenarios, like W4A8 for boosting large-batch decoding speed, and W4A16 for enhancing generation speed in short prompt applications for a single user. To this end, we present Quamba2, compatible with W8A8, W4A8, and W4A16 for both Mamba1 and Mamba2 backbones, addressing the growing demand for SSM deployment on various platforms. Based on the channel order preserving and activation persistence of SSMs, we propose an offline approach to quantize inputs of a linear recurrence in 8-bit by sorting and clustering for input $x$, combined with a per-state-group quantization for input-dependent parameters $B$ and $C$. To ensure compute-invariance in the SSM output, we rearrange weights offline according to the clustering sequence. The experiments show that Quamba2-8B outperforms two state-of-the-art SSM quantization methods and delivers 1.3$\times$ and 3$\times$ speed-ups in the pre-filling and generation stages, respectively, while offering 4$\times$ memory reduction with only a $1.6\%$ average accuracy drop. The evaluation on MMLU shows the generalizability and robustness of our framework. The code and quantized models will be released at: https://github.com/enyac-group/Quamba.

arxiv情報

著者 Hung-Yueh Chiang,Chi-Chih Chang,Natalia Frumkin,Kai-Chiang Wu,Mohamed S. Abdelfattah,Diana Marculescu
発行日 2025-06-10 17:00:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PF | Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models はコメントを受け付けていません