Abstract, Align, Predict: Zero-Shot Stance Detection via Cognitive Inductive Reasoning

要約

Zero-Shot Stance Detection(ZSSD)は、以前に見えないターゲットに対するテキストのスタンスを特定することを目的としています。
人間の認知的推論に触発されて、私たちは認知誘導性推論フレームワーク(CIRF)を提案します。これは、非標識テキストから転送可能な推論スキーマを抽象化し、概念レベルのロジックとしてそれらをエンコードします。
これらのスキーマを入力引数と統合するために、ローカルおよびグローバルな推論構造を動的に整列させるスキーマ強化グラフカーネルモデル(SEGKM)を導入します。
SEMVAL-2016、広大な、およびCovid-19のスタンスのベンチマークでの実験は、CIRFが新しい最新の結果を確立し、それぞれ1.0、4.5、および3.3パーセントポイントで強いZSSDベースラインをMacro-F1で3.3パーセントポイント上回り、70 \%少ないラベル試験と同等の精度を達成することを示しています。
公開時に完全なコードをリリースします。

要約(オリジナル)

Zero-shot stance detection (ZSSD) aims to identify the stance of text toward previously unseen targets, a setting where conventional supervised models often fail due to reliance on labeled data and shallow lexical cues. Inspired by human cognitive reasoning, we propose the Cognitive Inductive Reasoning Framework (CIRF), which abstracts transferable reasoning schemas from unlabeled text and encodes them as concept-level logic. To integrate these schemas with input arguments, we introduce a Schema-Enhanced Graph Kernel Model (SEGKM) that dynamically aligns local and global reasoning structures. Experiments on SemEval-2016, VAST, and COVID-19-Stance benchmarks show that CIRF establishes new state-of-the-art results, outperforming strong ZSSD baselines by 1.0, 4.5, and 3.3 percentage points in macro-F1, respectively, and achieving comparable accuracy with 70\% fewer labeled examples. We will release the full code upon publication.

arxiv情報

著者 Jun Ma,Fuqiang Niu,Dong Li,Jinzhou Cao,Genan Dai,Bowen Zhang
発行日 2025-06-16 13:28:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, I.2.6, I.2.7 | Abstract, Align, Predict: Zero-Shot Stance Detection via Cognitive Inductive Reasoning はコメントを受け付けていません

ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language Models

要約

量子化は、大規模な言語モデル(LLM)のメモリ要件を減らすための効果的な手法として広く研究されており、潜在的に遅延時間を改善しています。
変圧器の回転不変性の特性を利用して、回転ベースの顕著性対応体重量子化(Rosaq)を提案します。これは、投影された「主要な」寸法が自然に「顕著な」特徴と見なされる元の特徴空間ではなく、投影機能空間で顕著なチャネルを識別します。
提案されたRosaqは、1)PCAベースの投影で構成されており、最初にキャリブレーションセットで主成分分析(PCA)を実行し、PCAプロジェクション、2)Salient Channel Dentificationを介して変換されます。
実験結果は、Rosaqが元の特徴空間やその他の既存の量子化方法でのベースラインの顕著性量子化の改善を示していることを示しています。
カーネルフュージョンにより、Rosaqは、64のバッチサイズの256トークンを生成するFP16実装で約2.3倍の速度を上げます。

要約(オリジナル)

Quantization has been widely studied as an effective technique for reducing the memory requirement of large language models (LLMs), potentially improving the latency time as well. Utilizing the characteristic of rotational invariance of transformer, we propose the rotation-based saliency-aware weight quantization (ROSAQ), which identifies salient channels in the projection feature space, not in the original feature space, where the projected ‘principal’ dimensions are naturally considered as ‘salient’ features. The proposed ROSAQ consists of 1) PCA-based projection, which first performs principal component analysis (PCA) on a calibration set and transforms via the PCA projection, 2) Salient channel dentification, which selects dimensions corresponding to the K-largest eigenvalues as salient channels, and 3) Saliency-aware quantization with mixed-precision, which uses FP16 for salient dimensions and INT3/4 for other dimensions. Experiment results show that ROSAQ shows improvements over the baseline saliency-aware quantization on the original feature space and other existing quantization methods. With kernel fusion, ROSAQ presents about 2.3x speed up over FP16 implementation in generating 256 tokens with a batch size of 64.

arxiv情報

著者 Junho Yoon,Geom Lee,Donghyeon Jeon,Inho Kang,Seung-Hoon Na
発行日 2025-06-16 13:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ROSAQ: Rotation-based Saliency-Aware Weight Quantization for Efficiently Compressing Large Language Models はコメントを受け付けていません

When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text

要約

AIに生成されたテキストを検出することは、そもそも難しい問題です。
ソーシャルメディアでAIに生成されたテキストの検出は、インターネットのテキストの長さと非公式の特異な言語のために、さらに困難になります。
それにもかかわらず、ソーシャルメディアはオンライン影響キャンペーンの重要な攻撃ベクトルを表しているため、この問題に取り組むことが重要です。これは、特定のポリシー、決定、またはイベントをサポートする(または反対)大量生成されたAIで生成された投稿を使用することで強化される可能性があります。
合理的に洗練された脅威アクターの考え方とリソースでこの問題にアプローチし、オープンソース、クローズドソース、および微調整されたLLMSの組み合わせから505,159のAI生成されたソーシャルメディア投稿のデータセットを作成し、11の異なる物議を醸すトピックをカバーしています。
攻撃者が微調整されたモデルを一般にリリースしないというより現実的な仮定の下で、生成モデルの知識とアクセスに関する典型的な研究の仮定の下で投稿を検出できるが、検出可能性は劇的に低下することを示します。
この結果は、人間の研究で確認されています。
アブレーション実験では、さまざまな検出アルゴリズムの微細チューニングLLMSの脆弱性を強調しています。
微調整は一般に適用可能で現実的なLLMユースケースであるため、この結果はすべての検出ドメインに影響を及ぼします。

要約(オリジナル)

Detecting AI-generated text is a difficult problem to begin with; detecting AI-generated text on social media is made even more difficult due to the short text length and informal, idiosyncratic language of the internet. It is nonetheless important to tackle this problem, as social media represents a significant attack vector in online influence campaigns, which may be bolstered through the use of mass-produced AI-generated posts supporting (or opposing) particular policies, decisions, or events. We approach this problem with the mindset and resources of a reasonably sophisticated threat actor, and create a dataset of 505,159 AI-generated social media posts from a combination of open-source, closed-source, and fine-tuned LLMs, covering 11 different controversial topics. We show that while the posts can be detected under typical research assumptions about knowledge of and access to the generating models, under the more realistic assumption that an attacker will not release their fine-tuned model to the public, detectability drops dramatically. This result is confirmed with a human study. Ablation experiments highlight the vulnerability of various detection algorithms to fine-tuned LLMs. This result has implications across all detection domains, since fine-tuning is a generally applicable and realistic LLM use case.

arxiv情報

著者 Hillary Dawkins,Kathleen C. Fraser,Svetlana Kiritchenko
発行日 2025-06-16 13:31:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | When Detection Fails: The Power of Fine-Tuned Models to Generate Human-Like Social Media Text はコメントを受け付けていません

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

要約

臨床的意思決定は、診断と治療のために新たに発見された情報を実行し、検討するための臨床作用を繰り返し決定しなければならない動的でインタラクティブな循環的なプロセスです。
大規模な言語モデル(LLM)には、このプロセスで臨床医をサポートする可能性がありますが、臨床意思決定支援におけるLLMのほとんどのアプリケーションは、2つの制限のいずれかに苦しんでいます。
これとは対照的に、関連するテストを繰り返し要求および解釈することで診断に収束する仮説主導型の不確実性言語エージェントであるLA-CDMとの診断のための臨床的意思決定をモデル化することを提案します。
監視と強化学習を組み合わせたハイブリッドトレーニングパラダイムを使用して、臨床的意思決定の重要な側面を対象とした3つの目的でLA-CDMをトレーニングします:正確な仮説生成、仮説の不確実性推定、効率的な意思決定。
さまざまな臨床検査を含む4つの腹部疾患をカバーする実際のデータセットであるMimic-CDMの方法論を評価し、診断のパフォーマンスと効率を高めるための臨床的意思決定を明示的にトレーニングする利点を示しています。

要約(オリジナル)

Clinical decision-making is a dynamic, interactive, and cyclic process where doctors have to repeatedly decide on which clinical action to perform and consider newly uncovered information for diagnosis and treatment. Large Language Models (LLMs) have the potential to support clinicians in this process, however, most applications of LLMs in clinical decision support suffer from one of two limitations: Either they assume the unrealistic scenario of immediate availability of all patient information and do not model the interactive and iterative investigation process, or they restrict themselves to the limited ‘out-of-the-box’ capabilities of large pre-trained models without performing task-specific training. In contrast to this, we propose to model clinical decision-making for diagnosis with a hypothesis-driven uncertainty-aware language agent, LA-CDM, that converges towards a diagnosis via repeatedly requesting and interpreting relevant tests. Using a hybrid training paradigm combining supervised and reinforcement learning, we train LA-CDM with three objectives targeting critical aspects of clinical decision-making: accurate hypothesis generation, hypothesis uncertainty estimation, and efficient decision-making. We evaluate our methodology on MIMIC-CDM, a real-world dataset covering four abdominal diseases containing various clinical tests and show the benefit of explicitly training clinical decision-making for increasing diagnostic performance and efficiency.

arxiv情報

著者 David Bani-Harouni,Chantal Pellegrini,Ege Özsoy,Matthias Keicher,Nassir Navab
発行日 2025-06-16 13:32:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning はコメントを受け付けていません

Position: Pause Recycling LoRAs and Prioritize Mechanisms to Uncover Limits and Effectiveness

要約

マージまたはルーティング低ランクアダプター(LORAS)は、特に規制またはドメイン固有の制約によってデータアクセスが制限されている場合、大規模な言語モデルを強化するための一般的なソリューションとして浮上しています。
このポジションペーパーは、研究コミュニティは、新しいマージまたはルーティングアルゴリズムの開発から、ロラの再利用が本当に効果的である条件の理解に焦点を移すべきだと主張しています。
理論的分析と合成2ホップの推論と数学の単語問題タスクを通じて、ロラを再利用することが本物の構成一般化を可能にするか、単に浅いパターンの一致を反映するかどうかを調べます。
パラメーター平均化と動的アダプターの選択 – の2つのデータに依存しない方法を評価すると、ロラを再利用することは、特にそのような知識が前提条件中に過小評価されている場合、微妙な微調整データセット全体で知識を論理的に統合できないことが多いことがわかりました。
ロラの限られた表現性に関する理論的洞察によってサポートされている私たちの経験的結果は、目に見えないタスクのためにそれらを再利用する前提条件と制約を強調し、真にデータのないアプローチとしての実現可能性に疑問を投げかけます。
私たちは、ロラをリサイクルするための新しい方法の追求を一時停止し、実践者向けのアダプターベースのモデルの合併と実用的なシステム設計における将来の学術研究を導くための厳密なメカニズムの必要性を強調することを主張しています。

要約(オリジナル)

Merging or routing low-rank adapters (LoRAs) has emerged as a popular solution for enhancing large language models, particularly when data access is restricted by regulatory or domain-specific constraints. This position paper argues that the research community should shift its focus from developing new merging or routing algorithms to understanding the conditions under which reusing LoRAs is truly effective. Through theoretical analysis and synthetic two-hop reasoning and math word-problem tasks, we examine whether reusing LoRAs enables genuine compositional generalization or merely reflects shallow pattern matching. Evaluating two data-agnostic methods–parameter averaging and dynamic adapter selection–we found that reusing LoRAs often fails to logically integrate knowledge across disjoint fine-tuning datasets, especially when such knowledge is underrepresented during pretraining. Our empirical results, supported by theoretical insights into LoRA’s limited expressiveness, highlight the preconditions and constraints of reusing them for unseen tasks and cast doubt on its feasibility as a truly data-free approach. We advocate for pausing the pursuit of novel methods for recycling LoRAs and emphasize the need for rigorous mechanisms to guide future academic research in adapter-based model merging and practical system designs for practitioners.

arxiv情報

著者 Mei-Yen Chen,Thi Thu Uyen Hoang,Michael Hahn,M. Saquib Sarfraz
発行日 2025-06-16 13:35:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Position: Pause Recycling LoRAs and Prioritize Mechanisms to Uncover Limits and Effectiveness はコメントを受け付けていません

TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs

要約

単一言語および多言語モデル(LMS)の言語能力を評価するために設計された言語最小ペアの最初のトルコのベンチマークであるターブリンプを紹介します。
それぞれ1000の最小ペアで16の言語現象をカバーするターブリンプは、トルコ語の言語評価リソースの重要なギャップを埋めます。
ベンチマークの設計において、LMSの現在の構文評価、つまり形態学的プロセスを通じての語順の柔軟性と従属に依存しているトルコの2つの特性に特に注意を払っています。
幅広いLMSと新たに収集された人間の受容性判断セットに関する私たちの実験は、最先端の大規模なLMSでさえ、人間にとって挑戦的ではない文法現象に依然として苦労しており、人間と比較して語順と形態の複雑さに異なる感受性を示す可能性があることを明らかにしています。

要約(オリジナル)

We introduce TurBLiMP, the first Turkish benchmark of linguistic minimal pairs, designed to evaluate the linguistic abilities of monolingual and multilingual language models (LMs). Covering 16 linguistic phenomena with 1000 minimal pairs each, TurBLiMP fills an important gap in linguistic evaluation resources for Turkish. In designing the benchmark, we give extra attention to two properties of Turkish that remain understudied in current syntactic evaluations of LMs, namely word order flexibility and subordination through morphological processes. Our experiments on a wide range of LMs and a newly collected set of human acceptability judgments reveal that even cutting-edge Large LMs still struggle with grammatical phenomena that are not challenging for humans, and may also exhibit different sensitivities to word order and morphological complexity compared to humans.

arxiv情報

著者 Ezgi Başar,Francesca Padovani,Jaap Jumelet,Arianna Bisazza
発行日 2025-06-16 13:45:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TurBLiMP: A Turkish Benchmark of Linguistic Minimal Pairs はコメントを受け付けていません

BOW: Bottlenecked Next Word Exploration

要約

大規模な言語モデル(LLM)は通常、次の単語予測(NWP)を介してトレーニングされます。これは、強力な表面レベルの流encyさを提供しますが、しばしば堅牢な推論をサポートしていません。
ボトルネックの次のWord Exploration(Bow)を提案します。これは、次のトークンを直接予測するのではなく、ポリシーモデルが最初に推論パスを生成する推論ボトルネックを導入することによりNWPを再考する新しいRLフレームワークであり、その後、この推論パスのみに基づいて次のトークン分布を予測します。
GRPOを使用してPolicyモデルをトレーニングし、推論パスが次の単語の回復をどの程度効果的に促進するかを定量化します。
他の連続前の前脱型ベースラインと比較して、Bowは、さまざまなベンチマークで評価されている基本モデルの一般的および次の単語の推論能力の両方を改善することを示しています。
私たちの調査結果は、弓がバニラNWPの効果的でスケーラブルな代替品として機能できることを示しています。

要約(オリジナル)

Large language models (LLMs) are typically trained via next-word prediction (NWP), which provides strong surface-level fluency but often lacks support for robust reasoning. We propose BOttlenecked next Word exploration (BOW), a novel RL framework that rethinks NWP by introducing a reasoning bottleneck where a policy model first generates a reasoning path rather than predicting the next token directly, after which a frozen judge model predicts the next token distribution based solely on this reasoning path. We train the policy model using GRPO with rewards that quantify how effectively the reasoning path facilitates next-word recovery. Compared with other continual pretraining baselines, we show that BOW improves both the general and next-word reasoning capabilities of the base model, evaluated on various benchmarks. Our findings show that BOW can serve as an effective and scalable alternative to vanilla NWP.

arxiv情報

著者 Ming Shen,Zhikun Xu,Xiao Ye,Jacob Dineen,Ben Zhou
発行日 2025-06-16 13:58:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BOW: Bottlenecked Next Word Exploration はコメントを受け付けていません

K/DA: Automated Data Generation Pipeline for Detoxifying Implicitly Offensive Language in Korean

要約

言語解毒には、攻​​撃的な言語から毒性を除去することが含まれます。
ニュートラル毒性のペア付きデータセットは、解毒モデルをトレーニングするための簡単なアプローチを提供しますが、そのようなデータセットの作成はいくつかの課題を提示します。i)ペアのデータを構築するための人間の注釈の必要性、ii)攻撃的な用語の急速な進化、静的データセットの迅速な時代遅れになります。
これらの課題に取り組むために、K/DAと呼ばれる自動ペアのデータ生成パイプラインを紹介します。
このパイプラインは、暗黙の攻撃性とトレンドに沿ったスラングを備えた攻撃的な言語を生成するように設計されており、結果のデータセットが解毒モデルトレーニングに適しています。
K/DAによって生成されたデータセットは、既存の韓国のデータセットと比較して高いペアの一貫性と暗黙の攻撃性を示し、他の言語への適用性も示していることを実証します。
さらに、単純な命令微調整を備えた高性能解毒モデルの効果的なトレーニングを可能にします。

要約(オリジナル)

Language detoxification involves removing toxicity from offensive language. While a neutral-toxic paired dataset provides a straightforward approach for training detoxification models, creating such datasets presents several challenges: i) the need for human annotation to build paired data, and ii) the rapid evolution of offensive terms, rendering static datasets quickly outdated. To tackle these challenges, we introduce an automated paired data generation pipeline, called K/DA. This pipeline is designed to generate offensive language with implicit offensiveness and trend-aligned slang, making the resulting dataset suitable for detoxification model training. We demonstrate that the dataset generated by K/DA exhibits high pair consistency and greater implicit offensiveness compared to existing Korean datasets, and also demonstrates applicability to other languages. Furthermore, it enables effective training of a high-performing detoxification model with simple instruction fine-tuning.

arxiv情報

著者 Minkyeong Jeon,Hyemin Jeong,Yerang Kim,Jiyoung Kim,Jae Hyeon Cho,Byung-Jun Lee
発行日 2025-06-16 14:08:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | K/DA: Automated Data Generation Pipeline for Detoxifying Implicitly Offensive Language in Korean はコメントを受け付けていません

JEPA4Rec: Learning Effective Language Representations for Sequential Recommendation via Joint Embedding Predictive Architecture

要約

言語表現の学習は、一般化可能な表現を学習する能力のおかげで、連続的な推奨の有望なアプローチとして浮上しています。
ただし、その利点にもかかわらず、このアプローチは、データスパース性と、常識的なユーザーの好みについての限られた理解に依然として闘っています。
これらの制限に対処するために、$ \ textbf {jepa4rec} $を提案します。これは、$ \ textbf {j} $ ointbf {e} $ mbedding $ \ textbf {p} $ redictive $ \ textbf {a} $ rchitection with remiculial textionsのモデル化のモデリングとともに$ \ textbf {e} $ \ bedding $ \ textbf {p} $ redictive $ \ textbf {a}を組み合わせたフレームワークを提案します。
JEPA4RECは、意味的に豊富で移転可能な表現をキャプチャし、推奨のパフォーマンスを改善し、大規模なトレーニング前のデータへの依存を減らします。
具体的には、jepa4recは、$ \ textit {title、category} $、その他の属性などの記述情報を平坦化することにより、テキスト文として項目を表します。
これらの文をエンコードするために、推奨データセットでアイテム情報をキャプチャするために調整された変更された埋め込みレイヤーを備えた双方向トランスエンコーダーを使用します。
マスキングをテキスト文に適用し、それらを使用して、マスクされていない文の表現を予測し、モデルが一般化可能なアイテムの埋め込みを学習するのに役立ちます。
推奨のパフォーマンスと言語の理解をさらに向上させるために、自己監視学習損失を取り入れた2段階のトレーニング戦略を採用しています。
6つの現実世界のデータセットでの実験は、JEPA4RECが一貫して最先端の方法、特にクロスドメイン、クロスプラットフォーム、および低リソースシナリオで優れていることを示しています。

要約(オリジナル)

Language representation learning has emerged as a promising approach for sequential recommendation, thanks to its ability to learn generalizable representations. However, despite its advantages, this approach still struggles with data sparsity and a limited understanding of common-sense user preferences. To address these limitations, we propose $\textbf{JEPA4Rec}$, a framework that combines $\textbf{J}$oint $\textbf{E}$mbedding $\textbf{P}$redictive $\textbf{A}$rchitecture with language modeling of item textual descriptions. JEPA4Rec captures semantically rich and transferable representations, improving recommendation performance and reducing reliance on large-scale pre-training data. Specifically, JEPA4Rec represents items as text sentences by flattening descriptive information such as $\textit{title, category}$, and other attributes. To encode these sentences, we employ a bidirectional Transformer encoder with modified embedding layers tailored for capturing item information in recommendation datasets. We apply masking to text sentences and use them to predict the representations of the unmasked sentences, helping the model learn generalizable item embeddings. To further improve recommendation performance and language understanding, we employ a two-stage training strategy incorporating self-supervised learning losses. Experiments on six real-world datasets demonstrate that JEPA4Rec consistently outperforms state-of-the-art methods, particularly in cross-domain, cross-platform, and low-resource scenarios.

arxiv情報

著者 Minh-Anh Nguyen,Dung D. Le
発行日 2025-06-16 14:08:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | JEPA4Rec: Learning Effective Language Representations for Sequential Recommendation via Joint Embedding Predictive Architecture はコメントを受け付けていません

TensorSLM: Energy-efficient Embedding Compression of Sub-billion Parameter Language Models on Low-end Devices

要約

小言語モデル(SLM、またはオンデバイスLMS)は、大規模な言語モデル(LLM)よりも大幅に少ないパラメーターを持っています。
通常、携帯電話やシングルボードコンピューターなど、ローエンドのデバイスに展開されます。
より良い一般化のためにモデルサイズの増加に依存するLLMSとは異なり、エッジアプリケーション向けに設計されたSLMSは、データセンターで展開されていないLLMでは対処されていないデバイスのバッテリー寿命の制約を考慮して、展開環境とエネルギー効率に適応性があると予想されます。
このペーパーでは、テンソルトレイン分解(TTD)を使用して、トレーニングフリーのトークン埋め込み圧縮アプローチを提案することにより、これら2つの要件に対処します。
事前に訓練された各トークン埋め込みベクターは、低次元マトリックス積状態(MPS)に変換されます。
典型的なローエンドデバイス、つまりRaspberry PIでの圧縮比、言語タスクのパフォーマンス、レイテンシ、およびエネルギー消費全体にわたる抽出された低ランク構造を包括的に評価します。
GPT-2/CEREBRES-GPTおよびOPTモデルのサブバリオンパラメーターバージョンを例として使用すると、私たちのアプローチは、$ 2.0 \ Times $埋め込みレイヤー圧縮で元のモデルに匹敵する言語タスクのパフォーマンスを実現し、単一のクエリのエネルギー消費は半分に低下します。

要約(オリジナル)

Small Language Models (SLMs, or on-device LMs) have significantly fewer parameters than Large Language Models (LLMs). They are typically deployed on low-end devices, like mobile phones and single-board computers. Unlike LLMs, which rely on increasing model size for better generalisation, SLMs designed for edge applications are expected to have adaptivity to the deployment environments and energy efficiency given the device battery life constraints, which are not addressed in datacenter-deployed LLMs. This paper addresses these two requirements by proposing a training-free token embedding compression approach using Tensor-Train Decomposition (TTD). Each pre-trained token embedding vector is converted into a lower-dimensional Matrix Product State (MPS). We comprehensively evaluate the extracted low-rank structures across compression ratio, language task performance, latency, and energy consumption on a typical low-end device, i.e. Raspberry Pi. Taking the sub-billion parameter versions of GPT-2/Cerebres-GPT and OPT models as examples, our approach achieves a comparable language task performance to the original model with around $2.0\times$ embedding layer compression, while the energy consumption of a single query drops by half.

arxiv情報

著者 Mingxue Xu,Yao Lei Xu,Danilo P. Mandic
発行日 2025-06-16 14:09:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NA, math.NA | TensorSLM: Energy-efficient Embedding Compression of Sub-billion Parameter Language Models on Low-end Devices はコメントを受け付けていません