AI-Enabled Conversational Journaling for Advancing Parkinson’s Disease Symptom Tracking

要約

ジャーナリングは、患者が症状と薬物摂取を記録できるようにすることにより、慢性疾患を管理する上で重要な役割を果たし、長期ケアに不可欠なデータを提供します。
貴重ですが、従来のジャーナリング方法は、多くの場合、静的で自己指示されたエントリに依存しており、インタラクティブなフィードバックとリアルタイムのガイダンスがありません。
このギャップにより、情報が不完全または不正確になる可能性があり、効果的な治療に対するその有用性が制限されます。
このギャップに対処するために、パーキンソン病(PWPD)の人向けに特別に設計されたAI対応プロトタイプであるPatrikaを紹介します。
このシステムには、より効果的でユーザーフレンドリーなジャーナリングエクスペリエンスを作成するために、協力的な会話の原則、臨床インタビューシミュレーション、パーソナライズが組み込まれています。
PWPDを使用した2つのユーザー調査とPatrikaの反復洗練を通じて、患者の関与と臨床的に価値のある情報の収集における会話のジャーナリングの重要な可能性を示しています。
私たちの結果は、調査の質問を生成することは、パトリカがジャーナリングを双方向の相互作用に変えたことを示しました。
さらに、ヘルスケアのためのジャーナリングシステムを設計するための洞察と、持続的なジャーナリングを促進するための将来の方向性を提供します。

要約(オリジナル)

Journaling plays a crucial role in managing chronic conditions by allowing patients to document symptoms and medication intake, providing essential data for long-term care. While valuable, traditional journaling methods often rely on static, self-directed entries, lacking interactive feedback and real-time guidance. This gap can result in incomplete or imprecise information, limiting its usefulness for effective treatment. To address this gap, we introduce PATRIKA, an AI-enabled prototype designed specifically for people with Parkinson’s disease (PwPD). The system incorporates cooperative conversation principles, clinical interview simulations, and personalization to create a more effective and user-friendly journaling experience. Through two user studies with PwPD and iterative refinement of PATRIKA, we demonstrate conversational journaling’s significant potential in patient engagement and collecting clinically valuable information. Our results showed that generating probing questions PATRIKA turned journaling into a bi-directional interaction. Additionally, we offer insights for designing journaling systems for healthcare and future directions for promoting sustained journaling.

arxiv情報

著者 Mashrur Rashik,Shilpa Sweth,Nishtha Agrawal,Saiyyam Kochar,Kara M Smith,Fateme Rajabiyazdi,Vidya Setlur,Narges Mahyar,Ali Sarvghad
発行日 2025-03-05 14:14:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC | AI-Enabled Conversational Journaling for Advancing Parkinson’s Disease Symptom Tracking はコメントを受け付けていません

RIDE: Enhancing Large Language Model Alignment through Restyled In-Context Learning Demonstration Exemplars

要約

アラインメントチューニングは、大規模な言語モデル(LLM)が倫理的かつ役立つように動作するようにするために重要です。
現在のアライメントアプローチには、高品質の注釈と重要なトレーニングリソースが必要です。
このペーパーでは、LLMアライメントを強化するために、コンテキスト内学習(ICL)を使用した低コストのチューニングフリーメソッドを提案します。
高品質のICLデモの分析を通じて、このスタイルのフレームワークに基づいて、LLMアライメント機能に影響を与える重要な要因としてスタイルを特定し、明示的にRestyled ICLの模範として特定しました。
さらに、レスピルデモを組み合わせて、LLMアライメントの2つの矛盾する側面、つまり農業性と安全性のバランスをとりました。
いくつかのショット学習をトリガーするプロンプトとして、レスピルの例をパッケージ化し、LLMアライメントを改善しました。
最大のベースラインアプローチと比較して、平均スコアが最大として、私たちの方法は、ALPACAタスクで最大0.10増加し(4.50から4.60)、Just-Val Benchmarkの0.22増強(4.34から4.56)、MTベンチデータ式の0.32(3.53から3.85から3.85)の最大改善を達成します。
https://github.com/anonymouscode-computerscience/rideでコードとデータをリリースします。

要約(オリジナル)

Alignment tuning is crucial for ensuring large language models (LLMs) behave ethically and helpfully. Current alignment approaches require high-quality annotations and significant training resources. This paper proposes a low-cost, tuning-free method using in-context learning (ICL) to enhance LLM alignment. Through an analysis of high-quality ICL demos, we identified style as a key factor influencing LLM alignment capabilities and explicitly restyled ICL exemplars based on this stylistic framework. Additionally, we combined the restyled demos to achieve a balance between the two conflicting aspects of LLM alignment–factuality and safety. We packaged the restyled examples as prompts to trigger few-shot learning, improving LLM alignment. Compared to the best baseline approach, with an average score of 5.00 as the maximum, our method achieves a maximum 0.10 increase on the Alpaca task (from 4.50 to 4.60), a 0.22 enhancement on the Just-eval benchmark (from 4.34 to 4.56), and a maximum improvement of 0.32 (from 3.53 to 3.85) on the MT-Bench dataset. We release the code and data at https://github.com/AnonymousCode-ComputerScience/RIDE.

arxiv情報

著者 Yuncheng Hua,Lizhen Qu,Zhuang Li,Hao Xue,Flora D. Salim,Gholamreza Haffari
発行日 2025-03-05 14:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 | RIDE: Enhancing Large Language Model Alignment through Restyled In-Context Learning Demonstration Exemplars はコメントを受け付けていません

Online Scheduling for LLM Inference with KV Cache Constraints

要約

トレーニングされたモデルがユーザープロンプトに応じて一度に1つの単語を生成する大規模な言語モデル(LLM)推論は、レイテンシとリソースの使用率を最適化するための効率的なスケジューリングを必要とする計算的に集中的なプロセスです。
LLM推論の重要な課題は、冗長計算を削減しますが、メモリの制約を導入するキー値(KV)キャッシュの管理です。
この作業では、KVキャッシュ制約を理論的にLLM推論をモデル化し、KVキャッシュのメモリを効果的に管理しながら推論の遅延を最小限に抑える新しいバッチとスケジューリングアルゴリズムを提案します。
半実施モデルと完全なオンラインスケジューリングモデルの両方を分析し、結果は3つあります。
まず、半整列プロンプト到着モデルの平均レイテンシに関して正確な最適性を達成する多項式時間アルゴリズムを提供します。
第二に、確率的プロンプトが到着した完全なオンラインケースでは、絶えず後悔して効率的なオンラインスケジューリングアルゴリズムを導入します。
第三に、完全にオンラインの敵対的な設定で一定の競争比を達成できるアルゴリズム(決定論的またはランダム化)がないことを証明します。
A100 GPUでLLAMA-70Bモデルを使用して、パブリックLLM推論データセットでの実証評価は、このアプローチが現在実際に使用されているベンチマークアルゴリズムを大幅に上回り、エネルギー消費量を減らしながら低下を達成していることを示しています。
全体として、私たちの結果は、より持続可能で費用対効果の高いLLM展開への道を提供します。

要約(オリジナル)

Large Language Model (LLM) inference, where a trained model generates text one word at a time in response to user prompts, is a computationally intensive process requiring efficient scheduling to optimize latency and resource utilization. A key challenge in LLM inference is the management of the Key-Value (KV) cache, which reduces redundant computations but introduces memory constraints. In this work, we model LLM inference with KV cache constraints theoretically and propose novel batching and scheduling algorithms that minimize inference latency while effectively managing the KV cache’s memory. We analyze both semi-online and fully online scheduling models, and our results are threefold. First, we provide a polynomial-time algorithm that achieves exact optimality in terms of average latency in the semi-online prompt arrival model. Second, in the fully online case with a stochastic prompt arrival, we introduce an efficient online scheduling algorithm with constant regret. Third, we prove that no algorithm (deterministic or randomized) can achieve a constant competitive ratio in fully online adversarial settings. Our empirical evaluations on a public LLM inference dataset, using the Llama-70B model on A100 GPUs, show that our approach significantly outperforms benchmark algorithms used currently in practice, achieving lower latency while reducing energy consumption. Overall, our results offer a path toward more sustainable and cost-effective LLM deployment.

arxiv情報

著者 Patrick Jaillet,Jiashuo Jiang,Chara Podimata,Zijie Zhou
発行日 2025-03-05 14:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC | Online Scheduling for LLM Inference with KV Cache Constraints はコメントを受け付けていません

LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models

要約

大規模な言語モデル(LLMS)の急速な発展は、さまざまなタスクにわたって大きな進歩をもたらしました。
しかし、これらの成果にもかかわらず、LLMは依然としてジェイルブレイク攻撃に直面した場合、依然として固有の安全脆弱性を示しています。
既存の脱獄方法は、2つの主な制限に悩まされています。複雑な迅速なエンジニアリングと反復最適化への依存。これは、攻撃の成功率(ASR)と攻撃効率(AE)につながります。
この作業では、LLMの高度な推論能力を活用して有害なコンテンツを自律的に生成するために、効率的な脱獄攻撃方法(ABJ)を分析し、複雑な推論プロセス中に根本的な安全脆弱性を明らかにします。
さまざまなオープンソースおよびクローズドソースLLMを介してABJで包括的な実験を実施しています。
特に、ABJは、すべてのターゲットLLMの中で並外れたAEを備えた高ASR(GPT-4O-2024-11-20で82.1%)を達成し、その顕著な攻撃の有効性、転送可能性、効率性を示しています。
私たちの調査結果は、誤用のリスクを軽減するためにLLMの安全性を優先し、改善する緊急の必要性を強調しています。

要約(オリジナル)

The rapid development of Large Language Models (LLMs) has brought significant advancements across various tasks. However, despite these achievements, LLMs still exhibit inherent safety vulnerabilities, especially when confronted with jailbreak attacks. Existing jailbreak methods suffer from two main limitations: reliance on complicated prompt engineering and iterative optimization, which lead to low attack success rate (ASR) and attack efficiency (AE). In this work, we propose an efficient jailbreak attack method, Analyzing-based Jailbreak (ABJ), which leverages the advanced reasoning capability of LLMs to autonomously generate harmful content, revealing their underlying safety vulnerabilities during complex reasoning process. We conduct comprehensive experiments on ABJ across various open-source and closed-source LLMs. In particular, ABJ achieves high ASR (82.1% on GPT-4o-2024-11-20) with exceptional AE among all target LLMs, showcasing its remarkable attack effectiveness, transferability, and efficiency. Our findings underscore the urgent need to prioritize and improve the safety of LLMs to mitigate the risks of misuse.

arxiv情報

著者 Shi Lin,Hongming Yang,Dingyang Lin,Rongchang Li,Xun Wang,Changting Lin,Wenpeng Xing,Meng Han
発行日 2025-03-05 14:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models はコメントを受け付けていません

A Conceptual Model for Attributions in Event-Centric Knowledge Graphs

要約

知識グラフ(KG)からの情報を一貫した議論の線に融合させる手段としての物語の使用は、最近の調査の対象となっています。
物語は、イベント中心の知識グラフで特に役立ちます。これは、さまざまな現実世界のイベントを接続し、よく知られているナレーションによって分類する手段を提供するという点で役立ちます。
ただし、特に物議を醸す出来事の場合、情報融合の問題が発生します。つまり、特定のイベントの側面の妥当性に関する複数の視点、たとえば、イベントで参加者が課す役割に関して存在する可能性があります。
異なる視点から提供される紛争情報が矛盾をもたらす可能性があるため、KGSでこれらの視点を表現することは困難です。
したがって、ほとんどのKGは、含まれる情報に関する単一のビューのみを備えており、物語の情報アクセスの有効性を妨げています。
このペーパーは、当社の元の作品の拡張であり、属性を紹介します。つまり、特定の視点でのみ有効な事実の表現を可能にするパラメーター化された述語です。
このために、視点依存情報の表現を可能にする概念モデルを開発します。
拡張機能として、視点互換性の概念によりモデルを強化します。
これに基づいて、情報融合に対するモデルの影響に関する元の審議を深め、文献に追加の基礎を提供します。

要約(オリジナル)

The use of narratives as a means of fusing information from knowledge graphs (KGs) into a coherent line of argumentation has been the subject of recent investigation. Narratives are especially useful in event-centric knowledge graphs in that they provide a means to connect different real-world events and categorize them by well-known narrations. However, specifically for controversial events, a problem in information fusion arises, namely, multiple viewpoints regarding the validity of certain event aspects, e.g., regarding the role a participant takes in an event, may exist. Expressing those viewpoints in KGs is challenging because disputed information provided by different viewpoints may introduce inconsistencies. Hence, most KGs only feature a single view on the contained information, hampering the effectiveness of narrative information access. This paper is an extension of our original work and introduces attributions, i.e., parameterized predicates that allow for the representation of facts that are only valid in a specific viewpoint. For this, we develop a conceptual model that allows for the representation of viewpoint-dependent information. As an extension, we enhance the model by a conception of viewpoint-compatibility. Based on this, we deepen our original deliberations on the model’s effects on information fusion and provide additional grounding in the literature.

arxiv情報

著者 Florian Plötzky,Katarina Britz,Wolf-Tilo Balke
発行日 2025-03-05 14:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | A Conceptual Model for Attributions in Event-Centric Knowledge Graphs はコメントを受け付けていません

Bringing AI Participation Down to Scale: A Comment on Open AIs Democratic Inputs to AI Project

要約

2023年、Open AIS Democratic Inputs Programは、生成AIへの一般参加のための手順を設計するために10チームに資金を提供しました。
この観点では、プロジェクトの結果をレビューし、いくつかのチームとのインタビューと参加演習を実施する私たち自身の経験に基づいて、民主的なインプットプログラムのいくつかの共有されているが大部分が口実の仮定を特定します1。参加の対象は単一のモデルである。
6。その大衆は代表的であり、おそらくハイテク企業が着手したわけではなく、AIへの代替形式の参加を奨励するべきです。

要約(オリジナル)

In 2023, Open AIs Democratic Inputs program funded 10 teams to design procedures for public participation in generative AI. In this Perspective, we review the results of the project, drawing on interviews with some of the teams and our own experiences conducting participation exercises, we identify several shared yet largely unspoken assumptions of the Democratic Inputs program 1. that participation must be scalable 2. that the object of participation is a single model 3. that there must be a single form of participation 4. that the goal is to extract abstract principles 5. that these principles should have consensus 6. that publics should be representative and encourage alternative forms of participation in AI, perhaps not undertaken by tech companies.

arxiv情報

著者 David Moats,Chandrima Ganguly
発行日 2025-03-05 14:55:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY | Bringing AI Participation Down to Scale: A Comment on Open AIs Democratic Inputs to AI Project はコメントを受け付けていません

DeePen: Penetration Testing for Audio Deepfake Detection

要約

ディープフェイク – 操作または偽造オーディオおよびビデオメディア – は、個人、組織、社会全体に重大なセキュリティリスクをもたらします。
これらの課題に対処するために、機械学習ベースの分類器が一般的に採用され、ディープファークの内容が検出されます。
この論文では、体系的な浸透テスト方法を通じて、このような分類器の堅牢性を評価し、それを深く紹介します。
私たちのアプローチは、ターゲットのディープフェイク検出モデルの事前知識またはアクセスなしで動作します。
代わりに、モデルの脆弱性を評価するために、攻撃と呼ばれる慎重に選択された信号処理の変更のセットを活用します。
Deepenを使用して、実世界の生産システムと公開されている学術モデルのチェックポイントの両方を分析し、すべてのテストされたシステムが弱点を示し、タイムストレッチングやエコーの追加などの簡単な操作によって確実に欺くことができることを示しています。
さらに、我々の調査結果は、特定の攻撃の知識を持つ検出システムを再訓練することでいくつかの攻撃を軽減できるが、他の攻撃は持続的に効果的なままであることを明らかにしています。
関連するすべてのコードをリリースします。

要約(オリジナル)

Deepfakes – manipulated or forged audio and video media – pose significant security risks to individuals, organizations, and society at large. To address these challenges, machine learning-based classifiers are commonly employed to detect deepfake content. In this paper, we assess the robustness of such classifiers through a systematic penetration testing methodology, which we introduce as DeePen. Our approach operates without prior knowledge of or access to the target deepfake detection models. Instead, it leverages a set of carefully selected signal processing modifications – referred to as attacks – to evaluate model vulnerabilities. Using DeePen, we analyze both real-world production systems and publicly available academic model checkpoints, demonstrating that all tested systems exhibit weaknesses and can be reliably deceived by simple manipulations such as time-stretching or echo addition. Furthermore, our findings reveal that while some attacks can be mitigated by retraining detection systems with knowledge of the specific attack, others remain persistently effective. We release all associated code.

arxiv情報

著者 Nicolas Müller,Piotr Kawa,Adriana Stan,Thien-Phuc Doan,Souhwan Jung,Wei Herng Choong,Philip Sperl,Konstantin Böttinger
発行日 2025-03-05 14:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.SD, eess.AS | DeePen: Penetration Testing for Audio Deepfake Detection はコメントを受け付けていません

From Informal to Formal — Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs

要約

AIベースの正式な数学的推論の研究では、止められない成長傾向が示されています。
これらの研究は、IMOのような数学的競争に優れており、大きな進歩を遂げています。
このペーパーでは、正式な検証、正式な推論の即時アプリケーションシナリオに焦点を当て、それをサブタスクに分割します。
GPT-4Oを蒸留し、最近の人気のあるDeepseek-R1を含む10のオープンソースLLMSに対して評価された5つの正式な仕様言語(COQ、LEAN4、DAFNY、ACSL、およびTLA+)にわたって18K高品質の命令応答ペアを構築しました。
また、DeepSeek-R1-671Bで同等のパフォーマンスを実現するために、いくつかの7〜8Bの小さなモデルを微調整しました。
興味深いことに、正式なデータで微調整すると数学、推論、コーディング機能が強化されることが観察されました。
微調整されたモデルは、https://huggingface.co/fm-universeでリリースされます。

要約(オリジナル)

The research in AI-based formal mathematical reasoning has shown an unstoppable growth trend. These studies have excelled in mathematical competitions like IMO and have made significant progress. This paper focuses on formal verification, an immediate application scenario of formal reasoning, and breaks it down into sub-tasks. We constructed 18k high-quality instruction-response pairs across five formal specification languages (Coq, Lean4, Dafny, ACSL, and TLA+) by distilling gpt-4o and evaluated against ten open-sourced LLMs, including recent popular DeepSeek-R1. We also fine-tuned several 7~8B small models to achieve comparable performance with Deepseek-R1-671B. Interestingly, we observed that fine-tuning with formal data also enhances mathematics, reasoning, and coding capabilities. Fine-tuned models are released at https: //huggingface.co/fm-universe.

arxiv情報

著者 Jialun Cao,Yaojie Lu,Meiziniu Li,Haoyang Ma,Haokun Li,Mengda He,Cheng Wen,Le Sun,Hongyu Zhang,Shengchao Qin,Shing-Chi Cheung,Cong Tian
発行日 2025-03-05 15:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PL | From Informal to Formal — Incorporating and Evaluating LLMs on Natural Language Requirements to Verifiable Formal Proofs はコメントを受け付けていません

English K_Quantization of LLMs Does Not Disproportionately Diminish Multilingual Performance

要約

ローカルに展開されたLLMSの消費者使用のために、GGUF形式とK_QUANTIZATIONは、元のモデルのパフォーマンスを維持しながら、消費者グレードのハードウェアで展開可能なサイズに縮小するための貴重なツールです。
元のモデルからの各重量専用のビット数は、モデル推論中にそれらがどれほど重要であると考えられるかに基づいて減少します。
この重要性は、「重要性マトリックス」、つまりLLMの標準使用ケースを代表することを目的とした比較的小さなテキストドキュメントを適用することで得られます。
オンラインで入手可能な大部分のクアントでは、このドキュメントは主に英語で書かれています。
したがって、英語のタスクのパフォーマンスが多言語のパフォーマンスの犠牲によって保存されたかどうか、そしてそれが代替重要なマトリックスで保存できるかどうかは、未解決の問題でした。
この記事では、これらの仮説を調査し、3つの言語(英語、ノルウェー、マラヤラム)で書かれた重要なマトリックスでLLAMA3.3 70Bを量子化し、英語とノルウェーの両方のMixevalデータセットで評価します。
k_quantizationに関連するすべての実験により、重要でない結果が得られました(すべての場合、p> 0.237)。

要約(オリジナル)

For consumer usage of locally deployed LLMs, the GGUF format and k_quantization are invaluable tools for maintaining the performance of the original model while reducing it to sizes deployable with consumer-grade hardware. The number of bits dedicated to each weight from the original model is reduced based on how important they are thought to be during model inference. This importance is arrived at through the application of an ‘importance matrix’-a relatively small text document meant to be representative of the LLM’s standard use-cases. In the vast majority of quants available online, this document is primarily written in English. It was therefore an open question whether performance on English language tasks was preserved through the sacrifice of multilingual performance and whether it can be preserved with alternate importance matrices. This article investigates these hypotheses by quantizing Llama3.3 70B on importance matrices written in three languages (English, Norwegian, and Malayalam) and evaluating them on the MixEval dataset in both English and Norwegian. All experiments related to k_quantization yielded non-significant results (In all cases p > 0.237) indicating that current quantization practices do not disproportionately harm multilingual performance.

arxiv情報

著者 Karl Audun Borgersen
発行日 2025-03-05 15:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | English K_Quantization of LLMs Does Not Disproportionately Diminish Multilingual Performance はコメントを受け付けていません

Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs

要約

LLMは時系列予測において顕著な可能性を示していますが、それらの実際の展開は、過度の計算要求とメモリフットプリントによって制約されたままです。
既存のLLMベースのアプローチは、通常、3つの重大な制限に悩まされています。数値系列パターンの処理における非効率的なパラメーター利用。
連続的な時間信号と離散テキストの埋め込みの間のモダリティの不整列。
リアルタイムの専門知識統合の柔軟性。
効率的かつ正確な時系列予測のために、Sub-3BパラメーターSLMの最初の体系的な調査であるSmetiamesを提示します。
私たちのアプローチは、3つの主要な革新に焦点を当てています。記述的統計的特徴を通じてテキストセマンティクスを橋渡しする統計的に強化されたプロンプトメカニズム。
学習可能なパラメーターを介して、一時的なパターンを言語モデルトークンスペースと整列させる適応融合融合埋め込みアーキテクチャ。
SLMSの計算効率によって有効になった動的な混合フレームワークは、基本予測とドメイン固有のモデルを適応的に組み合わせて組み合わせています。
7つのベンチマークデータセットにわたる広範な評価は、3BパラメーターSLMが5つのプライマリデータセットで最先端のパフォーマンスを達成し、7BパラメーターLLMベースラインと比較して3.8倍のトレーニングと5.2倍低いメモリ消費を維持することを示しています。
特に、提案されているモデルは、より良い学習能力を示し、従来のLLMよりも12.3%低いMSEを達成しています。
アブレーション研究では、統計的プロンプトとクロスモーダル融合モジュールがそれぞれ15.7%および18.2%のエラー減少が長時間の予測タスクに貢献していることを検証しています。
効率性 – アクセラシーのトレードオフ状況を再定義することにより、この作業は、実用的な時系列予測のためのリソース集約型LLMの実行可能な代替品としてSLMを確立します。
コードとモデルはhttps://github.com/xiyan1234567/smetimesで入手できます。

要約(オリジナル)

While LLMs have demonstrated remarkable potential in time series forecasting, their practical deployment remains constrained by excessive computational demands and memory footprints. Existing LLM-based approaches typically suffer from three critical limitations: Inefficient parameter utilization in handling numerical time series patterns; Modality misalignment between continuous temporal signals and discrete text embeddings; and Inflexibility for real-time expert knowledge integration. We present SMETimes, the first systematic investigation of sub-3B parameter SLMs for efficient and accurate time series forecasting. Our approach centers on three key innovations: A statistically-enhanced prompting mechanism that bridges numerical time series with textual semantics through descriptive statistical features; A adaptive fusion embedding architecture that aligns temporal patterns with language model token spaces through learnable parameters; And a dynamic mixture-of-experts framework enabled by SLMs’ computational efficiency, adaptively combining base predictions with domain-specific models. Extensive evaluations across seven benchmark datasets demonstrate that our 3B-parameter SLM achieves state-of-the-art performance on five primary datasets while maintaining 3.8x faster training and 5.2x lower memory consumption compared to 7B-parameter LLM baselines. Notably, the proposed model exhibits better learning capabilities, achieving 12.3% lower MSE than conventional LLM. Ablation studies validate that our statistical prompting and cross-modal fusion modules respectively contribute 15.7% and 18.2% error reduction in long-horizon forecasting tasks. By redefining the efficiency-accuracy trade-off landscape, this work establishes SLMs as viable alternatives to resource-intensive LLMs for practical time series forecasting. Code and models are available at https://github.com/xiyan1234567/SMETimes.

arxiv情報

著者 Haoran Fan,Bin Li,Yixuan Weng,Shoujun Zhou
発行日 2025-03-05 15:27:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Small but Mighty: Enhancing Time Series Forecasting with Lightweight LLMs はコメントを受け付けていません