Benchmarking Time Series Forecasting Models: From Statistical Techniques to Foundation Models in Real-World Applications

要約

時系列予測は、ホスピタリティ業界の運用インテリジェンスに不可欠であり、特に大規模な分散システムでは挑戦的です。
この研究では、ドイツの何千ものレストランのネットワークからの実際のデータを使用して、14日間の地平線で1時間ごとの売り上げを予測する統計、機械学習(ML)、ディープラーニング、および基礎モデルのパフォーマンスを評価します。
予測ソリューションには、気象条件、カレンダーイベント、時刻のパターンなどの機能が含まれます。
結果は、MLベースのメタモデルの強力なパフォーマンスを示し、ChronosやTimesFMなどの基礎モデルの新たな可能性を強調します。これは、最小限の機能エンジニアリングで競争力のあるパフォーマンスを提供し、事前に訓練されたモデルのみを活用します(ゼロショット推論)。
さらに、ハイブリッドPyspark-Pandasアプローチは、大規模な展開で水平方向のスケーラビリティを達成するための堅牢なソリューションであることが証明されています。

要約(オリジナル)

Time series forecasting is essential for operational intelligence in the hospitality industry, and particularly challenging in large-scale, distributed systems. This study evaluates the performance of statistical, machine learning (ML), deep learning, and foundation models in forecasting hourly sales over a 14-day horizon using real-world data from a network of thousands of restaurants across Germany. The forecasting solution includes features such as weather conditions, calendar events, and time-of-day patterns. Results demonstrate the strong performance of ML-based meta-models and highlight the emerging potential of foundation models like Chronos and TimesFM, which deliver competitive performance with minimal feature engineering, leveraging only the pre-trained model (zero-shot inference). Additionally, a hybrid PySpark-Pandas approach proves to be a robust solution for achieving horizontal scalability in large-scale deployments.

arxiv情報

著者 Issar Arab,Rodrigo Benitez
発行日 2025-02-05 17:30:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Benchmarking Time Series Forecasting Models: From Statistical Techniques to Foundation Models in Real-World Applications はコメントを受け付けていません

Accurate AI-Driven Emergency Vehicle Location Tracking in Healthcare ITS Digital Twin

要約

ヘルスケア用のデジタルツイン(DT)の作成インテリジェント輸送システム(HITS)は、特に救急車が時間通りにクラッシュシーンに到着し、リアルタイムの場所を追跡する必要がある緊急事態で、ヒット管理の強化に焦点を当てたホットな研究動向です。
医療当局。
リアルタイムの表現の主張にもかかわらず、物理的ドメインと仮想ドメインの間で時間的な不整合が続き、救急車の位置表現の矛盾につながります。
この研究では、AI予測モデルの統合を提案し、特にベクトル回帰(SVR)および深部ニューラルネットワーク(DNN)をサポートし、構築されたモックDTデータパイプラインフレームワーク内で、仮想世界の医療車両の次の場所を予測します。
これらのモデルは、仮想表現を物理的なカウンターパートと並べ、つまり、2つの世界間の同期遅延を比phor的に相殺します。
歴史的な地理空間データセットで細心の注意を払って訓練されたSVRとDNNは、MATLABおよびPython環境で例外的な予測精度を示します。
さまざまなテストシナリオを通じて、私たちの方法論の有効性を視覚的に実証し、SVRとDNNの重要な役割を、ヒットのDT内の目撃されたギャップを大幅に削減します。
この変革的アプローチは、緊急ヒットのリアルタイム同期を約88%から93%増加させます。

要約(オリジナル)

Creating a Digital Twin (DT) for Healthcare Intelligent Transportation Systems (HITS) is a hot research trend focusing on enhancing HITS management, particularly in emergencies where ambulance vehicles must arrive at the crash scene on time and track their real-time location is crucial to the medical authorities. Despite the claim of real-time representation, a temporal misalignment persists between the physical and virtual domains, leading to discrepancies in the ambulance’s location representation. This study proposes integrating AI predictive models, specifically Support Vector Regression (SVR) and Deep Neural Networks (DNN), within a constructed mock DT data pipeline framework to anticipate the medical vehicle’s next location in the virtual world. These models align virtual representations with their physical counterparts, i.e., metaphorically offsetting the synchronization delay between the two worlds. Trained meticulously on a historical geospatial dataset, SVR and DNN exhibit exceptional prediction accuracy in MATLAB and Python environments. Through various testing scenarios, we visually demonstrate the efficacy of our methodology, showcasing SVR and DNN’s key role in significantly reducing the witnessed gap within the HITS’s DT. This transformative approach enhances real-time synchronization in emergency HITS by approximately 88% to 93%.

arxiv情報

著者 Sarah Al-Shareeda,Yasar Celik,Bilge Bilgili,Ahmed Al-Dubai,Berk Canberk
発行日 2025-02-05 17:32:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG | Accurate AI-Driven Emergency Vehicle Location Tracking in Healthcare ITS Digital Twin はコメントを受け付けていません

SPRI: Aligning Large Language Models with Context-Situated Principles

要約

特に複雑な人間の監視を必要とするタスクのために、人間の価値を統合して反映するために大規模な言語モデルを調整することは、リソース集約的で時間がかかるため、文脈固有のガイダンスのために人間の専門知識に依存することは困難です。
以前の研究では、事前に定義されたルールまたは原則のセットを利用して、モデルの動作を操縦しました(Bai et al。、2022; Sun et al。、2023)。
ただし、これらの原則は一般的である傾向があるため、個々の入力クエリまたはコンテキストに適応することは困難です。
この作業では、各入力クエリに対してガイドの原則をリアルタイムで自動的に生成するように設計された最小限または人間の努力を必要とするフレームワークである状況に基づいた原理(SPRI)を提示し、それらを利用して各応答を整列させます。
3つのタスクでSPRIを評価し、1)SPRIが専門家のパフォーマンスにつながる複雑なドメイン固有のタスクで原則を導き出すことができることを示します。
2)SPRIが生成した原理は、以前のLLMとしてのJudge As-a-Judgeのフレームワークを上回るインスタンス固有のルーブリックにつながります。
3)SPRIを使用して合成SFTデータを生成すると、真実性が大幅に改善されます。
https://github.com/honglizhan/spri-publicでコードとモデルの世代をリリースします。

要約(オリジナル)

Aligning Large Language Models to integrate and reflect human values, especially for tasks that demand intricate human oversight, is arduous since it is resource-intensive and time-consuming to depend on human expertise for context-specific guidance. Prior work has utilized predefined sets of rules or principles to steer the behavior of models (Bai et al., 2022; Sun et al., 2023). However, these principles tend to be generic, making it challenging to adapt them to each individual input query or context. In this work, we present Situated-PRInciples (SPRI), a framework requiring minimal or no human effort that is designed to automatically generate guiding principles in real-time for each input query and utilize them to align each response. We evaluate SPRI on three tasks, and show that 1) SPRI can derive principles in a complex domain-specific task that leads to on-par performance as expert-crafted ones; 2) SPRI-generated principles lead to instance-specific rubrics that outperform prior LLM-as-a-judge frameworks; 3) using SPRI to generate synthetic SFT data leads to substantial improvement on truthfulness. We release our code and model generations at https://github.com/honglizhan/SPRI-public.

arxiv情報

著者 Hongli Zhan,Muneeza Azmat,Raya Horesh,Junyi Jessy Li,Mikhail Yurochkin
発行日 2025-02-05 17:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SPRI: Aligning Large Language Models with Context-Situated Principles はコメントを受け付けていません

ExploreSelf: Fostering User-driven Exploration and Reflection on Personal Challenges with Adaptive Guidance by Large Language Models

要約

言葉でストレスの多い経験を表現することは、精神的および肉体的な健康を改善することが証明されていますが、個人は自分の考えや感情を整理するのに苦労しているときに介入を書くことに挑戦することがよくあります。
反射プロンプトは方向を提供するために使用されており、大規模な言語モデル(LLM)は、調整されたガイダンスを提供する可能性を実証しています。
ただし、現在のシステムは、多くの場合、ユーザーの柔軟性を制限して反射を指示します。
このように、ユーザーが反射的な旅を制御できるように設計されたLLM駆動型アプリケーションであるExplores自身が提示され、動的に生成された質問を通じて適応的なサポートを提供します。
19人の参加者との探索的研究を通じて、参加者がExplores自身を使用して個人的な課題を探求し、反映する方法を調べます。
私たちの調査結果は、参加者が反射的な旅を制御するための適応ガイダンスの柔軟なナビゲーションを評価し、より深いエンゲージメントと洞察につながることを示しています。
私たちの調査結果に基づいて、私たちは、個人的な課題の効果的かつ効果的な反映を促進するLLM主導のツールを設計することの意味について説明します。

要約(オリジナル)

Expressing stressful experiences in words is proven to improve mental and physical health, but individuals often disengage with writing interventions as they struggle to organize their thoughts and emotions. Reflective prompts have been used to provide direction, and large language models (LLMs) have demonstrated the potential to provide tailored guidance. However, current systems often limit users’ flexibility to direct their reflections. We thus present ExploreSelf, an LLM-driven application designed to empower users to control their reflective journey, providing adaptive support through dynamically generated questions. Through an exploratory study with 19 participants, we examine how participants explore and reflect on personal challenges using ExploreSelf. Our findings demonstrate that participants valued the flexible navigation of adaptive guidance to control their reflective journey, leading to deeper engagement and insight. Building on our findings, we discuss the implications of designing LLM-driven tools that facilitate user-driven and effective reflection of personal challenges.

arxiv情報

著者 Inhwa Song,SoHyun Park,Sachin R. Pendse,Jessica Lee Schleider,Munmun De Choudhury,Young-Ho Kim
発行日 2025-02-05 17:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, H.5.2 | ExploreSelf: Fostering User-driven Exploration and Reflection on Personal Challenges with Adaptive Guidance by Large Language Models はコメントを受け付けていません

Lightweight Authenticated Task Offloading in 6G-Cloud Vehicular Twin Networks

要約

6Gの車両ネットワークでの管理のオフロード管理は、特に車両がかなりのデータを生成するため、ネットワーク効率を維持するために重要です。
認証を通じて安全な通信を統合すると、追加の計算と通信のオーバーヘッドが導入され、オフロード効率と遅延に大きな影響を与えます。
このペーパーでは、クラウドベースの6G車両ツインネットワーク(VTNS)内でオフロードするタスクに軽量のアイデンティティベースの暗号化(IBC)認証を組み込んだ統一されたフレームワークを紹介します。
ディープ補強学習(DRL)における近位政策最適化(PPO)を利用すると、当社のアプローチは、レイテンシを最小限に抑え、リソース割り当てを強化するために、認証されたオフロード決定を最適化します。
さまざまなネットワークサイズ、タスクサイズ、およびデータレートでのパフォーマンス評価により、IBC認証は、オーバーヘッドが追加されているため、オフロード効率を最大50%減らすことができることが明らかになりました。
また、ネットワークのサイズとタスクサイズを増やすと、オフロード効率が最大91.7%減少する可能性があります。
対策として、送信データレートを上げると、認証オーバーヘッドが存在する場合でも、オフロードパフォーマンスが63%も改善できます。
このペーパーで詳述されているシミュレーションと実験のコードは、GitHubでさらに参照と再現性を求めて入手できます[1]。

要約(オリジナル)

Task offloading management in 6G vehicular networks is crucial for maintaining network efficiency, particularly as vehicles generate substantial data. Integrating secure communication through authentication introduces additional computational and communication overhead, significantly impacting offloading efficiency and latency. This paper presents a unified framework incorporating lightweight Identity-Based Cryptographic (IBC) authentication into task offloading within cloud-based 6G Vehicular Twin Networks (VTNs). Utilizing Proximal Policy Optimization (PPO) in Deep Reinforcement Learning (DRL), our approach optimizes authenticated offloading decisions to minimize latency and enhance resource allocation. Performance evaluation under varying network sizes, task sizes, and data rates reveals that IBC authentication can reduce offloading efficiency by up to 50% due to the added overhead. Besides, increasing network size and task size can further reduce offloading efficiency by up to 91.7%. As a countermeasure, increasing the transmission data rate can improve the offloading performance by as much as 63%, even in the presence of authentication overhead. The code for the simulations and experiments detailed in this paper is available on GitHub for further reference and reproducibility [1].

arxiv情報

著者 Sarah Al-Shareeda,Fusun Ozguner,Keith Redmill,Trung Q. Duong,Berk Canberk
発行日 2025-02-05 17:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | Lightweight Authenticated Task Offloading in 6G-Cloud Vehicular Twin Networks はコメントを受け付けていません

On Fairness of Unified Multimodal Large Language Model for Image Generation

要約

Unified Multimodal Large Languals Models(U-MLLMS)は、エンドツーエンドのパイプラインで視覚的理解と生成の印象的なパフォーマンスを実証しています。
Generationのみのモデル(例:安定した拡散)と比較して、U-MLLMSは、統一された機能の影響を受ける可能性のある出力のバイアスに関する新しい質問を提起する可能性があります。
このギャップは、有害なステレオタイプを伝播するという調査が不足しているリスクを考えると、特に懸念されます。
この論文では、最新のU-MLLMSをベンチマークし、ほとんどが性別や人種バイアスなどの重要な人口統計学的バイアスを示していることがわかります。
この問題をよりよく理解し、軽減するために、個々のモデルコンポーネントがバイアスによってどのように影響を受けるかを監査して示すために、ロケートツェンフィックス戦略を提案します。
私たちの分析は、バイアスが主に言語モデルから発生することを示しています。
さらに興味深いことに、U-MLLMSの「部分的なアライメント」現象を観察します。バイアスの理解は最小限に抑えられますが、生成バイアスは依然として大きなものです。
したがって、人口統計の分布と合成データのバランスをとるために、新しいバランスの取れた選好モデルを提案します。
実験は、私たちのアプローチがセマンティックの忠実度を維持しながら人口統計学的バイアスを減らすことを示しています。
私たちの調査結果は、将来のU-MLLMのより多くの全体的な解釈と紛争戦略の必要性を強調していることを願っています。

要約(オリジナル)

Unified multimodal large language models (U-MLLMs) have demonstrated impressive performance in visual understanding and generation in an end-to-end pipeline. Compared with generation-only models (e.g., Stable Diffusion), U-MLLMs may raise new questions about bias in their outputs, which can be affected by their unified capabilities. This gap is particularly concerning given the under-explored risk of propagating harmful stereotypes. In this paper, we benchmark the latest U-MLLMs and find that most exhibit significant demographic biases, such as gender and race bias. To better understand and mitigate this issue, we propose a locate-then-fix strategy, where we audit and show how the individual model component is affected by bias. Our analysis shows that bias originates primarily from the language model. More interestingly, we observe a ‘partial alignment’ phenomenon in U-MLLMs, where understanding bias appears minimal, but generation bias remains substantial. Thus, we propose a novel balanced preference model to balance the demographic distribution with synthetic data. Experiments demonstrate that our approach reduces demographic bias while preserving semantic fidelity. We hope our findings underscore the need for more holistic interpretation and debiasing strategies of U-MLLMs in the future.

arxiv情報

著者 Ming Liu,Hao Chen,Jindong Wang,Liwen Wang,Bhiksha Raj Ramakrishnan,Wensheng Zhang
発行日 2025-02-05 18:21:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | On Fairness of Unified Multimodal Large Language Model for Image Generation はコメントを受け付けていません

BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving

要約

大規模な言語モデル(LLMS)の最近の進歩は、実証検索スペースをナビゲートするために効果的なツリー検索方法が重要であるLEAN4を使用して証明する自動定理への関心の高まりに拍車をかけました。
既存のアプローチは主に値関数とモンテカルロツリー検索(MCTS)に依存していますが、ベストファースト検索(BFS)のようなより単純な方法の可能性は未定です。
このペーパーでは、BFSが大規模な定理証明タスクで競争力のあるパフォーマンスを達成できるかどうかを調査します。
3つの重要な革新を備えたスケーラブルな専門家イテレーションフレームワークである\ texttt {bfs-prover}を提示します。
まず、各エキスパートの反復ラウンドで戦略的データフィルタリングを実装します。ビーム検索ノード拡張を介して解決可能な問題を除き、より難しいケースに焦点を当てます。
第二に、コンパイラエラーフィードバックで自動的に注釈された状態タクシーなペアに適用される直接選好最適化(DPO)を通じてBFSのサンプル効率を改善し、生産的拡張を優先するためのLLMのポリシーを改善します。
第三に、BFSで長さの正規化を採用して、より深い証明経路の調査を促進します。
\ texttt {bfs-prover}は、Minif2Fテストセットで71.31ドルのスコアを達成し、したがって、複雑なツリー検索方法の知覚された必要性に挑戦し、BFSが適切にスケーリングされたときに競争力のあるパフォーマンスを達成できることを実証します。

要約(オリジナル)

Recent advancements in large language models (LLMs) have spurred growing interest in automatic theorem proving using Lean4, where effective tree search methods are crucial for navigating proof search spaces. While the existing approaches primarily rely on value functions and Monte Carlo Tree Search (MCTS), the potential of simpler methods like Best-First Search (BFS) remains underexplored. This paper investigates whether BFS can achieve competitive performance in large-scale theorem proving tasks. We present \texttt{BFS-Prover}, a scalable expert iteration framework, featuring three key innovations. First, we implement strategic data filtering at each expert iteration round, excluding problems solvable via beam search node expansion to focus on harder cases. Second, we improve the sample efficiency of BFS through Direct Preference Optimization (DPO) applied to state-tactic pairs automatically annotated with compiler error feedback, refining the LLM’s policy to prioritize productive expansions. Third, we employ length normalization in BFS to encourage exploration of deeper proof paths. \texttt{BFS-Prover} achieves a score of $71.31$ on the MiniF2F test set and therefore challenges the perceived necessity of complex tree search methods, demonstrating that BFS can achieve competitive performance when properly scaled.

arxiv情報

著者 Ran Xin,Chenguang Xi,Jie Yang,Feng Chen,Hang Wu,Xia Xiao,Yifan Sun,Shen Zheng,Kai Shen
発行日 2025-02-05 18:33:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | BFS-Prover: Scalable Best-First Tree Search for LLM-based Automatic Theorem Proving はコメントを受け付けていません

Solving Drone Routing Problems with Quantum Computing: A Hybrid Approach Combining Quantum Annealing and Gate-Based Paradigms

要約

このペーパーでは、量子コンピューティングの機能を活用することにより、実際のドローンルーティングの問題を解決するための新しいハイブリッドアプローチを紹介します。
ドローンルーティング(Q4DR)用の造影Quantumの提案方法は、フィールドで最も顕著な2つのパラダイムを統合します。EclipseQRISPプログラミング言語を介して、量子ゲートベースのコンピューティング。
d-waveシステムのデバイスによる量子アニール。
アルゴリズムは2つの異なるフェーズに分けられます。量子近似最適化アルゴリズム(QAOA)を使用して実行される初期クラスタリングフェーズと、量子アニーラーを使用するルーティングフェーズです。
Q4DRの有効性は、それぞれが非対称コスト、禁止パス、巡回充電ポイントなどの実際の制約を組み込んでいる複雑さの増加の3つのユースケースを通じて実証されています。
この研究は、量子最適化における成長する仕事に貢献し、物流とルート計画における量子コンピューティングの実用的なアプリケーションを紹介します。

要約(オリジナル)

This paper presents a novel hybrid approach to solving real-world drone routing problems by leveraging the capabilities of quantum computing. The proposed method, coined Quantum for Drone Routing (Q4DR), integrates the two most prominent paradigms in the field: quantum gate-based computing, through the Eclipse Qrisp programming language; and quantum annealers, by means of D-Wave System’s devices. The algorithm is divided into two different phases: an initial clustering phase executed using a Quantum Approximate Optimization Algorithm (QAOA), and a routing phase employing quantum annealers. The efficacy of Q4DR is demonstrated through three use cases of increasing complexity, each incorporating real-world constraints such as asymmetric costs, forbidden paths, and itinerant charging points. This research contributes to the growing body of work in quantum optimization, showcasing the practical applications of quantum computing in logistics and route planning.

arxiv情報

著者 Eneko Osaba,Pablo Miranda-Rodriguez,Andreas Oikonomakis,Matic Petrič,Alejandra Ruiz,Sebastian Bock,Michail-Alexandros Kourtis
発行日 2025-02-05 18:37:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, quant-ph | Solving Drone Routing Problems with Quantum Computing: A Hybrid Approach Combining Quantum Annealing and Gate-Based Paradigms はコメントを受け付けていません

A Schema-Guided Reason-while-Retrieve framework for Reasoning on Scene Graphs with Large-Language-Models (LLMs)

要約

シーングラフは、大きな言語モデル(LLM)を使用した接地された空間推論のための構造化されたシリアル化可能な環境表現として登場しました。
この作業では、SG-RWRを提案します。SG-RWRは、シーングラフを使用した推論と計画のために、スキーマガイド付きのリリースの回復フレームワークであることを提案します。
私たちのアプローチでは、2つの協同組合のコードライティングLLMエージェントを採用しています。A(1)タスク計画と情報クエリの生成の推論と、クエリ後に対応するグラフ情報を抽出するための(2)レトリバー。
2人のエージェントが繰り返し協力して、グラフ情報に順次推論と適応的な注意を喚起します。
以前の作品とは異なり、両方のエージェントは、完全なグラフデータではなくシーングラフスキーマでのみプロンプトされます。これにより、入力トークンを制限することで幻覚が減少し、推論のトレースを抽象的に生成するように促進されます。
スキーマの理解に基づいたグラフデータ。推論と検索のアラインメントを強化するグラフに動的かつグローバルな注意を払うことができます。
複数のシミュレーション環境での実験を通じて、私たちのフレームワークは、数値Q \&Aおよび計画タスクの既存のLLMベースのアプローチを上回り、エージェントレベルのデモがない場合でも、タスクレベルの少数の例の例から恩恵を受けることができます。
プロジェクトコードがリリースされます。

要約(オリジナル)

Scene graphs have emerged as a structured and serializable environment representation for grounded spatial reasoning with Large Language Models (LLMs). In this work, we propose SG-RwR, a Schema-Guided Retrieve-while-Reason framework for reasoning and planning with scene graphs. Our approach employs two cooperative, code-writing LLM agents: a (1) Reasoner for task planning and information queries generation, and a (2) Retriever for extracting corresponding graph information following the queries. Two agents collaborate iteratively, enabling sequential reasoning and adaptive attention to graph information. Unlike prior works, both agents are prompted only with the scene graph schema rather than the full graph data, which reduces the hallucination by limiting input tokens, and drives the Reasoner to generate reasoning trace abstractly.Following the trace, the Retriever programmatically query the scene graph data based on the schema understanding, allowing dynamic and global attention on the graph that enhances alignment between reasoning and retrieval. Through experiments in multiple simulation environments, we show that our framework surpasses existing LLM-based approaches in numerical Q\&A and planning tasks, and can benefit from task-level few-shot examples, even in the absence of agent-level demonstrations. Project code will be released.

arxiv情報

著者 Yiye Chen,Harpreet Sawhney,Nicholas Gydé,Yanan Jian,Jack Saunders,Patricio Vela,Ben Lundell
発行日 2025-02-05 18:50:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA, cs.RO | A Schema-Guided Reason-while-Retrieve framework for Reasoning on Scene Graphs with Large-Language-Models (LLMs) はコメントを受け付けていません

Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training

要約

小言語モデル(SLM)は、エッジデバイスでの幅広いアプリケーションのため、学界と産業の両方からかなりの注目を集めています。
強力なパフォーマンスでSLMSを取得するために、従来のアプローチはモデルをゼロから事前トレーニングするか、かなりの計算コストを負担するか、既存の大手言語モデル(LLMS)を圧縮/プルンするため、トレーニング前と比較してパフォーマンスが低下して低下します。

この論文では、構造化された剪定とモデルトレーニングの両方を含む加速方法のファミリーを調査します。
1)層ごとの適応剪定(Adapt-Pruner)はLLMSで非常に効果的であり、既存の剪定技術よりも大幅な改善が得られます。
漸進的なプルーニングは、トレーニングで剪定を介入し、一度にニューロンのごく一部($ \ sim $ 5%)のみを除去することにより、非自明のパフォーマンスの向上をもたらします。
LLAMA-3.1-8Bの実験結果は、Adapt-Prunerが、LLM-Pruner、Flap、SliceGptなどの従来の剪定方法よりも平均1%〜7%であることを示しています。
さらに、Adapt-Prunerは、MMLUベンチマークでMobilellm-125mから600mのパフォーマンスを回復し、その大規模なカウンターパートからの剪定により200 $ \ Times $のトークンが少なく、複数のベンチマークでラマ-3.2-1Bを上回る新しい1Bモデルを発見します。

要約(オリジナル)

Small language models (SLMs) have attracted considerable attention from both academia and industry due to their broad range of applications in edge devices. To obtain SLMs with strong performance, conventional approaches either pre-train the models from scratch, which incurs substantial computational costs, or compress/prune existing large language models (LLMs), which results in performance drops and falls short in comparison to pre-training. In this paper, we investigate the family of acceleration methods that involve both structured pruning and model training. We found 1) layer-wise adaptive pruning (Adapt-Pruner) is extremely effective in LLMs and yields significant improvements over existing pruning techniques, 2) adaptive pruning equipped with further training leads to models comparable to those pre-training from scratch, 3) incremental pruning brings non-trivial performance gain by interleaving pruning with training and only removing a small portion of neurons ($\sim$5%) at a time. Experimental results on LLaMA-3.1-8B demonstrate that Adapt-Pruner outperforms conventional pruning methods, such as LLM-Pruner, FLAP, and SliceGPT, by an average of 1%-7% in accuracy on commonsense benchmarks. Additionally, Adapt-Pruner restores the performance of MobileLLM-125M to 600M on the MMLU benchmark with 200$\times$ fewer tokens via pruning from its larger counterparts, and discovers a new 1B model that surpasses LLaMA-3.2-1B in multiple benchmarks.

arxiv情報

著者 Boyao Wang,Rui Pan,Shizhe Diao,Xingyuan Pan,Jipeng Zhang,Renjie Pi,Tong Zhang
発行日 2025-02-05 18:57:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Adapt-Pruner: Adaptive Structural Pruning for Efficient Small Language Model Training はコメントを受け付けていません