Learning Generalized Hamiltonians using fully Symplectic Mappings

要約

多くの重要な物理システムは、保守的であるという重要な特性を持っているハミルトニアンシステムの進化として説明できます。つまり、エネルギーは進化を通して保存されています。
物理学に情報に基づいたニューラルネットワーク、特にハミルトン神経ネットワークは、構造的誘導バイアスをNNモデルに組み込むメカニズムとして浮上しています。
物理的な侵略性が保存されることを保証することにより、モデルは標準のNNよりも大幅に良いサンプルの複雑さと分散分布の精度を示します。
したがって、システムのサンプル観測からの標準変数、通常は位置と速度の関数としてハミルトニアンを学習することは、システムの識別とシステム動作の長期予測において重要なタスクになります。
ただし、ハミルトニアンシステムの長期的な物理的保存特性を真に保存するには、システムのシミュレーションの前方パスにシンプレクティックインテグレーターを使用する必要があります。
シンプレクティックスキームは文献で使用されていますが、分離可能なハミルトニアンまたは分離不可能なハミルトニアンの拡張を含む明示的なアルゴリズムに還元する場合、それらはこれまでの状況に限定されています。
一般化された非分離不可能なハミルトニアンに拡張し、Sympectic Integratorsの自己adjointプロパティに注目して、ODEソルバーを介して計算的に集中的なバックプロパゲーションをバイパスします。
この方法はノイズに対して堅牢であり、状態変数が騒々しい観測からサンプリングされたときにシステムのハミルトニアンの適切な近似を提供することを示します。
数値結果では、ハミルトニアンの再建と保存に関する方法のパフォーマンスを示し、分離不可能なシステムの特別な利点を示しています。

要約(オリジナル)

Many important physical systems can be described as the evolution of a Hamiltonian system, which has the important property of being conservative, that is, energy is conserved throughout the evolution. Physics Informed Neural Networks and in particular Hamiltonian Neural Networks have emerged as a mechanism to incorporate structural inductive bias into the NN model. By ensuring physical invariances are conserved, the models exhibit significantly better sample complexity and out-of-distribution accuracy than standard NNs. Learning the Hamiltonian as a function of its canonical variables, typically position and velocity, from sample observations of the system thus becomes a critical task in system identification and long-term prediction of system behavior. However, to truly preserve the long-run physical conservation properties of Hamiltonian systems, one must use symplectic integrators for a forward pass of the system’s simulation. While symplectic schemes have been used in the literature, they are thus far limited to situations when they reduce to explicit algorithms, which include the case of separable Hamiltonians or augmented non-separable Hamiltonians. We extend it to generalized non-separable Hamiltonians, and noting the self-adjoint property of symplectic integrators, we bypass computationally intensive backpropagation through an ODE solver. We show that the method is robust to noise and provides a good approximation of the system Hamiltonian when the state variables are sampled from a noisy observation. In the numerical results, we show the performance of the method concerning Hamiltonian reconstruction and conservation, indicating its particular advantage for non-separable systems.

arxiv情報

著者 Harsh Choudhary,Chandan Gupta,Vyacheslav kungrutsev,Melvin Leok,Georgios Korpas
発行日 2025-05-23 16:20:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Learning Generalized Hamiltonians using fully Symplectic Mappings はコメントを受け付けていません

AFD-STA: Adaptive Filtering Denoising with Spatiotemporal Attention for Chaotic System Prediction

要約

このホワイトペーパーでは、部分的な微分方程式によって支配された高次元のカオスシステムを予測するための適応型フィルタリングと空間的ダイナミクス学習を統合する神経フレームワークであるAFD-STAネットを紹介します。
アーキテクチャは次のとおりです。1)堅牢なアトラクタの再構築のための位置認識の減衰係数を備えた適応的指数スムージングモジュール、2)並列および空間的依存関係を捕捉する並列注意メカニズム、3)マルチスケール機能の動的ゲート融合、および4)寸法能力を備えた深い投影ネットワーク。
非線形PDEシステムの数値実験は、適応フィルタリングを通じてノイズ耐性を示しながら、滑らかなおよび強く混oticとしたレジームの両方で予測精度を維持する際のモデルの有効性を示しています。
コンポーネントアブレーション研究は、各モジュールからの重要な貢献を確認し、特に複雑な動的相互作用を学習する際の時空間的注意の本質的な役割を強調しています。
このフレームワークは、測定不確実性と高次元の非線形ダイナミクスの同時処理を必要とする現実世界のアプリケーションの有望な可能性を示しています。

要約(オリジナル)

This paper presents AFD-STA Net, a neural framework integrating adaptive filtering and spatiotemporal dynamics learning for predicting high-dimensional chaotic systems governed by partial differential equations. The architecture combines: 1) An adaptive exponential smoothing module with position-aware decay coefficients for robust attractor reconstruction, 2) Parallel attention mechanisms capturing cross-temporal and spatial dependencies, 3) Dynamic gated fusion of multiscale features, and 4) Deep projection networks with dimension-scaling capabilities. Numerical experiments on nonlinear PDE systems demonstrate the model’s effectiveness in maintaining prediction accuracy under both smooth and strongly chaotic regimes while exhibiting noise tolerance through adaptive filtering. Component ablation studies confirm critical contributions from each module, particularly highlighting the essential role of spatiotemporal attention in learning complex dynamical interactions. The framework shows promising potential for real-world applications requiring simultaneous handling of measurement uncertainties and high-dimensional nonlinear dynamics.

arxiv情報

著者 Chunlin Gong,Yin Wang,Jingru Li,Hanleran Zhang
発行日 2025-05-23 16:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | AFD-STA: Adaptive Filtering Denoising with Spatiotemporal Attention for Chaotic System Prediction はコメントを受け付けていません

Backpropagation-Free Metropolis-Adjusted Langevin Algorithm

要約

Backpropagationのない学習に関する最近の研究により、Forward-Mode Automatic Diftatic(AD)を使用して微分可能なモデルで最適化を実行できることが示されています。
フォワードモード広告では、モデルのフォワードパスごとに接線ベクトルをサンプリングする必要があります。
その結果、接線に沿った方向導関数を使用したモデル評価が得られます。
この論文では、この接線ベクトルのサンプリングを、大都市調整されたランジュビンアルゴリズム(MALA)の提案メカニズムにどのように組み込むことができるかを示します。
そのため、私たちは、バックプロパゲーションフリーの勾配ベースのマルコフチェーンモンテカルロ(MCMC)アルゴリズムを導入した最初の人です。
また、ヘシアン情報を活用する新しいバックプロパゲーションのない位置固有の前委員会の前方モードMALAにも拡張されます。
全体として、4つの新しいアルゴリズムを提案します。フォワードマラ。
前方のマラ;
事前にコンディショニングされた前方マラ、および事前にコンディショニングされたラインフォワードマラ。
フォワードモードサンプラーの計算コストの削減を強調し、フォワードモードが元のMALAと競合していると同時に、確率モデルに応じてパフォーマンスを上回っていることを示します。
階層分布やベイジアンニューラルネットワークなど、さまざまな確率モデルにベイジアン推論の結果を含めます。

要約(オリジナル)

Recent work on backpropagation-free learning has shown that it is possible to use forward-mode automatic differentiation (AD) to perform optimization on differentiable models. Forward-mode AD requires sampling a tangent vector for each forward pass of a model. The result is the model evaluation with the directional derivative along the tangent. In this paper, we illustrate how the sampling of this tangent vector can be incorporated into the proposal mechanism for the Metropolis-Adjusted Langevin Algorithm (MALA). As such, we are the first to introduce a backpropagation-free gradient-based Markov chain Monte Carlo (MCMC) algorithm. We also extend to a novel backpropagation-free position-specific preconditioned forward-mode MALA that leverages Hessian information. Overall, we propose four new algorithms: Forward MALA; Line Forward MALA; Pre-conditioned Forward MALA, and Pre-conditioned Line Forward MALA. We highlight the reduced computational cost of the forward-mode samplers and show that forward-mode is competitive with the original MALA, while even outperforming it depending on the probabilistic model. We include Bayesian inference results on a range of probabilistic models, including hierarchical distributions and Bayesian neural networks.

arxiv情報

著者 Adam D. Cobb,Susmit Jha
発行日 2025-05-23 16:39:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Backpropagation-Free Metropolis-Adjusted Langevin Algorithm はコメントを受け付けていません

Stable Reinforcement Learning for Efficient Reasoning

要約

DeepSeek-R1の成功により、GRPOなどの強化学習(RL)方法に対するLLMコミュニティの注意が集まりました。
ただし、このようなルールベースの0/1結果報酬方法には、考え方(COT)生成中の中間推論プロセスを調節する能力があり、深刻な考え直し現象につながります。
これに応じて、最近の研究は、より短いが正しい完了を生み出す際のモデルの動作を強化するための報酬機能を設計しています。
それにもかかわらず、これらの長さのペナルティ報酬関数はRLトレーニングの不安定性を悪化させていることがわかります。完了長が減少すると、モデルの精度が急激に崩壊し、トレーニングの早い段階で発生することがよくあります。
この問題に対処するために、GRPOの効率的かつ安定したバリアントであるシンプルで効果的なソリューションGRPO-$ \ Lambda $を提案します。これは、各クエリサンプリンググループ内の完成間の正しさ比を監視することにより、報酬戦略を動的に調整します。
低い正しさ比は、COTの品質を損なう長さのペナルティを回避する必要性を示し、推論能力に優先順位を付ける長さと存在する0/1報酬への切り替えをトリガーします。
高い比率は、効率を高めるために長さのペナルティを維持します。
実験結果は、私たちのアプローチが、最適な精度効率のトレードオフを維持しながら、長さのペナルティによって引き起こされるトレーニングの不安定性を回避することを示しています。
GSM8K、GPQA、MATH-500、AMC 2023、およびAIME 2024ベンチマークでは、COTシーケンスの長さを47.3%削減しながら、平均精度を1.48%向上させます。

要約(オリジナル)

The success of Deepseek-R1 has drawn the LLM community’s attention to reinforcement learning (RL) methods like GRPO. However, such rule-based 0/1 outcome reward methods lack the capability to regulate the intermediate reasoning processes during chain-of-thought (CoT) generation, leading to severe overthinking phenomena. In response, recent studies have designed reward functions to reinforce models’ behaviors in producing shorter yet correct completions. Nevertheless, we observe that these length-penalty reward functions exacerbate RL training instability: as the completion length decreases, model accuracy abruptly collapses, often occurring early in training. To address this issue, we propose a simple yet effective solution GRPO-$\lambda$, an efficient and stabilized variant of GRPO, which dynamically adjusts the reward strategy by monitoring the correctness ratio among completions within each query-sampled group. A low correctness ratio indicates the need to avoid length penalty that compromises CoT quality, triggering a switch to length-agnostic 0/1 rewards that prioritize reasoning capability. A high ratio maintains length penalties to boost efficiency. Experimental results show that our approach avoids training instability caused by length penalty while maintaining the optimal accuracy-efficiency trade-off. On the GSM8K, GPQA, MATH-500, AMC 2023, and AIME 2024 benchmarks, it improves average accuracy by 1.48% while reducing CoT sequence length by 47.3%.

arxiv情報

著者 Muzhi Dai,Shixuan Liu,Qingyi Si
発行日 2025-05-23 16:43:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Stable Reinforcement Learning for Efficient Reasoning はコメントを受け付けていません

An alignment safety case sketch based on debate

要約

AIシステムが幅広いタスクで人間の能力に一致するか、それを超えると、人間が自分の行動を効率的に判断することが困難になる可能性があります。
提案されている解決策の1つは、別の超人的システムを活用して、議論を介してシステムの出力の欠陥を指摘することです。
このペーパーでは、AIの安全性に関する議論の価値、および議論を行うために必要な仮定とさらなる研究の概要を説明します。
「Alignment Safety Case」をスケッチすることでそうします。これは、AIシステムがそうすることができるにもかかわらず、ひどい害につながる可能性のある行動を自律的に行​​わないという議論です。
このスケッチは、たとえば誤った結果を生成することにより、研究を妨害するAI会社内のAI R \&Dエージェントのリスクに焦点を当てています。
これを防ぐために、エージェントは、システムに正直であることを教えるために、探査保証の対象となる議論によって訓練されます。
誠実さは、オンライントレーニングを介して展開を通して維持されます。
安全性のケースは、4つの重要な主張に基づいています。(1)エージェントは討論ゲームで良くなり、(2)討論ゲームの良好なパフォーマンスは、システムがほとんど正直であることを意味します。
私たちは、解決されれば、これをAIシステムが安全であるという説得力のある議論にすることができるというオープンな研究問題を特定します。

要約(オリジナル)

If AI systems match or exceed human capabilities on a wide range of tasks, it may become difficult for humans to efficiently judge their actions — making it hard to use human feedback to steer them towards desirable traits. One proposed solution is to leverage another superhuman system to point out flaws in the system’s outputs via a debate. This paper outlines the value of debate for AI safety, as well as the assumptions and further research required to make debate work. It does so by sketching an “alignment safety case” — an argument that an AI system will not autonomously take actions which could lead to egregious harm, despite being able to do so. The sketch focuses on the risk of an AI R\&D agent inside an AI company sabotaging research, for example by producing false results. To prevent this, the agent is trained via debate, subject to exploration guarantees, to teach the system to be honest. Honesty is maintained throughout deployment via online training. The safety case rests on four key claims: (1) the agent has become good at the debate game, (2) good performance in the debate game implies that the system is mostly honest, (3) the system will not become significantly less honest during deployment, and (4) the deployment context is tolerant of some errors. We identify open research problems that, if solved, could render this a compelling argument that an AI system is safe.

arxiv情報

著者 Marie Davidsen Buhl,Jacob Pfau,Benjamin Hilton,Geoffrey Irving
発行日 2025-05-23 16:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | An alignment safety case sketch based on debate はコメントを受け付けていません

Data Mixing Can Induce Phase Transitions in Knowledge Acquisition

要約

大規模な言語モデル(LLM)は通常、データの混合物でトレーニングされています。ほとんどのデータはWebスクレイプからのものですが、小さな部分は密度の高いドメイン固有の知識を持つ高品質のソースからキュレーションされています。
この論文では、そのようなデータ混合物でLLMをトレーニングするとき、知識密度の高いデータ(ARXIV:2404.05405)のみでのトレーニングとは異なり、知識密度の高いデータセットからの知識習得は、常にスムーズなスケーリング法則に従うことはできませんが、混合比とモデルサイズに関して位相遷移を示すことができます。
Webスクラップデータと混合された合成伝記データセットでの制御された実験により、次のことを実証します。(1)モデルサイズをクリティカル値に増やすと、モデルは突然、ほとんどの伝記を記憶から記憶することから移行します。
(2)重要な混合比以下では、モデルは広範なトレーニングでさえほとんど何も記憶していませんが、このしきい値を超えて、より多くの伝記を迅速に記憶しています。
これらの位相遷移は、容量割り当て現象に起因すると考えています。容量の境界を持つモデルは、全体的なテスト損失を最小限に抑えるためにナップサック問題ソルバーのように動作する必要があり、データセット全体の最適な割り当ては、モデルサイズまたは混合比が変化するにつれて不連続に変化する可能性があります。
この直観を情報理論的フレームワークで正式に形式化し、これらの位相遷移が予測可能であり、モデルサイズとのパワーロー関係に続く重要な混合比があることを明らかにします。
私たちの調査結果は、大規模なモデルの優れたミキシングレシピが小さなモデルに最適ではなく、その逆も同様である具体的なケースを強調しています。

要約(オリジナル)

Large Language Models (LLMs) are typically trained on data mixtures: most data come from web scrapes, while a small portion is curated from high-quality sources with dense domain-specific knowledge. In this paper, we show that when training LLMs on such data mixtures, knowledge acquisition from knowledge-dense datasets, unlike training exclusively on knowledge-dense data (arXiv:2404.05405), does not always follow a smooth scaling law but can exhibit phase transitions with respect to the mixing ratio and model size. Through controlled experiments on a synthetic biography dataset mixed with web-scraped data, we demonstrate that: (1) as we increase the model size to a critical value, the model suddenly transitions from memorizing very few to most of the biographies; (2) below a critical mixing ratio, the model memorizes almost nothing even with extensive training, but beyond this threshold, it rapidly memorizes more biographies. We attribute these phase transitions to a capacity allocation phenomenon: a model with bounded capacity must act like a knapsack problem solver to minimize the overall test loss, and the optimal allocation across datasets can change discontinuously as the model size or mixing ratio varies. We formalize this intuition in an information-theoretic framework and reveal that these phase transitions are predictable, with the critical mixing ratio following a power-law relationship with the model size. Our findings highlight a concrete case where a good mixing recipe for large models may not be optimal for small models, and vice versa.

arxiv情報

著者 Xinran Gu,Kaifeng Lyu,Jiazheng Li,Jingzhao Zhang
発行日 2025-05-23 16:46:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Data Mixing Can Induce Phase Transitions in Knowledge Acquisition はコメントを受け付けていません

Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL

要約

大規模な言語モデル(LLM)は、質問の回答や対話などのタスクで優れていますが、交渉や説得などの相互作用を必要とする複雑なタスクには、追加の長期の推論と計画が必要です。
強化学習(RL)微調整は、原則としてそのような計画を可能にすることができますが、スケーラビリティを妨げる欠点に悩まされます。
特に、マルチターンRLトレーニングには高いメモリと計算コストが発生します。これは、LLMSをポリシーとしてトレーニングするときに悪化します。
さらに、最大のLLMは、そのような方法で訓練されるために必要なAPIを暴露しません。
その結果、LLMの推論を改善するための最新の方法は、RL微調整ではなく、洗練されたプロンプトメカニズムに依存しています。
これを改善するために、ゴールコンディショニングされた値関数を使用してLLMエージェントの推論を導く新しいアプローチを提案します。
これらの値関数は、アクションを与えられたタスクがどのように展開されるかを予測し、LLMエージェントが正と否定の両方の複数の可能な結果を​​効果的に計画できるようにします。
さらに、これらの値関数は、完全なアクションではなく推論ステップでトレーニングされ、マルチターン相互作用の意思決定を促進する簡潔で軽量のモジュールになります。
ツールの使用、ソーシャル控除、対話など、相互作用を必要とするタスクでの方法を検証し、効率とスケーラビリティを維持しながら、RLの微調整とプロンプトの両方の方法よりも優れたパフォーマンスを実証します。

要約(オリジナル)

Large language models (LLMs) excel in tasks like question answering and dialogue, but complex tasks requiring interaction, such as negotiation and persuasion, require additional long-horizon reasoning and planning. Reinforcement learning (RL) fine-tuning can enable such planning in principle, but suffers from drawbacks that hinder scalability. In particular, multi-turn RL training incurs high memory and computational costs, which are exacerbated when training LLMs as policies. Furthermore, the largest LLMs do not expose the APIs necessary to be trained in such manner. As a result, modern methods to improve the reasoning of LLMs rely on sophisticated prompting mechanisms rather than RL fine-tuning. To remedy this, we propose a novel approach that uses goal-conditioned value functions to guide the reasoning of LLM agents, that scales even to large API-based models. These value functions predict how a task will unfold given an action, allowing the LLM agent to evaluate multiple possible outcomes, both positive and negative, to plan effectively. In addition, these value functions are trained over reasoning steps rather than full actions, to be a concise and light-weight module that facilitates decision-making in multi-turn interactions. We validate our method on tasks requiring interaction, including tool use, social deduction, and dialogue, demonstrating superior performance over both RL fine-tuning and prompting methods while maintaining efficiency and scalability.

arxiv情報

著者 Joey Hong,Anca Dragan,Sergey Levine
発行日 2025-05-23 16:51:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Planning without Search: Refining Frontier LLMs with Offline Goal-Conditioned RL はコメントを受け付けていません

How Can I Publish My LLM Benchmark Without Giving the True Answers Away?

要約

インターネット上の大規模な言語モデル(LLM)ベンチマークを公開することは、将来のLLMを汚染するリスク:モデルのトレーニングまたは選択に意図せずに(または意図的に)使用される場合があります。
一般的な緩和は、ベンチマークをプライベートに保ち、参加者に自分のモデルまたは予測を主催者に提出できるようにすることです。
ただし、この戦略には単一の組織への信頼が必要であり、繰り返しのクエリを通じてテストセットの過剰適合を許可します。
この問題を克服するために、LLMSを公然と評価する能力を維持しながら、質問に対する根底にある回答を完全に開示することなく、ベンチマークを公開する方法を提案します。
私たちの主なアイデアは、いくつかの論理的に正しい回答を準備することにより、答えにランダム性を注入することであり、そのうちの1つだけをベンチマークの解決策として含めることです。
これにより、ベンチマークの可能な限り最高の精度、つまりベイズの精度が低下します。
これは、私たちがグラウンドトゥルースを開示しないようにするのに役立つだけでなく、このアプローチもデータの汚染を検出するためのテストを提供します。
原則として、完全に能力のあるモデルでさえベイズの精度を上回るべきではありません。
この期待にもかかわらず、モデルがこの天井を上回る場合、これはデータ汚染の強いシグナルです。
私たちの方法は、さまざまなベンチマーク、モデル、およびトレーニング方法論でデータの汚染を正確に検出できるという実験的証拠を提示します。

要約(オリジナル)

Publishing a large language model (LLM) benchmark on the Internet risks contaminating future LLMs: the benchmark may be unintentionally (or intentionally) used to train or select a model. A common mitigation is to keep the benchmark private and let participants submit their models or predictions to the organizers. However, this strategy will require trust in a single organization and still permits test-set overfitting through repeated queries. To overcome this issue, we propose a way to publish benchmarks without completely disclosing the ground-truth answers to the questions, while still maintaining the ability to openly evaluate LLMs. Our main idea is to inject randomness to the answers by preparing several logically correct answers, and only include one of them as the solution in the benchmark. This reduces the best possible accuracy, i.e., Bayes accuracy, of the benchmark. Not only is this helpful to keep us from disclosing the ground truth, but this approach also offers a test for detecting data contamination. In principle, even fully capable models should not surpass the Bayes accuracy. If a model surpasses this ceiling despite this expectation, this is a strong signal of data contamination. We present experimental evidence that our method can detect data contamination accurately on a wide range of benchmarks, models, and training methodologies.

arxiv情報

著者 Takashi Ishida,Thanawat Lodkaew,Ikko Yamane
発行日 2025-05-23 16:57:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME | How Can I Publish My LLM Benchmark Without Giving the True Answers Away? はコメントを受け付けていません

Activated LoRA: Fine-tuned LLMs for Intrinsics

要約

低ランク適応(LORA)は、大規模な基礎モデルの重みを微調整するための非常に効率的なフレームワークとして浮上しており、LLMSのデータ駆動型カスタマイズの頼りになる方法となっています。
高度にカスタマイズされた動作と機能の約束にもかかわらず、ターン履歴全体のキー価値(kV)キャッシュは、世代を開始する前にロラの重みと再計算する必要があるため、マルチターン設定で関連するLORAを切り替えることは非効率的です。
この問題に対処するために、Aloraが呼び出されたシーケンス\ end {after}のシーケンス\ end {after}のトークンのみを適応させるためにLoraフレームワークを変更するアダプターアーキテクチャであるアクティブ化されたLora(Alora)を提案します。
この変更により、アロラは入力文字列の基本モデルのKVキャッシュを受け入れることができます。つまり、キャッシュを再計算せずにチェーンで必要なときはいつでもアロラを即座にアクティブにすることができます。
これにより、私たちが呼ぶものを構築することができます\ emphing {Intrinsics}、つまり、デフォルトでベースモデルを使用する入力チェーンまたは会話の一部で明確に定義された操作を実行するために呼び出された専門モデル。
アロラベースの一連の内在性モデルを訓練し、標準のロラとの競争精度を実証しながら、重要な推論上の利点を達成します。
補足資料にアロラを実装するコードベースを含めます。

要約(オリジナル)

Low-Rank Adaptation (LoRA) has emerged as a highly efficient framework for finetuning the weights of large foundation models, and has become the go-to method for data-driven customization of LLMs. Despite the promise of highly customized behaviors and capabilities, switching between relevant LoRAs in a multiturn setting is inefficient, as the key-value (KV) cache of the entire turn history must be recomputed with the LoRA weights before generation can begin. To address this problem, we propose Activated LoRA (aLoRA), an adapter architecture which modifies the LoRA framework to only adapt weights for the tokens in the sequence \emph{after} the aLoRA is invoked. This change crucially allows aLoRA to accept the base model’s KV cache of the input string, meaning that aLoRA can be instantly activated whenever needed in a chain without recomputing the cache. This enables building what we call \emph{intrinsics}, i.e. specialized models invoked to perform well-defined operations on portions of an input chain or conversation that otherwise uses the base model by default. We train a set of aLoRA-based intrinsics models, demonstrating competitive accuracy with standard LoRA while achieving significant inference benefits. We include a codebase implementing aLoRA in the supplementary material.

arxiv情報

著者 Kristjan Greenewald,Luis Lastras,Thomas Parnell,Vraj Shah,Lucian Popa,Giulio Zizzo,Chulaka Gunasekara,Ambrish Rawat,David Cox
発行日 2025-05-23 17:02:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Activated LoRA: Fine-tuned LLMs for Intrinsics はコメントを受け付けていません

Bidirectional Knowledge Distillation for Enhancing Sequential Recommendation with Large Language Models

要約

大規模な言語モデル(LLMS)は、セマンティックパターンの理解と生成において並外れたパフォーマンスを実証しており、連続的な推奨タスクの有望な候補者になっています。
ただし、従来の推奨モデル(CRM)と組み合わせると、LLMは多くの場合、高い推論コストと静的な知識転送方法に関連する課題に直面しています。
この論文では、LLM中心とCRMベースの推奨システム間の動的および双方向の知識交換を促進する新しい相互蒸留フレームワークLLMD4RECを提案します。
従来の一方向性蒸留方法とは異なり、LLMD4RECは両方のモデルを交互に改良し、CRMSのセマンティック理解を高め、ユーザーアイテムの相互作用からの共同信号でLLMを濃縮することにより、反復的な最適化を可能にします。
サンプルごとの適応重み付けを活用し、出力分布を調整することにより、私たちのアプローチは、効果的な知識移転を確保しながら、追加のパラメーターの必要性を排除します。
実際のデータセットでの広範な実験は、LLMD4RECが推論コストを増加させることなく複数のベンチマークにわたって推奨の精度を大幅に改善することを示しています。
この方法は、順次推奨システムでLLMとCRMの両方の強度を組み合わせるためのスケーラブルで効率的なソリューションを提供します。

要約(オリジナル)

Large language models (LLMs) have demonstrated exceptional performance in understanding and generating semantic patterns, making them promising candidates for sequential recommendation tasks. However, when combined with conventional recommendation models (CRMs), LLMs often face challenges related to high inference costs and static knowledge transfer methods. In this paper, we propose a novel mutual distillation framework, LLMD4Rec, that fosters dynamic and bidirectional knowledge exchange between LLM-centric and CRM-based recommendation systems. Unlike traditional unidirectional distillation methods, LLMD4Rec enables iterative optimization by alternately refining both models, enhancing the semantic understanding of CRMs and enriching LLMs with collaborative signals from user-item interactions. By leveraging sample-wise adaptive weighting and aligning output distributions, our approach eliminates the need for additional parameters while ensuring effective knowledge transfer. Extensive experiments on real-world datasets demonstrate that LLMD4Rec significantly improves recommendation accuracy across multiple benchmarks without increasing inference costs. This method provides a scalable and efficient solution for combining the strengths of both LLMs and CRMs in sequential recommendation systems.

arxiv情報

著者 Jiongran Wu,Jiahao Liu,Dongsheng Li,Guangping Zhang,Mingzhe Han,Hansu Gu,Peng Zhang,Li Shang,Tun Lu,Ning Gu
発行日 2025-05-23 17:21:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Bidirectional Knowledge Distillation for Enhancing Sequential Recommendation with Large Language Models はコメントを受け付けていません