Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning

要約

リプレイベースの継続学習(CL)メソッドは、小さなサブセットでトレーニングされたモデルが完全なデータセットの経験的リスクを効果的に最小限に抑えることができると想定しています。
これらの方法は、過去の知識を統合するために、以前のタスクからサンプルされたデータのサブセットを保存するメモリバッファーを維持します。
ただし、メモリバッファーの容量が限られているため、バッファーデータの選択に使用されるヒューリスティックな基準により、この仮定は実際には保証されていません。
この問題に対処するために、CLに合わせた新しいデータセット蒸留フレームワークを提案します。CLに合わせて、学習可能なメモリバッファーを維持し、現在のタスクデータからグローバルな情報を蒸留し、以前のメモリバッファに保存されている知識を蓄積します。
さらに、蒸留中のバッファー全体のパラメーター化に関連する計算オーバーヘッドと過剰適合リスクを回避するために、メモリバッファーデータの学習可能なソフトラベルを生成するだけでグローバルな情報蒸留を実現できる軽量蒸留モジュールを導入します。
広範な実験では、我々の方法が競争力のある結果を達成し、さまざまなデータセット全体で忘れることを効果的に軽減できることが示されています。
ソースコードは公開されます。

要約(オリジナル)

Replay-based continual learning (CL) methods assume that models trained on a small subset can also effectively minimize the empirical risk of the complete dataset. These methods maintain a memory buffer that stores a sampled subset of data from previous tasks to consolidate past knowledge. However, this assumption is not guaranteed in practice due to the limited capacity of the memory buffer and the heuristic criteria used for buffer data selection. To address this issue, we propose a new dataset distillation framework tailored for CL, which maintains a learnable memory buffer to distill the global information from the current task data and accumulated knowledge preserved in the previous memory buffer. Moreover, to avoid the computational overhead and overfitting risks associated with parameterizing the entire buffer during distillation, we introduce a lightweight distillation module that can achieve global information distillation solely by generating learnable soft labels for the memory buffer data. Extensive experiments show that, our method can achieve competitive results and effectively mitigates forgetting across various datasets. The source code will be publicly available.

arxiv情報

著者 Wenyang Liao,Quanziang Wang,Yichen Wu,Renzhen Wang,Deyu Meng
発行日 2025-05-26 15:37:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Data-Distill-Net: A Data Distillation Approach Tailored for Reply-based Continual Learning はコメントを受け付けていません

Model Stitching by Functional Latent Alignment

要約

機能的類似性の評価には、独立して訓練されたニューラルネットワークが機能的に類似した表現を学習する度合いを定量化することが含まれます。
これらのネットワークの機能的類似性を確実に推測することは、AIにとって広範囲にわたる影響を伴うオープンな問題のままです。
モデルステッチは有望なパラダイムとして浮上しており、最適なアフィン変換は2つのモデルを調整してタスクを解決し、ステッチされたモデルは機能的類似性のプロキシとして機能します。
この作業では、知識の蒸留文献からインスピレーションを引き出し、モデルステッチの新しい最適性条件として機能的な潜在的アライメント(FULA)を提案します。
以前に機能的な類似性テストベッドを調査し、機能的な類似性の全体的な信頼性の高い方法としてFulaが出現する新しい類似性テストを導入しました。
具体的には、(a)敵対的なトレーニング、(b)ショートカットトレーニング、および(c)クロスレイヤーステッチでの実験は、ファラがステッチレベルのマッチングで見逃されている非自明のアライメントを達成しながら、タスクキューに関するトレーニングに関連するアーティファクトに関係がないことを明らかにしています。

要約(オリジナル)

Evaluating functional similarity involves quantifying the degree to which independently trained neural networks learn functionally similar representations. Reliably inferring the functional similarity of these networks remains an open problem with far-reaching implications for AI. Model stitching has emerged as a promising paradigm, where an optimal affine transformation aligns two models to solve a task, with the stitched model serving as a proxy for functional similarity. In this work, we draw inspiration from the knowledge distillation literature and propose Functional Latent Alignment (FuLA) as a novel optimality condition for model stitching. We revisit previously explored functional similarity testbeds and introduce a new one, based on which FuLA emerges as an overall more reliable method of functional similarity. Specifically, our experiments in (a) adversarial training, (b) shortcut training and, (c) cross-layer stitching, reveal that FuLA is less prone to artifacts tied to training on task cues while achieving non-trivial alignments that are missed by stitch-level matching.

arxiv情報

著者 Ioannis Athanasiadis,Anmar Karmush,Michael Felsberg
発行日 2025-05-26 15:44:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Model Stitching by Functional Latent Alignment はコメントを受け付けていません

A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation

要約

一般的なトレーニングの損失に小さな重量減衰を伴う勾配流のダイナミクスを研究します$ f:\ mathbb {r}^d \ to \ mathbb {r} $。
軽度の規則性の仮定の下で、不規則な勾配流の収束を仮定して、重量減衰$ \ lambda $の軌跡が$ \ lambda \から0 $として2相の動作を示すことを示します。
最初の高速フェーズでは、軌道は正規のない勾配の流れに従い、$ f $の臨界点の多様体に収束します。
次に、注文$ 1/\ lambda $の時点で、軌道は遅いドリフトフェーズに入り、パラメーターの$ \ ell_2 $ -normを最小限に抑えるリーマン勾配の流れに従います。
この純粋に最適化ベースの現象は、深い学習で観察される\ textit {grokking}効果の自然な説明を提供します。ここでは、トレーニング損失は急速にゼロに達し、テスト損失は突然改善する前に長期間測定します。
この一般化ジャンプは、分析で説明されているように、体重減衰によって誘発されるゆっくりした規範の減少に起因すると主張しています。
このメカニズムは、いくつかの合成回帰タスクで経験的に検証します。

要約(オリジナル)

We study the dynamics of gradient flow with small weight decay on general training losses $F: \mathbb{R}^d \to \mathbb{R}$. Under mild regularity assumptions and assuming convergence of the unregularised gradient flow, we show that the trajectory with weight decay $\lambda$ exhibits a two-phase behaviour as $\lambda \to 0$. During the initial fast phase, the trajectory follows the unregularised gradient flow and converges to a manifold of critical points of $F$. Then, at time of order $1/\lambda$, the trajectory enters a slow drift phase and follows a Riemannian gradient flow minimising the $\ell_2$-norm of the parameters. This purely optimisation-based phenomenon offers a natural explanation for the \textit{grokking} effect observed in deep learning, where the training loss rapidly reaches zero while the test loss plateaus for an extended period before suddenly improving. We argue that this generalisation jump can be attributed to the slow norm reduction induced by weight decay, as explained by our analysis. We validate this mechanism empirically on several synthetic regression tasks.

arxiv情報

著者 Etienne Boursier,Scott Pesme,Radu-Alexandru Dragomir
発行日 2025-05-26 16:12:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | A Theoretical Framework for Grokking: Interpolation followed by Riemannian Norm Minimisation はコメントを受け付けていません

Virtual Cells: Predict, Explain, Discover

要約

創薬は基本的に患者に対する治療の効果を推測するプロセスであり、したがって、患者の反応を確実にシミュレートできる計算モデルから非常に恩恵を受け、研究者が高価な臨床試験を開始する前に多数の治療仮説を安全かつ経済的にテストできるようにします。
幅広い摂動に対する細胞の機能的応答を予測するより具体的なモデルでさえ、診療所にうまく変換される安全で効果的な治療を発見するために非常に価値があります。
このような仮想セルを作成することは、長い間、細胞生物学の困難な複雑さと規模を考えると、残念ながら不満を抱いたままである計算研究コミュニティの目標でした。
それにもかかわらず、AIの最近の進歩、コンピューティングパワー、ラボオートメーション、ハイスループットセルラープロファイリングは、この目標を達成するための新しい機会を提供します。
この観点では、再帰での経験に基づいた仮想セルを開発および評価するというビジョンを提示します。
新しい生物学を発見するための有用なツールになるためには、仮想細胞は摂動に対する細胞の機能的応答を正確に予測し、予測された応答が主要な生体分子相互作用の修正の結果であることを説明する必要があると主張します。
次に、治療的に関連する仮想セルを設計するための重要な原則を紹介し、それらとの新しい洞察を生成するためのループのラボアプローチを説明し、仮想セルの開発を導くための生物学的に接地されたベンチマークを提唱します。
最後に、仮想セルへのアプローチが、仮想患者を含むより高いレベルの組織で他のモデルを構築するための有用なフレームワークを提供すると主張します。
これらの方向が、創薬の結果にプラスの影響を与えるために最適化された仮想モデルを開発する際に、研究コミュニティにとって有用であることを証明することを願っています。

要約(オリジナル)

Drug discovery is fundamentally a process of inferring the effects of treatments on patients, and would therefore benefit immensely from computational models that can reliably simulate patient responses, enabling researchers to generate and test large numbers of therapeutic hypotheses safely and economically before initiating costly clinical trials. Even a more specific model that predicts the functional response of cells to a wide range of perturbations would be tremendously valuable for discovering safe and effective treatments that successfully translate to the clinic. Creating such virtual cells has long been a goal of the computational research community that unfortunately remains unachieved given the daunting complexity and scale of cellular biology. Nevertheless, recent advances in AI, computing power, lab automation, and high-throughput cellular profiling provide new opportunities for reaching this goal. In this perspective, we present a vision for developing and evaluating virtual cells that builds on our experience at Recursion. We argue that in order to be a useful tool to discover novel biology, virtual cells must accurately predict the functional response of a cell to perturbations and explain how the predicted response is a consequence of modifications to key biomolecular interactions. We then introduce key principles for designing therapeutically-relevant virtual cells, describe a lab-in-the-loop approach for generating novel insights with them, and advocate for biologically-grounded benchmarks to guide virtual cell development. Finally, we make the case that our approach to virtual cells provides a useful framework for building other models at higher levels of organization, including virtual patients. We hope that these directions prove useful to the research community in developing virtual models optimized for positive impact on drug discovery outcomes.

arxiv情報

著者 Emmanuel Noutahi,Jason Hartford,Prudencio Tossou,Shawn Whitfield,Alisandra K. Denton,Cas Wognum,Kristina Ulicna,Michael Craig,Jonathan Hsu,Michael Cuccarese,Emmanuel Bengio,Dominique Beaini,Christopher Gibson,Daniel Cohen,Berton Earnshaw
発行日 2025-05-26 16:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Virtual Cells: Predict, Explain, Discover はコメントを受け付けていません

The Power of Iterative Filtering for Supervised Learning with (Heavy) Contamination

要約

分布シフトを使用した学習に関する最近の研究に触発されて、繰り返し多項式フィルタリングと呼ばれる一般的な外れ値除去アルゴリズムを提供し、汚染を伴う監視された学習のための多くのストライキアプリケーションを示します。
これは、不可知論の学習の複雑さと汚染による学習の間の長年のギャップに対する驚くべき解決策です。これは、低い級近似が標識騒音に対する耐性のみを暗示するだけであると広く信じられていたためです。
(2)サンドイッチ近似の(より強力な)概念を認める関数クラスについては、トレーニングセットの$ 1/2 $をはるかに超える重い添加剤汚染に関しても、最適に近い学習保証を取得します。
以前の関連する作業は、回帰およびリストデコード可能な設定のみで開催されました。
(3)固定されたログコンケーブ分布に関するハーフスペースの機能の耐性テスト可能な学習のための最初の効率的なアルゴリズムを取得します。
この設定の単一のハーフスペースの非耐性ケースでさえ、開いたままでした。
これらの結果は、汚染の下での効率的な監督された学習の理解を大幅に向上させます。これは、監視されていないカウンターパートよりもはるかに研究されていない設定です。

要約(オリジナル)

Inspired by recent work on learning with distribution shift, we give a general outlier removal algorithm called iterative polynomial filtering and show a number of striking applications for supervised learning with contamination: (1) We show that any function class that can be approximated by low-degree polynomials with respect to a hypercontractive distribution can be efficiently learned under bounded contamination (also known as nasty noise). This is a surprising resolution to a longstanding gap between the complexity of agnostic learning and learning with contamination, as it was widely believed that low-degree approximators only implied tolerance to label noise. (2) For any function class that admits the (stronger) notion of sandwiching approximators, we obtain near-optimal learning guarantees even with respect to heavy additive contamination, where far more than $1/2$ of the training set may be added adversarially. Prior related work held only for regression and in a list-decodable setting. (3) We obtain the first efficient algorithms for tolerant testable learning of functions of halfspaces with respect to any fixed log-concave distribution. Even the non-tolerant case for a single halfspace in this setting had remained open. These results significantly advance our understanding of efficient supervised learning under contamination, a setting that has been much less studied than its unsupervised counterpart.

arxiv情報

著者 Adam R. Klivans,Konstantinos Stavropoulos,Kevin Tian,Arsen Vasilyan
発行日 2025-05-26 16:17:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML | The Power of Iterative Filtering for Supervised Learning with (Heavy) Contamination はコメントを受け付けていません

No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference

要約

予測駆動の推論(PPI)は、統計的推定を実行するために、金標準とおそらく騒々しい擬似ラベルを組み合わせるための一般的な戦略です。
以前の研究では、PPIの適応型であるPPI ++の漸近的な「フリーランチ」が示されており、PPI ++の *漸近 *分散は、金標準ラベルのみを使用して得られた分散以下であることを示しています。
特に、この結果は、擬似ラベル *の品質に関係なく *を保持します。
この作業では、平均推定問題に関するPPI ++の推定誤差の正確な有限サンプル分析を実施することにより、この結果を分かりやすく説明します。
「無料の昼食なし」の結果を出し、PPI ++が金標準のラベルだけを使用するよりも推定誤差が証明されている設定(およびサンプルサイズ)を特徴づけます。
具体的には、擬似標準と金標準の相関がラベル付きサンプルの数($ n $)に依存する特定のレベルを上回っている場合にのみ、PPI ++がアウトパフォームします。
場合によっては、私たちの結果はかなり単純化します。ガウスデータの場合、相関は改善を確認するために少なくとも1/\ sqrt {n -2} $でなければなりません。また、バイナリラベルの同様の結果が得られます。
実験では、理論的な調査結果が実際のデータセットに当てはまり、PPI ++のシングルサンプルとサンプルスプリッティバリアントの間のトレードオフに関する洞察を与えることを示しています。

要約(オリジナル)

Prediction-Powered Inference (PPI) is a popular strategy for combining gold-standard and possibly noisy pseudo-labels to perform statistical estimation. Prior work has shown an asymptotic ‘free lunch’ for PPI++, an adaptive form of PPI, showing that the *asymptotic* variance of PPI++ is always less than or equal to the variance obtained from using gold-standard labels alone. Notably, this result holds *regardless of the quality of the pseudo-labels*. In this work, we demystify this result by conducting an exact finite-sample analysis of the estimation error of PPI++ on the mean estimation problem. We give a ‘no free lunch’ result, characterizing the settings (and sample sizes) where PPI++ has provably worse estimation error than using gold-standard labels alone. Specifically, PPI++ will outperform if and only if the correlation between pseudo- and gold-standard is above a certain level that depends on the number of labeled samples ($n$). In some cases our results simplify considerably: For Gaussian data, the correlation must be at least $1/\sqrt{n – 2}$ in order to see improvement, and a similar result holds for binary labels. In experiments, we illustrate that our theoretical findings hold on real-world datasets, and give insights into trade-offs between single-sample and sample-splitting variants of PPI++.

arxiv情報

著者 Pranav Mani,Peng Xu,Zachary C. Lipton,Michael Oberst
発行日 2025-05-26 16:18:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | No Free Lunch: Non-Asymptotic Analysis of Prediction-Powered Inference はコメントを受け付けていません

Research on feature fusion and multimodal patent text based on graph attention network

要約

クロスモーダル特徴の融合の問題、長いテキストモデリングの低い効率、特許テキストセマンティックマイニングの階層的セマンティックコヒーレンスの欠如の問題を目指して、この研究では、階層的比較学習(HCL)、マルチモーダルグラフ注意ネットワーク(M-GAT)、マルチグラニュリティスパースメッキ(MSA)、マルチガラニティスパースメッキ(MSA)を統合する深い学習フレームワークであるHGM-NETを提案しています。
HCLを介した単語、文、段落の階層に対する横断的類似性の制約。
コントラストと横断的類似性の制約は、特許テキストのローカルセマンティックおよびグローバルなテーマの一貫性を強化するために、HCLによって単語と段落レベルで構築されます。
M-GATモデル特許分類コード、引用関係、およびテキストセマンティクスは異種グラフ構造として、およびクロスモーダルゲートの注意によるマルチソース機能の動的融合を実現します。
MSAは、単語、フレーズ、文、段落の粒度での長いテキストモデリングの計算効率を最適化するために、階層的スパース戦略を採用しています。
実験は、このフレームワークが、特許分類や類似性マッチングなどのタスクの既存の深い学習方法よりも重要な利点を示し、特許取得の効率の改善と技術関連のマイニングの問題を解決するための理論的な革新と実用的な価値の両方を備えたソリューションを提供することを示しています。

要約(オリジナル)

Aiming at the problems of cross-modal feature fusion, low efficiency of long text modeling and lack of hierarchical semantic coherence in patent text semantic mining, this study proposes HGM-Net, a deep learning framework that integrates Hierarchical Comparative Learning (HCL), Multi-modal Graph Attention Network (M-GAT) and Multi-Granularity Sparse Attention (MSA), which builds a dynamic mask, contrast and cross-structural similarity constraints on the word, sentence and paragraph hierarchies through HCL. Contrast and cross-structural similarity constraints are constructed at the word and paragraph levels by HCL to strengthen the local semantic and global thematic consistency of patent text; M-GAT models patent classification codes, citation relations and text semantics as heterogeneous graph structures, and achieves dynamic fusion of multi-source features by cross-modal gated attention; MSA adopts a hierarchical sparsity strategy to optimize the computational efficiency of long text modeling at word, phrase, sentence and paragraph granularity. Experiments show that the framework demonstrates significant advantages over existing deep learning methods in tasks such as patent classification and similarity matching, and provides a solution with both theoretical innovation and practical value for solving the problems of patent examination efficiency improvement and technology relevance mining.

arxiv情報

著者 Zhenzhen Song,Ziwei Liu,Hongji Li
発行日 2025-05-26 16:32:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | Research on feature fusion and multimodal patent text based on graph attention network はコメントを受け付けていません

Private Geometric Median in Nearly-Linear Time

要約

データセットの幾何学的中央値を推定することは、平均推定の堅牢な対応物であり、計算ジオメトリの根本的な問題です。
最近、[hsu24]は$(\ varepsilon、\ delta)$を与えました – 幾何学的な中央値の目的に対する$ \ alpha $ gultiplicative近似を取得する差別的にプライベートアルゴリズム、$ \ frac 1 n \ sum_ {i \ in [n]}
dataset $ \ mathcal {d}:= \ {\ mathbf {x} _i \} _ {i \ in [n]} \ subset \ mathbb {r}^d $。
それらのアルゴリズムには、$ n \ gtrsim \ sqrt d \ cdot \ frac 1 {\ alpha \ varepsilon} $サンプルが必要です。
この結果は、最悪のケース半径ではなく、$ \ mathcal {d} $(すなわち、ほとんどのポイントをキャプチャするボール)の\ emph {有効半径}とのエラーがスケーリングされるため、驚くべきことです。
同じ近似品質を取得する改良されたアルゴリズムを与えます。また、$ n \ gtrsim \ sqrt d \ cdot \ frac 1 {\ alpha \ epsilon} $サンプルを使用しますが、$ \ widetilde {o}(nd + \ frac d {\ alpha^2} $。
ランタイムはほぼ直線的であり、さらに[CLM+16]による最も安価な非プライベート1次方法のコストがかかります。
結果を達成するために、FriendlyCore [TCK+22]に触発されたサブサンプリングと幾何学的集約ツールを使用して、[HSU24]アルゴリズムの「ウォームスタート」コンポーネントをスピードアップし、DP-SGDの幾何学的中央値の感度の慎重なカスタム分析を組み合わせて使用​​します。

要約(オリジナル)

Estimating the geometric median of a dataset is a robust counterpart to mean estimation, and is a fundamental problem in computational geometry. Recently, [HSU24] gave an $(\varepsilon, \delta)$-differentially private algorithm obtaining an $\alpha$-multiplicative approximation to the geometric median objective, $\frac 1 n \sum_{i \in [n]} \|\cdot – \mathbf{x}_i\|$, given a dataset $\mathcal{D} := \{\mathbf{x}_i\}_{i \in [n]} \subset \mathbb{R}^d$. Their algorithm requires $n \gtrsim \sqrt d \cdot \frac 1 {\alpha\varepsilon}$ samples, which they prove is information-theoretically optimal. This result is surprising because its error scales with the \emph{effective radius} of $\mathcal{D}$ (i.e., of a ball capturing most points), rather than the worst-case radius. We give an improved algorithm that obtains the same approximation quality, also using $n \gtrsim \sqrt d \cdot \frac 1 {\alpha\epsilon}$ samples, but in time $\widetilde{O}(nd + \frac d {\alpha^2})$. Our runtime is nearly-linear, plus the cost of the cheapest non-private first-order method due to [CLM+16]. To achieve our results, we use subsampling and geometric aggregation tools inspired by FriendlyCore [TCK+22] to speed up the ‘warm start’ component of the [HSU24] algorithm, combined with a careful custom analysis of DP-SGD’s sensitivity for the geometric median objective.

arxiv情報

著者 Syamantak Kumar,Daogao Liu,Kevin Tian,Chutong Yang
発行日 2025-05-26 16:32:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DS, cs.LG, stat.ML | Private Geometric Median in Nearly-Linear Time はコメントを受け付けていません

FunReason: Enhancing Large Language Models’ Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement

要約

大規模な言語モデル(LLMS)と関数呼び出しの統合は、実際のアプリケーションで実用的なユーティリティを強化するための重要な機能として浮上しています。
ただし、推論プロセスと正確な関数の実行を効果的に組み合わせることは、依然として重要な課題です。
従来のトレーニングアプローチは、詳細な推論ステップと関数呼び出しの精度のバランスをとるのに苦労し、最適ではないパフォーマンスにつながります。
これらの制限に対処するために、自動化されたデータ改良戦略と自己修正マルチスケール損失(SRML)アプローチを通じてLLMSの関数呼び出し機能を強化する新しいフレームワークであるFunreasonを紹介します。
FunReasonは、LLMの自然な推論能力を活用して高品質のトレーニングの例を生成し、クエリの分散性、一貫性の推論、および関数呼び出し精度に焦点を当てています。
SRMLアプローチは、トレーニング中の推論プロセスと関数呼び出しの精度の貢献度のバランスをとり、これら2つの重要な側面間の固有のトレードオフに対処します。
Funreasonは、GPT-4oに匹敵するパフォーマンスを達成しながら、微調整中の壊滅的な忘却を効果的に緩和します。
FunReasonは、バランスの取れたトレーニング方法とデータ改良パイプラインを導入することにより、LLMSの関数呼び出し機能を強化するための包括的なソリューションを提供します。
コードとデータセットについては、github https://github.com/bingguanghao/funreasonのリポジトリを参照してください。

要約(オリジナル)

The integration of large language models (LLMs) with function calling has emerged as a crucial capability for enhancing their practical utility in real-world applications. However, effectively combining reasoning processes with accurate function execution remains a significant challenge. Traditional training approaches often struggle to balance the detailed reasoning steps with the precision of function calls, leading to suboptimal performance. To address these limitations, we introduce FunReason, a novel framework that enhances LLMs’ function calling capabilities through an automated data refinement strategy and a Self-Refinement Multiscale Loss (SRML) approach. FunReason leverages LLMs’ natural reasoning abilities to generate high-quality training examples, focusing on query parseability, reasoning coherence, and function call precision. The SRML approach dynamically balances the contribution of reasoning processes and function call accuracy during training, addressing the inherent trade-off between these two critical aspects. FunReason achieves performance comparable to GPT-4o while effectively mitigating catastrophic forgetting during fine-tuning. FunReason provides a comprehensive solution for enhancing LLMs’ function calling capabilities by introducing a balanced training methodology and a data refinement pipeline. For code and dataset, please refer to our repository at GitHub https://github.com/BingguangHao/FunReason

arxiv情報

著者 Bingguang Hao,Maolin Wang,Zengzhuang Xu,Cunyin Peng,Yicheng Chen,Xiangyu Zhao,Jinjie Gu,Chenyi Zhuang
発行日 2025-05-26 16:38:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG | FunReason: Enhancing Large Language Models’ Function Calling via Self-Refinement Multiscale Loss and Automated Data Refinement はコメントを受け付けていません

Fine-grained List-wise Alignment for Generative Medication Recommendation

要約

正確で安全な薬物療法の推奨事項は、特に多発性の場合に効果的な臨床的意思決定に重要です。
ただし、既存のシステムは、相乗的な薬物効果と潜在的な薬物薬物の相互作用の潜在的なものを見落とすポイントワイズ予測パラダイムに依存しています(DDI)。
大規模な言語モデル(LLM)のための細かいリストごとのアライメントフレームワークであるFlameを提案し、薬物による薬物生成の生成を可能にします。
Flameは、各ステップが単一の薬物を追加または除去する順次決定プロセスとして推奨事項を定式化します。
きめ細かい学習信号を提供するために、潜在的な報酬形状を備えた段階的なグループ相対政策最適化(GRPO)を考案します。
さらに、Flameは、構造化された臨床知識と共同情報をLLMSの表現空間に統合することにより、患者のモデリングを強化します。
ベンチマークデータセットの実験は、Flameが最先端のパフォーマンスを達成し、優れた精度、制御可能な安全性のトレードオフ、および多様な臨床シナリオ全体の強力な一般化を提供することを示しています。
私たちのコードは、https://github.com/cxfann/flameで入手できます。

要約(オリジナル)

Accurate and safe medication recommendations are critical for effective clinical decision-making, especially in multimorbidity cases. However, existing systems rely on point-wise prediction paradigms that overlook synergistic drug effects and potential adverse drug-drug interactions (DDIs). We propose FLAME, a fine-grained list-wise alignment framework for large language models (LLMs), enabling drug-by-drug generation of drug lists. FLAME formulates recommendation as a sequential decision process, where each step adds or removes a single drug. To provide fine-grained learning signals, we devise step-wise Group Relative Policy Optimization (GRPO) with potential-based reward shaping, which explicitly models DDIs and optimizes the contribution of each drug to the overall prescription. Furthermore, FLAME enhances patient modeling by integrating structured clinical knowledge and collaborative information into the representation space of LLMs. Experiments on benchmark datasets demonstrate that FLAME achieves state-of-the-art performance, delivering superior accuracy, controllable safety-accuracy trade-offs, and strong generalization across diverse clinical scenarios. Our code is available at https://github.com/cxfann/Flame.

arxiv情報

著者 Chenxiao Fan,Chongming Gao,Wentao Shi,Yaxin Gong,Zihao Zhao,Fuli Feng
発行日 2025-05-26 16:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Fine-grained List-wise Alignment for Generative Medication Recommendation はコメントを受け付けていません