On the similarity of bandwidth-tuned quantum kernels and classical kernels

要約

量子カーネル(QK)は、量子機械学習アプリケーションで広く使用されています。
しかし、古典的なデータセットの古典的な機械学習方法を超える可能性は不確実です。
この制限は、訓練可能性と一般化の両方を損なう可能性のある指数関数的濃度現象に起因する可能性があります。
これを緩和するための一般的な戦略は、帯域幅調整です。これには、一般化を改善するための量子モデルのデータポイントの再スケーリングが含まれます。
この作業では、最適な帯域幅の調整により、radial骨基底関数(RBF)カーネルによく似ており、古典的な方法よりも量子優位性がないQKSが得られることを数値的に実証します。
さらに、最適な帯域幅調整パラメーターのサイズがQKSをさらに簡素化し、rbfカーネルの低次のテイラー近似に対応する多項式カーネルのように振る舞うことを明らかにします。
これは、いくつかの分類データセットにわたって回路をエンコードするさまざまなデータを使用して、忠実度の量子カーネルと投影量子カーネルについて徹底的に調査します。
数値的証拠を提供し、帯域幅のチューニングが分類タスクの主要な量にどのように影響するかを解明する簡単な分析モデルを導き出します。
全体として、私たちの発見は、QKメソッドを古典的にシミュレート可能にするメカニズムに光を当てています。

要約(オリジナル)

Quantum kernels (QK) are widely used in quantum machine learning applications; yet, their potential to surpass classical machine learning methods on classical datasets remains uncertain. This limitation can be attributed to the exponential concentration phenomenon, which can impair both trainability and generalization. A common strategy to alleviate this is bandwidth tuning, which involves rescaling data points in the quantum model to improve generalization. In this work, we numerically demonstrate that optimal bandwidth tuning results in QKs that closely resemble radial basis function (RBF) kernels, leading to a lack of quantum advantage over classical methods. Moreover, we reveal that the size of optimal bandwidth tuning parameters further simplifies QKs, causing them to behave like polynomial kernels, corresponding to a low-order Taylor approximation of a RBF kernel. We thoroughly investigate this for fidelity quantum kernels and projected quantum kernels using various data encoding circuits across several classification datasets. We provide numerical evidence and derive a simple analytical model that elucidates how bandwidth tuning influences key quantities in classification tasks. Overall, our findings shed light on the mechanisms that render QK methods classically simulatable.

arxiv情報

著者 Roberto Flórez Ablan,Marco Roth,Jan Schnabel
発行日 2025-03-07 17:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | On the similarity of bandwidth-tuned quantum kernels and classical kernels はコメントを受け付けていません

Can KAN CANs? Input-convex Kolmogorov-Arnold Networks (KANs) as hyperelastic constitutive artificial neural networks (CANs)

要約

従来の構成モデルは、限られた表現性と一般化可能性を備えた手作りのパラメトリック形式に依存していますが、ニューラルネットワークベースのモデルは複雑な材料の動作をキャプチャできますが、多くの場合解釈可能性がありません。
これらのトレードオフのバランスを取るために、ポリコンベックス高弾性構成法を学習するために、入力コンベックスコルモゴロフアーノルドネットワーク(イカンズ)を提示します。
イカンズはコルモゴロフ・アーノルドの表現を活用し、モデルを豊富な表現力のための訓練可能な単変量スプラインベースの活性化関数の組成に分解します。
Kanアーキテクチャ内にトレーニング可能な入力継続的なスプラインを導入し、物理的に許容できる多型弾性モデルを確保します。
結果のモデルはコンパクトで解釈可能であり、入力導入シンボリック回帰技術を介して分析的構成関係の明示的な抽出を可能にします。
フルフィールドひずみデータと限られたグローバルフォース測定に関する監視されていないトレーニングを通じて、イカンズは多様なひずみ状態で非線形ストレス – ひずみの挙動を正確にキャプチャします。
訓練されたイカン過弾性構成モデルを使用した目に見えない幾何学の有限要素シミュレーションは、フレームワークの堅牢性と一般化能力を確認します。

要約(オリジナル)

Traditional constitutive models rely on hand-crafted parametric forms with limited expressivity and generalizability, while neural network-based models can capture complex material behavior but often lack interpretability. To balance these trade-offs, we present Input-Convex Kolmogorov-Arnold Networks (ICKANs) for learning polyconvex hyperelastic constitutive laws. ICKANs leverage the Kolmogorov-Arnold representation, decomposing the model into compositions of trainable univariate spline-based activation functions for rich expressivity. We introduce trainable input-convex splines within the KAN architecture, ensuring physically admissible polyconvex hyperelastic models. The resulting models are both compact and interpretable, enabling explicit extraction of analytical constitutive relationships through an input-convex symbolic regression techinque. Through unsupervised training on full-field strain data and limited global force measurements, ICKANs accurately capture nonlinear stress-strain behavior across diverse strain states. Finite element simulations of unseen geometries with trained ICKAN hyperelastic constitutive models confirm the framework’s robustness and generalization capability.

arxiv情報

著者 Prakash Thakolkaran,Yaqi Guo,Shivam Saini,Mathias Peirlinck,Benjamin Alheit,Siddhant Kumar
発行日 2025-03-07 17:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Can KAN CANs? Input-convex Kolmogorov-Arnold Networks (KANs) as hyperelastic constitutive artificial neural networks (CANs) はコメントを受け付けていません

Decision-aware training of spatiotemporal forecasting models

要約

希少な資源の最適な割り当ては、介入のための限られた数の場所を選択することに直面する意思決定者にとって一般的な問題です。
時空間予測モデルは、そのような決定をデータ駆動型にする可能性があります。
可能な限り最高のリーチ(BPR)と呼ばれる最近のパフォーマンスメトリックは、後知恵で可能な限り最高のTop-Kと比較して、サイトのモデルの推奨サイズKサブセットを使用することの影響を測定します。
BPRに関連する2つのオープンな問題に取り組みます。
まず、サイト間でイベントカウントを共同で予測する確率モデルを与えられたすべてのサイトを数値的にランク付けする方法を探ります。
サイトごとの平均を介してランク付けすることは、BPRの最適です。
代わりに、意思決定理論に裏付けられたBPRに対してより良いランキングを提供します。
第二に、BPRを最大化するために確率モデルのパラメーターをトレーニングする方法を探ります。
Kサイトの離散選択は、標準の勾配トレーニングを防ぐ全ゼロパラメーター勾配を意味します。
摂動オプティマイザーの進歩を介してこの障壁を克服します。
さらに、尤度を意思決定に対応するBPR制約を組み合わせて、高品質のTOP-Kランキングとすべてのサイトに優れた予測を提供するトレーニング目標を提案します。
私たちは、オピオイド関連の致命的な過剰摂取を緩和し、危険にさらされた野生生物を監視するという2つの場所でのアプリケーションに関するアプローチを実証します。

要約(オリジナル)

Optimal allocation of scarce resources is a common problem for decision makers faced with choosing a limited number of locations for intervention. Spatiotemporal prediction models could make such decisions data-driven. A recent performance metric called fraction of best possible reach (BPR) measures the impact of using a model’s recommended size K subset of sites compared to the best possible top-K in hindsight. We tackle two open problems related to BPR. First, we explore how to rank all sites numerically given a probabilistic model that predicts event counts jointly across sites. Ranking via the per-site mean is suboptimal for BPR. Instead, we offer a better ranking for BPR backed by decision theory. Second, we explore how to train a probabilistic model’s parameters to maximize BPR. Discrete selection of K sites implies all-zero parameter gradients which prevent standard gradient training. We overcome this barrier via advances in perturbed optimizers. We further suggest a training objective that combines likelihood with a decision-aware BPR constraint to deliver high-quality top-K rankings as well as good forecasts for all sites. We demonstrate our approach on two where-to-intervene applications: mitigating opioid-related fatal overdoses for public health and monitoring endangered wildlife.

arxiv情報

著者 Kyle Heuton,F. Samuel Muench,Shikhar Shrestha,Thomas J. Stopka,Michael C. Hughes
発行日 2025-03-07 17:49:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Decision-aware training of spatiotemporal forecasting models はコメントを受け付けていません

Strategy Coopetition Explains the Emergence and Transience of In-Context Learning

要約

コンテキスト内学習(ICL)は、変圧器モデルに現れる強力な能力であり、重量の更新なしでコンテキストから学習できるようにします。
最近の研究により、緊急のICLは一時的な現象として確立されており、長いトレーニング時間の後に時々消える可能性があります。
この作業では、これらの一時的なダイナミクスの機械的理解を求めました。
第一に、ICLの消失後、漸近戦略は重量とコンテキスト内学習の間の顕著なハイブリッドであり、「コンテキストに制約のない重量学習」(CIWL)と呼ばれることがわかります。
CIWLはICLと競合しており、最終的にはモデルの支配的な戦略として置き換えられます(したがって、ICLのトランシエンスにつながります)。
ただし、2つの競合する戦略は実際にサブサーキットを共有しており、これにより協力的なダイナミクスも生じます。
たとえば、セットアップでは、ICLはそれ自体で迅速に出現することができず、漸近CIWLの同時ゆっくりした発達によってのみ有効にすることができます。
したがって、CIWLは、「戦略の共同協力」と呼ばれる現象であるICLと協力し、競合しています。
これらの重要なダイナミクスと相互作用を再現する最小限の数学モデルを提案します。
このモデルから通知を受けて、ICLが本当に出現し、永続的であるセットアップを特定することができました。

要約(オリジナル)

In-context learning (ICL) is a powerful ability that emerges in transformer models, enabling them to learn from context without weight updates. Recent work has established emergent ICL as a transient phenomenon that can sometimes disappear after long training times. In this work, we sought a mechanistic understanding of these transient dynamics. Firstly, we find that, after the disappearance of ICL, the asymptotic strategy is a remarkable hybrid between in-weights and in-context learning, which we term ‘context-constrained in-weights learning’ (CIWL). CIWL is in competition with ICL, and eventually replaces it as the dominant strategy of the model (thus leading to ICL transience). However, we also find that the two competing strategies actually share sub-circuits, which gives rise to cooperative dynamics as well. For example, in our setup, ICL is unable to emerge quickly on its own, and can only be enabled through the simultaneous slow development of asymptotic CIWL. CIWL thus both cooperates and competes with ICL, a phenomenon we term ‘strategy coopetition.’ We propose a minimal mathematical model that reproduces these key dynamics and interactions. Informed by this model, we were able to identify a setup where ICL is truly emergent and persistent.

arxiv情報

著者 Aaditya K. Singh,Ted Moskovitz,Sara Dragutinovic,Felix Hill,Stephanie C. Y. Chan,Andrew M. Saxe
発行日 2025-03-07 17:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Strategy Coopetition Explains the Emergence and Transience of In-Context Learning はコメントを受け付けていません

Physics-based machine learning framework for predicting NOx emissions from compression ignition engines using on-board diagnostics data

要約

この作業では、入力としてオンボード診断(OBD)データを使用して、圧縮イグニッションエンジン駆動車両からの窒素(NOX)排出量の酸化物を予測および分析する物理ベースの機械学習フレームワークを提示します。
OBDデータセットからの正確なNOx予測は、エンジン燃焼室内のNOx形成がデータ収集レートよりもはるかに短いタイムスケールで発生する複雑なプロセスによって支配されるため、困難です。
したがって、一般に、排出量は、単純な経験的に導出された物理モデルを使用して正確に予測することはできません。
遺伝的アルゴリズムやニューラルネットワークなどのブラックボックスモデルは、より正確になる可能性がありますが、解釈可能性が低い場合があります。
このホワイトペーパーで提示されている透明モデルは、高精度の両方を持ち、排出量の高い潜在的な原因を説明できます。
提案されたフレームワークは、物理学ベースのNOX予測モデルと、物理ベースのモデルで適切に対処されていない動作条件を分析するための新しい発散ウィンドウ共起(DWC)パターン検出アルゴリズムの2つの主要なステップで構成されています。
提案されたフレームワークは、2番目の車両OBDデータセットでの一般化性が検証され、感度分析が実行され、モデル予測は深いニューラルネットワークの予測と比較されます。
結果は、提案されたモデルを使用したNOX排出予測は、以前に公開された研究のベースラインNOX予測モデルと比較して、約55%のルート平均平方根誤差を持ち、平均絶対誤差が約60%高いことを示しています。
DWCパターン検出アルゴリズムは、低エンジンの電力条件が統計的に有意であることを特定し、モデルを改善できる動作体制を示しています。
この作業は、物理ベースの機械学習フレームワークが、NOXセンシングを組み込まないエンジンからのNOX排出を予測するための実行可能な方法であることを示しています。

要約(オリジナル)

This work presents a physics-based machine learning framework to predict and analyze oxides of nitrogen (NOx) emissions from compression-ignition engine-powered vehicles using on-board diagnostics (OBD) data as input. Accurate NOx prediction from OBD datasets is difficult because NOx formation inside an engine combustion chamber is governed by complex processes occurring on timescales much shorter than the data collection rate. Thus, emissions generally cannot be predicted accurately using simple empirically derived physics models. Black box models like genetic algorithms or neural networks can be more accurate, but have poor interpretability. The transparent model presented in this paper has both high accuracy and can explain potential sources of high emissions. The proposed framework consists of two major steps: a physics-based NOx prediction model combined with a novel Divergent Window Co-occurrence (DWC) Pattern detection algorithm to analyze operating conditions that are not adequately addressed by the physics-based model. The proposed framework is validated for generalizability with a second vehicle OBD dataset, a sensitivity analysis is performed, and model predictions are compared with that from a deep neural network. The results show that NOx emissions predictions using the proposed model has around 55% better root mean square error, and around 60% higher mean absolute error compared to the baseline NOx prediction model from previously published work. The DWC Pattern Detection Algorithm identified low engine power conditions to have high statistical significance, indicating an operating regime where the model can be improved. This work shows that the physics-based machine learning framework is a viable method for predicting NOx emissions from engines that do not incorporate NOx sensing.

arxiv情報

著者 Harish Panneer Selvam,Bharat Jayaprakash,Yan Li,Shashi Shekhar,William F. Northrop
発行日 2025-03-07 18:11:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Physics-based machine learning framework for predicting NOx emissions from compression ignition engines using on-board diagnostics data はコメントを受け付けていません

On Mitigating Affinity Bias through Bandits with Evolving Biased Feedback

要約

無意識のバイアスは、雇用、昇進、入場に影響を与え、仲間を評価する方法に影響を与えることが示されています。
この作業では、親和性バイアスに焦点を当てています。これは、好意的な意図がないにもかかわらず、私たちに似た人々を好む無意識のバイアスの要素です。
今日雇われた人々が明日の雇用委員会の一部になる世界では、私たちは特に、アフィニティバイアスがこのフィードバックループにどのように影響するかを理解する(そして緩和する)ことに興味があります。
この問題には2つの特徴的な機能があります。1)候補者の偏った値のみを観察しますが、それらの実際の価値に関して最適化したい2)特定の特性セットを持つ候補者に対するバイアスは、同じ一連の特性を持つ雇用委員会の人々の割合に依存します。
アフィニティバンディットと呼ばれるこれらの2つの機能を示す新しいBanditsバリアントを紹介します。
当然のことながら、UCBなどの古典的なアルゴリズムは、この設定で最高のアームを識別できないことがよくあります。
新しいインスタンス依存の後悔の下限を証明します。これは、$ k $の乗算関数によって標準の盗賊設定のそれよりも大きいことを証明しています。
私たちは時変であり、ポリシーの過去の行動に依存している報酬を扱うため、この下限を導き出すには、標準的な盗賊テクニックを超えて証明技術を開発する必要があります。
最後に、本当の報酬を決して観察しないにもかかわらず、この後悔にほぼ一致するエリミネーションスタイルのアルゴリズムを設計します。

要約(オリジナル)

Unconscious bias has been shown to influence how we assess our peers, with consequences for hiring, promotions and admissions. In this work, we focus on affinity bias, the component of unconscious bias which leads us to prefer people who are similar to us, despite no deliberate intention of favoritism. In a world where the people hired today become part of the hiring committee of tomorrow, we are particularly interested in understanding (and mitigating) how affinity bias affects this feedback loop. This problem has two distinctive features: 1) we only observe the biased value of a candidate, but we want to optimize with respect to their real value 2) the bias towards a candidate with a specific set of traits depends on the fraction of people in the hiring committee with the same set of traits. We introduce a new bandits variant that exhibits those two features, which we call affinity bandits. Unsurprisingly, classical algorithms such as UCB often fail to identify the best arm in this setting. We prove a new instance-dependent regret lower bound, which is larger than that in the standard bandit setting by a multiplicative function of $K$. Since we treat rewards that are time-varying and dependent on the policy’s past actions, deriving this lower bound requires developing proof techniques beyond the standard bandit techniques. Finally, we design an elimination-style algorithm which nearly matches this regret, despite never observing the real rewards.

arxiv情報

著者 Matthew Faw,Constantine Caramanis,Jessica Hoffmann
発行日 2025-03-07 18:23:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | On Mitigating Affinity Bias through Bandits with Evolving Biased Feedback はコメントを受け付けていません

Reliable and scalable variable importance estimation via warm-start and early stopping

要約

不透明なブラックボックス予測モデルがより一般的になるにつれて、これらのモデルの解釈を開発する必要性は非常に興味深いものです。
変数の重要性とShapley値の概念は、予測モデルに適用され、変数または変数のセットが予測パフォーマンスを改善する量を評価する解釈可能性の測定値です。
変数の数が大きい場合、変数の重要性を推定することは、ニューラルネットワークまたはその他のブラックボックスアルゴリズムを再トレーニングするには重要な追加の計算が必要なため、重要な計算上の課題を提示します。
この論文では、勾配降下と勾配ブースト(たとえば、ニューラルネットワーク、グラデーションブースト決定ツリーなど)を使用したアルゴリズムのこの課題に対処します。
ドロップアウト法を使用して勾配ベースの方法の早期停止のアイデアを使用することにより、ウォームスタートと組み合わせて、スケーラブルな方法を開発して、反復カーネル更新方程式として表現できるあらゆるアルゴリズムの重要性を推定します。
重要なことに、理論を使用して、より大きく(必ずしも無限ではない)幅と、対称ツリーをより弱い学習者として使用するグラデーションブースト決定ツリーを持つ神経ネットワークのカーネルベースの方法の早期停止のために理論を使用することにより、理論的保証を提供します。
また、モデルを完全に再トレーニングするのではなく、早期停止の計算上の利点とアプローチの精度の向上を示す、シミュレーションと実際のデータの例を通じてメソッドの有効性を実証します。

要約(オリジナル)

As opaque black-box predictive models become more prevalent, the need to develop interpretations for these models is of great interest. The concept of variable importance and Shapley values are interpretability measures that applies to any predictive model and assesses how much a variable or set of variables improves prediction performance. When the number of variables is large, estimating variable importance presents a significant computational challenge because re-training neural networks or other black-box algorithms requires significant additional computation. In this paper, we address this challenge for algorithms using gradient descent and gradient boosting (e.g. neural networks, gradient-boosted decision trees). By using the ideas of early stopping of gradient-based methods in combination with warm-start using the dropout method, we develop a scalable method to estimate variable importance for any algorithm that can be expressed as an iterative kernel update equation. Importantly, we provide theoretical guarantees by using the theory for early stopping of kernel-based methods for neural networks with sufficiently large (but not necessarily infinite) width and gradient-boosting decision trees that use symmetric trees as a weaker learner. We also demonstrate the efficacy of our methods through simulations and a real data example which illustrates the computational benefit of early stopping rather than fully re-training the model as well as the increased accuracy of our approach.

arxiv情報

著者 Zexuan Sun,Garvesh Raskutti
発行日 2025-03-07 18:34:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Reliable and scalable variable importance estimation via warm-start and early stopping はコメントを受け付けていません

Algorithmic Data Minimization for Machine Learning over Internet-of-Things Data Streams

要約

機械学習は、IoTデバイスによって生成された膨大な量のデータを分析して、パターンを識別し、予測を行い、リアルタイムの意思決定を可能にすることができます。
センサーデータを処理することにより、機械学習モデルはプロセスを最適化し、効率を改善し、スマートシステムでパーソナライズされたユーザーエクスペリエンスを強化できます。
ただし、IoTシステムは、多くの場合、家庭やオフィスなどの機密環境で展開され、場所、習慣、個人識別子などの特定の情報を不注意に公開する場合があります。
これは重要なプライバシーの懸念を引き起こし、データの最小化の適用を必要とします。これは、新しいデータ規制の基本原則であり、サービスプロバイダーが指定された目的に直接関連し、必要なデータのみを収集することを義務付けています。
その重要性にもかかわらず、データの最小化にはセンサーデータのコンテキストに正確な技術的定義がありません。この場合、弱い信号の収集により、バイナリの「関連性のある必要な」ルールを適用することが困難になります。
このペーパーでは、センサーストリームのコンテキストでのデータの最小化の技術的解釈を提供し、実装のための実用的な方法を調査し、関連する課題に対処します。
アプローチを通じて、私たちのフレームワークは、精度の損失を1%未満に維持しながら、ユーザーの識別可能性を最大16.7%減らすことができることを実証し、プライバシーを提供するIoTデータ処理への実行可能なパスを提供します。

要約(オリジナル)

Machine learning can analyze vast amounts of data generated by IoT devices to identify patterns, make predictions, and enable real-time decision-making. By processing sensor data, machine learning models can optimize processes, improve efficiency, and enhance personalized user experiences in smart systems. However, IoT systems are often deployed in sensitive environments such as households and offices, where they may inadvertently expose identifiable information, including location, habits, and personal identifiers. This raises significant privacy concerns, necessitating the application of data minimization — a foundational principle in emerging data regulations, which mandates that service providers only collect data that is directly relevant and necessary for a specified purpose. Despite its importance, data minimization lacks a precise technical definition in the context of sensor data, where collections of weak signals make it challenging to apply a binary ‘relevant and necessary’ rule. This paper provides a technical interpretation of data minimization in the context of sensor streams, explores practical methods for implementation, and addresses the challenges involved. Through our approach, we demonstrate that our framework can reduce user identifiability by up to 16.7% while maintaining accuracy loss below 1%, offering a viable path toward privacy-preserving IoT data processing.

arxiv情報

著者 Ted Shaowang,Shinan Liu,Jonatas Marques,Nick Feamster,Sanjay Krishnan
発行日 2025-03-07 18:35:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG | Algorithmic Data Minimization for Machine Learning over Internet-of-Things Data Streams はコメントを受け付けていません

Wasserstein Adaptive Value Estimation for Actor-Critic Reinforcement Learning

要約

俳優critic(Wave)のワッサースタイン適応価値推定を提示します。これは、適応型ワッサースタインの正則化を通じて、深い補強学習の安定性を高めるアプローチです。
私たちの方法は、批評家の損失関数に適応的に加重されたワッサースタインの正規化項を組み込むことにより、アクターcriticアルゴリズムの固有の不安定性に対処します。
波が$ \ mathcal {o} \ left(\ frac {1} {k} \ right)$ convergenceレートを達成し、批評家の平均四角誤差の収束率を達成し、ワッサースタインベースの正則化を通じて安定性の理論的保証を提供することを証明します。
計算効率のためにシンクホーン近似を使用して、当社のアプローチは、エージェントのパフォーマンスに基づいて正則化を自動的に調整します。
理論的分析と実験結果は、波が標準的な俳優と批判的な方法と比較して優れた性能を達成することを示しています。

要約(オリジナル)

We present Wasserstein Adaptive Value Estimation for Actor-Critic (WAVE), an approach to enhance stability in deep reinforcement learning through adaptive Wasserstein regularization. Our method addresses the inherent instability of actor-critic algorithms by incorporating an adaptively weighted Wasserstein regularization term into the critic’s loss function. We prove that WAVE achieves $\mathcal{O}\left(\frac{1}{k}\right)$ convergence rate for the critic’s mean squared error and provide theoretical guarantees for stability through Wasserstein-based regularization. Using the Sinkhorn approximation for computational efficiency, our approach automatically adjusts the regularization based on the agent’s performance. Theoretical analysis and experimental results demonstrate that WAVE achieves superior performance compared to standard actor-critic methods.

arxiv情報

著者 Ali Baheri,Zahra Shahrooei,Chirayu Salgarkar
発行日 2025-03-07 18:35:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SY, eess.SY, stat.ML | Wasserstein Adaptive Value Estimation for Actor-Critic Reinforcement Learning はコメントを受け付けていません

Fine-Grained Evaluation for Implicit Discourse Relation Recognition

要約

暗黙の談話関係の認識は、テキストの範囲間の明示的な談話接続がないため、談話分析における困難な作業です。
最近の事前に訓練された言語モデルは、このタスクで大きな成功を収めています。
ただし、このタスクのこれらの事前に訓練された言語モデルのパフォーマンスに関する細粒の分析はありません。
したがって、このタスクの難易度と可能な方向は不明です。
この論文では、モデルの予測を深く分析し、事前に訓練された言語モデルの難しさとこのタスクの可能な方向を見つけようとします。
事前に訓練された言語モデルを使用してこのタスクの詳細な分析を行うことに加えて、PDTB 3.0の注釈付き例をいくつか備えた関係に比較的高品質のデータを加算するために、平均的にデータをアノテートします。
注釈付きデータは、レベル2感覚の暗黙の談話関係認識を大幅に改善するのに役立ちます。

要約(オリジナル)

Implicit discourse relation recognition is a challenging task in discourse analysis due to the absence of explicit discourse connectives between spans of text. Recent pre-trained language models have achieved great success on this task. However, there is no fine-grained analysis of the performance of these pre-trained language models for this task. Therefore, the difficulty and possible directions of this task is unclear. In this paper, we deeply analyze the model prediction, attempting to find out the difficulty for the pre-trained language models and the possible directions of this task. In addition to having an in-depth analysis for this task by using pre-trained language models, we semi-manually annotate data to add relatively high-quality data for the relations with few annotated examples in PDTB 3.0. The annotated data significantly help improve implicit discourse relation recognition for level-2 senses.

arxiv情報

著者 Xinyi Cai
発行日 2025-03-07 11:10:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fine-Grained Evaluation for Implicit Discourse Relation Recognition はコメントを受け付けていません