DiCoFlex: Model-agnostic diverse counterfactuals with flexible control

要約

反事実的な説明は、機械学習モデルの決定を解明する直感的で人間的に理解可能な代替案を提供することにより、説明可能な人工知能(XAI)で極めて重要な役割を果たします。
その重要性にもかかわらず、反事実を生成するための既存の方法は、多くの場合、予測モデルへの絶え間ないアクセスを必要とし、各インスタンスの計算的に集中的な最適化を伴い、再訓練なしで新しいユーザー定義の制約に適応する柔軟性がありません。
この論文では、単一の前方パスで複数の多様な反事実を生成する新しいモデルに依存しない条件付き生成フレームワークであるDicoflexを提案します。
ラベル付きデータのみでトレーニングされた条件付き正規化フローを活用するDICOFLEXは、推論時にスパース性やアクション性などの制約のリアルタイムユーザー駆動型のカスタマイズを可能にすることにより、重要な制限に対処します。
標準のベンチマークデータセットでの広範な実験は、DICOFLEXが有効性、多様性、近接性、および制約順守の観点から既存の方法を上回ることを示しており、それを機密性のある意思決定ドメインにおける反事実的生成のための実用的でスケーラブルなソリューションにしていることを示しています。

要約(オリジナル)

Counterfactual explanations play a pivotal role in explainable artificial intelligence (XAI) by offering intuitive, human-understandable alternatives that elucidate machine learning model decisions. Despite their significance, existing methods for generating counterfactuals often require constant access to the predictive model, involve computationally intensive optimization for each instance and lack the flexibility to adapt to new user-defined constraints without retraining. In this paper, we propose DiCoFlex, a novel model-agnostic, conditional generative framework that produces multiple diverse counterfactuals in a single forward pass. Leveraging conditional normalizing flows trained solely on labeled data, DiCoFlex addresses key limitations by enabling real-time user-driven customization of constraints such as sparsity and actionability at inference time. Extensive experiments on standard benchmark datasets show that DiCoFlex outperforms existing methods in terms of validity, diversity, proximity, and constraint adherence, making it a practical and scalable solution for counterfactual generation in sensitive decision-making domains.

arxiv情報

著者 Oleksii Furman,Ulvi Movsum-zada,Patryk Marszalek,Maciej Zięba,Marek Śmieja
発行日 2025-05-29 17:37:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DiCoFlex: Model-agnostic diverse counterfactuals with flexible control はコメントを受け付けていません

(U)NFV: Supervised and Unsupervised Neural Finite Volume Methods for Solving Hyperbolic PDEs

要約

(U)NFVを紹介します。NFVは、双曲線保存法則を解くための古典的な有限体積(FV)方法を一般化するモジュラーニューラルネットワークアーキテクチャです。
双曲線の部分微分方程式(PDE)は、特に物理的に関連するソリューションに衝撃と不連続性を含む保全法、特に保全法を解決するのが困難です。
FVメソッドは、数学的特性に広く使用されています:エントロピーソリューションへの収束、フロー保存、または全体的な変動が減少しますが、多くの場合、複雑な設定では精度と柔軟性がありません。
ニューラルの有限体積は、保全構造を保存しながら、拡張された空間的および時間的ステンシルを超える更新ルールを学習することにより、これらの制限に対処します。
これは、ソリューションデータ(NFV)に関する監視されたトレーニングと、弱い形の残留損失(UNFV)を介した監視されていないトレーニングの両方をサポートします。
一次保全法に適用される(U)NFVは、Godunovの方法よりも最大10倍低いエラーを達成し、ENO/WENOを上回り、不連続なGalerkinソルバーをはるかに複雑にします。
PDEと実験的な高速道路データの両方からのトラフィックモデリングの問題について、(U)NFVは、従来のFVアプローチよりも忠実度とスケーラビリティが大幅に高い非線形波のダイナミクスをキャプチャします。

要約(オリジナル)

We introduce (U)NFV, a modular neural network architecture that generalizes classical finite volume (FV) methods for solving hyperbolic conservation laws. Hyperbolic partial differential equations (PDEs) are challenging to solve, particularly conservation laws whose physically relevant solutions contain shocks and discontinuities. FV methods are widely used for their mathematical properties: convergence to entropy solutions, flow conservation, or total variation diminishing, but often lack accuracy and flexibility in complex settings. Neural Finite Volume addresses these limitations by learning update rules over extended spatial and temporal stencils while preserving conservation structure. It supports both supervised training on solution data (NFV) and unsupervised training via weak-form residual loss (UNFV). Applied to first-order conservation laws, (U)NFV achieves up to 10x lower error than Godunov’s method, outperforms ENO/WENO, and rivals discontinuous Galerkin solvers with far less complexity. On traffic modeling problems, both from PDEs and from experimental highway data, (U)NFV captures nonlinear wave dynamics with significantly higher fidelity and scalability than traditional FV approaches.

arxiv情報

著者 Nathan Lichtlé,Alexi Canesse,Zhe Fu,Hossein Nick Zinat Matin,Maria Laura Delle Monache,Alexandre M. Bayen
発行日 2025-05-29 17:39:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, G.1.8, math.NA | (U)NFV: Supervised and Unsupervised Neural Finite Volume Methods for Solving Hyperbolic PDEs はコメントを受け付けていません

Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better

要約

Vision-Language-active(VLA)モデルは、エンドツーエンドの学習とWebスケールのビジョン言語モデル(VLM)トレーニングからのセマンティック知識の移転を組み合わせることにより、ロボットなどの物理システムのトレーニング制御ポリシーへの強力なアプローチを提供します。
ただし、リアルタイム制御の制約は、多くの場合、VLMの設計と対立しています。最も強力なVLMは、数百億または数千億のパラメーターを持ち、リアルタイムの推論に障害を示し、ロボットを制御するために必要な連続値の出力ではなく、離散トークンで動作します。
この課題に対処するために、最近のVLAモデルでは、アクションエキスパートや連続出力ヘッドなど、効率的な連続制御のために特殊なモジュールを使用しています。これには、通常、新しい訓練されていないパラメーターを前処理したVLMバックボーンに追加する必要があります。
これらのモジュールはリアルタイムおよび制御機能を改善しますが、前処理されたVLMに含まれるセマンティック知識を保存するか分解するか、およびVLAトレーニングダイナミクスにどのような影響を与えるかは、未解決の問題のままです。
この論文では、この質問をVLAのコンテキストで研究します。これは、継続的な拡散またはフローマッチングアクションエキスパートを含み、そのような専門家を含めることがトレーニング速度と知識の移転の両方に大きく害を及ぼすことを示しています。
さまざまな設計の選択肢、パフォーマンスと知識の移転への影響の広範な分析を提供し、この問題を軽減するVLAトレーニング中にVLMバックボーンを断熱するための手法を提案します。
ビデオはhttps://pi.website/research/knowledge_insulationで入手できます。

要約(オリジナル)

Vision-language-action (VLA) models provide a powerful approach to training control policies for physical systems, such as robots, by combining end-to-end learning with transfer of semantic knowledge from web-scale vision-language model (VLM) training. However, the constraints of real-time control are often at odds with the design of VLMs: the most powerful VLMs have tens or hundreds of billions of parameters, presenting an obstacle to real-time inference, and operate on discrete tokens rather than the continuous-valued outputs that are required for controlling robots. To address this challenge, recent VLA models have used specialized modules for efficient continuous control, such as action experts or continuous output heads, which typically require adding new untrained parameters to the pretrained VLM backbone. While these modules improve real-time and control capabilities, it remains an open question whether they preserve or degrade the semantic knowledge contained in the pretrained VLM, and what effect they have on the VLA training dynamics. In this paper, we study this question in the context of VLAs that include a continuous diffusion or flow matching action expert, showing that naively including such experts significantly harms both training speed and knowledge transfer. We provide an extensive analysis of various design choices, their impact on performance and knowledge transfer, and propose a technique for insulating the VLM backbone during VLA training that mitigates this issue. Videos are available at https://pi.website/research/knowledge_insulation.

arxiv情報

著者 Danny Driess,Jost Tobias Springenberg,Brian Ichter,Lili Yu,Adrian Li-Bell,Karl Pertsch,Allen Z. Ren,Homer Walke,Quan Vuong,Lucy Xiaoyang Shi,Sergey Levine
発行日 2025-05-29 17:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better はコメントを受け付けていません

Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation

要約

聴診、特にハートサウンドは、重要な兆候情報を提供する非侵襲的な手法です。
最近、音響ベースのバイタルサインに関する洞察を提供するために、自己監督の音響表現基礎モデル(FMS)が提案されています。
ただし、これらの事前に訓練されたFM表現で聴診がエンコードされている程度については、ほとんど探求されていません。
この作業では、公的に利用可能な音韻図(PCG)データセットと心拍数(HR)推定モデルを使用して、6つの音響表現FMSの層ごとの調査を実施します。Hubert、WAV2VEC2、WAVLM、WHISPER、WHISPER、CONTRATIVE LANGUAGE-AUDIO PREPANING(CLAP)、およびInsuse House Clap Model。
さらに、Nie et al。、2024(音響機能に依存している)からベースラインメソッドを実装し、事前に訓練された基礎モデル(FMS)の表現ベクトル全体がベースラインに同等のパフォーマンスを提供することを示します。
特に、社内のCLAPモデルのオーディオエンコーダーからの表現を使用したHR推定は、ベースラインから得られた結果を上回り、ドメインのミスマッチにもかかわらず、さまざまな列車/検証/テストスプリットでより低い平均絶対誤差(MAE)を達成します。

要約(オリジナル)

Auscultation, particularly heart sound, is a non-invasive technique that provides essential vital sign information. Recently, self-supervised acoustic representation foundation models (FMs) have been proposed to offer insights into acoustics-based vital signs. However, there has been little exploration of the extent to which auscultation is encoded in these pre-trained FM representations. In this work, using a publicly available phonocardiogram (PCG) dataset and a heart rate (HR) estimation model, we conduct a layer-wise investigation of six acoustic representation FMs: HuBERT, wav2vec2, wavLM, Whisper, Contrastive Language-Audio Pretraining (CLAP), and an in-house CLAP model. Additionally, we implement the baseline method from Nie et al., 2024 (which relies on acoustic features) and show that overall, representation vectors from pre-trained foundation models (FMs) offer comparable performance to the baseline. Notably, HR estimation using the representations from the audio encoder of the in-house CLAP model outperforms the results obtained from the baseline, achieving a lower mean absolute error (MAE) across various train/validation/test splits despite the domain mismatch.

arxiv情報

著者 Jingping Nie,Dung T. Tran,Karan Thakkar,Vasudha Kowtha,Jon Huang,Carlos Avendano,Erdrin Azemi,Vikramjit Mitra
発行日 2025-05-29 17:51:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS | Foundation Model Hidden Representations for Heart Rate Estimation from Auscultation はコメントを受け付けていません

TiRex: Zero-Shot Forecasting Across Long and Short Horizons with Enhanced In-Context Learning

要約

コンテキスト学習、プロンプトで提供された例のみを使用してタスクを実行する大規模な言語モデルの能力は、最近、時系列予測に適合しています。
このパラダイムは、ゼロショット予測を可能にします。過去の値は、将来の価値を予測するコンテキストとして機能し、非専門家がアクセスできる強力な予測ツールを作成し、トレーニングデータが不足しているときにパフォーマンスを増やします。
ほとんどの既存のゼロショット予測アプローチは、LSTMのような再発モデルが頻繁に優位にある時系列予測での成功にもかかわらず、言語での成功にもかかわらず、トランスアーキテクチャに依存しています。
逆に、LSTMは状態追跡能力のために時系列モデリングに適していますが、強力なコンテキスト学習能力がありません。
競争力のあるコンテキスト学習スキルを備えた強化されたLSTMであるXLSTMを活用することにより、このギャップを閉じるTirexを紹介します。
トランス、状態空間モデル、またはRWKVなどの並列化可能なRNNとは異なり、Tirexは、長老の予測の重要な特性である状態追跡を保持します。
国家追跡能力をさらに促進するために、CPMと呼ばれるトレーニングタイムマスキング戦略を提案します。
Tirexは、Huggingface Benchmarks GiftevalおよびChronos-ZSでのゼロショット時系列予測で新しい最先端を設定し、TABPFN-TS(以前のラボ)、Chronos Bolt(Amazon)、TimesFM(Google)、Moirai(Salesforce)を含む大幅に大きなモデルを上回っています。

要約(オリジナル)

In-context learning, the ability of large language models to perform tasks using only examples provided in the prompt, has recently been adapted for time series forecasting. This paradigm enables zero-shot prediction, where past values serve as context for forecasting future values, making powerful forecasting tools accessible to non-experts and increasing the performance when training data are scarce. Most existing zero-shot forecasting approaches rely on transformer architectures, which, despite their success in language, often fall short of expectations in time series forecasting, where recurrent models like LSTMs frequently have the edge. Conversely, while LSTMs are well-suited for time series modeling due to their state-tracking capabilities, they lack strong in-context learning abilities. We introduce TiRex that closes this gap by leveraging xLSTM, an enhanced LSTM with competitive in-context learning skills. Unlike transformers, state-space models, or parallelizable RNNs such as RWKV, TiRex retains state-tracking, a critical property for long-horizon forecasting. To further facilitate its state-tracking ability, we propose a training-time masking strategy called CPM. TiRex sets a new state of the art in zero-shot time series forecasting on the HuggingFace benchmarks GiftEval and Chronos-ZS, outperforming significantly larger models including TabPFN-TS (Prior Labs), Chronos Bolt (Amazon), TimesFM (Google), and Moirai (Salesforce) across both short- and long-term forecasts.

arxiv情報

著者 Andreas Auer,Patrick Podest,Daniel Klotz,Sebastian Böck,Günter Klambauer,Sepp Hochreiter
発行日 2025-05-29 17:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TiRex: Zero-Shot Forecasting Across Long and Short Horizons with Enhanced In-Context Learning はコメントを受け付けていません

DiffER: Categorical Diffusion for Chemical Retrosynthesis

要約

自動化学レトロシンセシスの方法は、主にトランスニューラルネットワークを通じて、自然言語処理のために伝統的に構築されたモデルの適用を通じて最近の成功を見出しました。
これらのモデルは、化学製品と反応物の笑顔のエンコーディング間を翻訳する重要な能力を実証していますが、それらの自己回帰の性質の結果として制約されています。
異なることを提案します。これは、カテゴリー拡散の形式でレトロシンセシス予測のための代替テンプレートを含まない方法であり、出力スマイルシーケンス全体を一斉に予測できるようにします。
テンプレートのない方法でトップ3、トップ5、トップ10精度のトップ1精度と競争力のあるパフォーマンスのために最先端のパフォーマンスを達成する拡散モデルのアンサンブルを構築します。
Differは、実験室の設定で使用されているさまざまな合成技術を学習し、Top-Kの精度メトリックに関する他のさまざまなテンプレートフリーのメソッドを上回ることができる、新しいクラスのテンプレートフリーモデルの強力なベースラインであることを証明しています。
分散を備えた新規長予測成分を備えたカテゴリ拡散モデルのアンサンブルを構築することにより、私たちの方法は、反応物の事後分布からほぼサンプリングすることができ、自信と尤度の強いメトリックを伴う結果を生成します。
さらに、分析は、スマイルシーケンス長の正確な予測がカテゴリ拡散モデルのパフォーマンスをさらに高めるための鍵であることを示しています。

要約(オリジナル)

Methods for automatic chemical retrosynthesis have found recent success through the application of models traditionally built for natural language processing, primarily through transformer neural networks. These models have demonstrated significant ability to translate between the SMILES encodings of chemical products and reactants, but are constrained as a result of their autoregressive nature. We propose DiffER, an alternative template-free method for retrosynthesis prediction in the form of categorical diffusion, which allows the entire output SMILES sequence to be predicted in unison. We construct an ensemble of diffusion models which achieves state-of-the-art performance for top-1 accuracy and competitive performance for top-3, top-5, and top-10 accuracy among template-free methods. We prove that DiffER is a strong baseline for a new class of template-free model, capable of learning a variety of synthetic techniques used in laboratory settings and outperforming a variety of other template-free methods on top-k accuracy metrics. By constructing an ensemble of categorical diffusion models with a novel length prediction component with variance, our method is able to approximately sample from the posterior distribution of reactants, producing results with strong metrics of confidence and likelihood. Furthermore, our analyses demonstrate that accurate prediction of the SMILES sequence length is key to further boosting the performance of categorical diffusion models.

arxiv情報

著者 Sean Current,Ziqi Chen,Daniel Adu-Ampratwum,Xia Ning,Srinivasan Parthasarathy
発行日 2025-05-29 17:53:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | DiffER: Categorical Diffusion for Chemical Retrosynthesis はコメントを受け付けていません

Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields

要約

機械学習力フィールド(MLFF)は、高価なab initio量子機械分子シミュレーションの有望な代替手段です。
興味深い化学スペースの多様性と新しいデータを生成するコストを考えると、MLFFがトレーニング分布を超えてどのように一般化するかを理解することが重要です。
MLFFの分布シフトを特徴付け、よりよく理解するために、化学データセットで診断実験を実施し、広範なデータで訓練された大規模な基礎モデルであっても、重要な課題をもたらす一般的なシフトを明らかにします。
これらの観察に基づいて、現在の監視されたトレーニング方法がMLFFを正規化し、分散型システムの不十分な表現を過剰に装着および学習することを仮定します。
次に、MLFFの分布シフトを緩和するための初期手順として2つの新しい方法を提案します。
当社の方法は、最小限の計算コストを負い、高価なab initioリファレンスラベルを使用しないテスト時間改良戦略に焦点を当てています。
スペクトルグラフ理論に基づく最初の戦略は、テストグラフのエッジを変更して、トレーニング中に見られるグラフ構造と整合します。
2番目の戦略は、安価な物理的な事前などの補助目標を使用して勾配の手順を実行することにより、テスト時に分散排出システムの表現を改善します。
テスト時間の改良戦略は、分散排出システムのエラーを大幅に削減し、MLFFが多様な化学空間のモデリングに移行できるが、そうするように効果的に訓練されていないことを示唆しています。
私たちの実験は、次世代のMLFFの一般化能力を評価するための明確なベンチマークを確立します。
私たちのコードは、https://tkreiman.github.io/projects/mlff_distribution_shifts/で入手できます。

要約(オリジナル)

Machine Learning Force Fields (MLFFs) are a promising alternative to expensive ab initio quantum mechanical molecular simulations. Given the diversity of chemical spaces that are of interest and the cost of generating new data, it is important to understand how MLFFs generalize beyond their training distributions. In order to characterize and better understand distribution shifts in MLFFs, we conduct diagnostic experiments on chemical datasets, revealing common shifts that pose significant challenges, even for large foundation models trained on extensive data. Based on these observations, we hypothesize that current supervised training methods inadequately regularize MLFFs, resulting in overfitting and learning poor representations of out-of-distribution systems. We then propose two new methods as initial steps for mitigating distribution shifts for MLFFs. Our methods focus on test-time refinement strategies that incur minimal computational cost and do not use expensive ab initio reference labels. The first strategy, based on spectral graph theory, modifies the edges of test graphs to align with graph structures seen during training. Our second strategy improves representations for out-of-distribution systems at test-time by taking gradient steps using an auxiliary objective, such as a cheap physical prior. Our test-time refinement strategies significantly reduce errors on out-of-distribution systems, suggesting that MLFFs are capable of and can move towards modeling diverse chemical spaces, but are not being effectively trained to do so. Our experiments establish clear benchmarks for evaluating the generalization capabilities of the next generation of MLFFs. Our code is available at https://tkreiman.github.io/projects/mlff_distribution_shifts/.

arxiv情報

著者 Tobias Kreiman,Aditi S. Krishnapriyan
発行日 2025-05-29 17:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph, q-bio.BM | Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields はコメントを受け付けていません

MuLoCo: Muon is a practical inner optimizer for DiLoCo

要約

Dilocoは、データセンターの設定で並列処理と加速器の利用を増やすための利点を備えたネットワーク制約の下で、大規模な言語モデル(LLM)をトレーニングするための強力なフレームワークです。
ただし、通信頻度が大幅に減少しているにもかかわらず、Dilocoの通信ステップには、モデルのパラメーターの完全なコピーをすべて削減することが依然として含まれています。
既存の作業では、ディロコでの通信を減らす方法を探求しましたが、エラーフィードバック蓄積者の役割と圧縮性に対する内部オプティマイザーの効果は未調査のままです。
この作業では、2つのローカルオプティマイザー(AdamwとMuon)と組み合わせた場合、ディロコの通信オーバーヘッドを減らすためのトップKスパース化と量子化などの標準的な圧縮方法の有効性を調査します。
私たちの実験では、デコーダーのみのデコーダーのみのトランス言語モデル(LMS)が、ミューオンをディロコの内部オプティマイザーとともにエラーフィードバックアキュムレータとともに活用することで、パフォーマンスの低下で通信デルタを2ビットに積極的に圧縮できることが明らかになりました。
重要なことに、Muloco(Muon Inner Optimizer Diloco)は、8倍少ない通信と同一のメモリの複雑さを持っている間、Dilocoを大幅に上回ります。

要約(オリジナル)

DiLoCo is a powerful framework for training large language models (LLMs) under networking constraints with advantages for increasing parallelism and accelerator utilization in data center settings. Despite significantly reducing communication frequency, however, DiLoCo’s communication steps still involve all-reducing a complete copy of the model’s parameters. While existing works have explored ways to reduce communication in DiLoCo, the role of error feedback accumulators and the effect of the inner-optimizer on compressibility remain under-explored. In this work, we investigate the effectiveness of standard compression methods including Top-k sparsification and quantization for reducing the communication overhead of DiLoCo when paired with two local optimizers (AdamW and Muon). Our experiments pre-training decoder-only transformer language models (LMs) reveal that leveraging Muon as the inner optimizer for DiLoCo along with an error-feedback accumulator allows to aggressively compress the communicated delta to 2-bits with next to no performance degradation. Crucially, MuLoCo (Muon inner optimizer DiLoCo) significantly outperforms DiLoCo while communicating 8X less and having identical memory complexity.

arxiv情報

著者 Benjamin Thérien,Xiaolong Huang,Irina Rish,Eugene Belilovsky
発行日 2025-05-29 17:55:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | MuLoCo: Muon is a practical inner optimizer for DiLoCo はコメントを受け付けていません

EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast

要約

現在の感情に基づいた対照的な言語 – audio事前トレーニング(clap)メソッドは、通常、オーディオサンプルを対応するテキストプロンプトとna \ ‘に整合することによって学習します。
その結果、このアプローチは感情の順序性をキャプチャすることができず、感情間の理解を妨げ、しばしばアラインメントが不十分なため、オーディオとテキストの埋め込みの間に広いモダリティギャップをもたらします。
これらの欠点を処理するために、感情的な音声と自然言語プロンプトの次元属性を使用して、きめ細かい感情の変化を共同でキャプチャし、クロスモーダルアライメントを改善する監視されたコントラスト学習アプローチである感情ランククラップを紹介します。
私たちのアプローチは、Valence-Arousal Spaceのランキングに基づいてサンプルをコントラストすることにより、RANK-N-Contrastの目的を利用して、秩序ある関係を学習します。
感情ランククラップは、クロスモーダル検索タスクを介して測定された、モダリティ全体の感情普通性をモデル化する際に既存の感情型の方法を上回ります。

要約(オリジナル)

Current emotion-based contrastive language-audio pretraining (CLAP) methods typically learn by na\’ively aligning audio samples with corresponding text prompts. Consequently, this approach fails to capture the ordinal nature of emotions, hindering inter-emotion understanding and often resulting in a wide modality gap between the audio and text embeddings due to insufficient alignment. To handle these drawbacks, we introduce EmotionRankCLAP, a supervised contrastive learning approach that uses dimensional attributes of emotional speech and natural language prompts to jointly capture fine-grained emotion variations and improve cross-modal alignment. Our approach utilizes a Rank-N-Contrast objective to learn ordered relationships by contrasting samples based on their rankings in the valence-arousal space. EmotionRankCLAP outperforms existing emotion-CLAP methods in modeling emotion ordinality across modalities, measured via a cross-modal retrieval task.

arxiv情報

著者 Shreeram Suresh Chandra,Lucas Goncalves,Junchen Lu,Carlos Busso,Berrak Sisman
発行日 2025-05-29 17:56:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EmotionRankCLAP: Bridging Natural Language Speaking Styles and Ordinal Speech Emotion via Rank-N-Contrast はコメントを受け付けていません

On the Convergence Analysis of Muon

要約

ニューラルネットワークのパラメーターの大部分は、自然にマトリックスとして表されます。
ただし、最も一般的に使用されるオプティマイザーは、これらのマトリックスパラメーターを最適化中に平らなベクトルとして扱い、固有の構造特性を見下ろす可能性があります。
最近、Muonと呼ばれるオプティマイザーが提案されており、マトリックス構造パラメーターを最適化するように特別に設計されています。
広範な経験的証拠は、ムーンがニューラルネットワークをトレーニングする際に従来のオプティマイザーを大幅に上回ることができることを示しています。
それにもかかわらず、Muonの収束行動とその優れたパフォーマンスの背後にある理由の理論的理解は、限られたままです。
この作業では、Muonの包括的な収束率分析と勾配降下(GD)との比較を提示します。
さらに、MuonがGDを上回ることができる条件をさらに特徴付けます。
私たちの理論的結果は、ムーンがヘッセ行列の低ランクとおおよそのブロックワイズの対角線構造の恩恵を受けることができることを明らかにしています – 実際のニューラルネットワークトレーニングで広く観察された現象。
実験結果は、理論的な発見をサポートし、裏付けています。

要約(オリジナル)

The majority of parameters in neural networks are naturally represented as matrices. However, most commonly used optimizers treat these matrix parameters as flattened vectors during optimization, potentially overlooking their inherent structural properties. Recently, an optimizer called Muon has been proposed, specifically designed to optimize matrix-structured parameters. Extensive empirical evidence shows that Muon can significantly outperform traditional optimizers when training neural networks. Nonetheless, the theoretical understanding of Muon’s convergence behavior and the reasons behind its superior performance remain limited. In this work, we present a comprehensive convergence rate analysis of Muon and its comparison with Gradient Descent (GD). We further characterize the conditions under which Muon can outperform GD. Our theoretical results reveal that Muon can benefit from the low-rank and approximate blockwise diagonal structure of Hessian matrices — phenomena widely observed in practical neural network training. Our experimental results support and corroborate the theoretical findings.

arxiv情報

著者 Wei Shen,Ruichuan Huang,Minhui Huang,Cong Shen,Jiawei Zhang
発行日 2025-05-29 17:58:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.OC, stat.ML | On the Convergence Analysis of Muon はコメントを受け付けていません