Metric Similarity and Manifold Learning of Circular Dichroism Spectra of Proteins

要約

SP175データベースからの球状タンパク質の循環二色性分析の機械学習分析を提示します。最適なトランスポートベースの$ 1 $ -WASSERSTEIN距離$ \ MathCal {W} _1 $(注文$ p = 1 $)およびマニフォールド学習アルゴリズム$ T $ -SNEを使用します。
我々の結果は、$ \ mathcal {w} _1 $が、ノイズに堅牢性を示しながら、ユークリッドとマンハッタンの両方の指標と一致していることを示しています。
一方、$ t $ -SNEは、高次元データの意味のある構造を明らかにします。
$ t $ -SNE埋め込みのクラスタリングは、主に異なる二次構造組成を持つタンパク質によって決定されます。1つのクラスターには主に$ \ beta $ richタンパク質が含まれていますが、もう1つは主に$ \ alpha/\ beta $と$ \ alpha $ helicalの内容を含むタンパク質です。

要約(オリジナル)

We present a machine learning analysis of circular dichroism spectra of globular proteins from the SP175 database, using the optimal transport-based $1$-Wasserstein distance $\mathcal{W}_1$ (with order $p=1$) and the manifold learning algorithm $t$-SNE. Our results demonstrate that $\mathcal{W}_1$ is consistent with both Euclidean and Manhattan metrics while exhibiting robustness to noise. On the other hand, $t$-SNE uncovers meaningful structure in the high-dimensional data. The clustering in the $t$-SNE embedding is primarily determined by proteins with distinct secondary structure compositions: one cluster predominantly contains $\beta$-rich proteins, while the other consists mainly of proteins with mixed $\alpha/\beta$ and $\alpha$-helical content.

arxiv情報

著者 Gionni Marchetti
発行日 2025-05-13 14:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.soc-ph | Metric Similarity and Manifold Learning of Circular Dichroism Spectra of Proteins はコメントを受け付けていません

Joint Metric Space Embedding by Unbalanced OT with Gromov-Wasserstein Marginal Penalization

要約

不均一なデータセットの監視されていないアラインメントのための新しいアプローチを提案します。これは、一般的なメトリック空間への既知の対応なしに2つの異なるドメインからのデータをマップします。
私たちの方法は、Gromov-Wassersteinの限界罰則の不均衡な最適輸送問題に基づいています。
最近導入された共同多次元スケーリング法の対応物と見なすことができます。
私たちの機能のミニマライザーが存在し、ペナルティ化パラメーターが無限になると、対応するミニマイザーのシーケンスがいわゆる埋め込まれたワッサースタイン距離のミニマライザーに収束することを証明します。
私たちのモデルは、二次的で多目的、不均衡な最適輸送問題として再定式化できます。これにより、バイコンベックス緩和がブロック座標系を介して数値ソルバーを認めます。
ユークリッドと非ユークリッドの空間における共同埋め込みの数値例を提供します。

要約(オリジナル)

We propose a new approach for unsupervised alignment of heterogeneous datasets, which maps data from two different domains without any known correspondences to a common metric space. Our method is based on an unbalanced optimal transport problem with Gromov-Wasserstein marginal penalization. It can be seen as a counterpart to the recently introduced joint multidimensional scaling method. We prove that there exists a minimizer of our functional and that for penalization parameters going to infinity, the corresponding sequence of minimizers converges to a minimizer of the so-called embedded Wasserstein distance. Our model can be reformulated as a quadratic, multi-marginal, unbalanced optimal transport problem, for which a bi-convex relaxation admits a numerical solver via block-coordinate descent. We provide numerical examples for joint embeddings in Euclidean as well as non-Euclidean spaces.

arxiv情報

著者 Florian Beier,Moritz Piening,Robert Beinert,Gabriele Steidl
発行日 2025-05-13 14:24:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Joint Metric Space Embedding by Unbalanced OT with Gromov-Wasserstein Marginal Penalization はコメントを受け付けていません

Automated Model-Free Sorting of Single-Molecule Fluorescence Events Using a Deep Learning Based Hidden-State Model

要約

単一分子蛍光アッセイにより、生体分子ダイナミクスの高解像度分析が可能になりますが、従来の分析パイプラインは労働集約的であり、ユーザーの経験に依存しており、スケーラビリティと再現性を制限しています。
最近のディープラーニングモデルには、データ処理の自動化された側面がありますが、多くの人は依然として手動のしきい値、複雑なアーキテクチャ、または広範なラベル付きデータを必要としています。
したがって、TRACE分類、状態割り当て、およびユーザー入力を必要としない自動並べ替えのための完全に合理化されたアーキテクチャであるDashを提示します。
Dashは、CAS12Aを介したDNA切断などの平衡および非平衡システムの両方で、ユーザー間の堅牢なパフォーマンスと実験条件を示します。
このペーパーでは、単一分子蛍光イベントの自動で詳細な並べ替えに関する新しい戦略を提案します。
CAS12Aの動的切断プロセスは、包括的な分析を提供するための例として使用されます。
このアプローチは、単一分子レベルで生体発生的な構造変化を研究するために重要です。

要約(オリジナル)

Single-molecule fluorescence assays enable high-resolution analysis of biomolecular dynamics, but traditional analysis pipelines are labor-intensive and rely on users’ experience, limiting scalability and reproducibility. Recent deep learning models have automated aspects of data processing, yet many still require manual thresholds, complex architectures, or extensive labeled data. Therefore, we present DASH, a fully streamlined architecture for trace classification, state assignment, and automatic sorting that requires no user input. DASH demonstrates robust performance across users and experimental conditions both in equilibrium and non-equilibrium systems such as Cas12a-mediated DNA cleavage. This paper proposes a novel strategy for the automatic and detailed sorting of single-molecule fluorescence events. The dynamic cleavage process of Cas12a is used as an example to provide a comprehensive analysis. This approach is crucial for studying biokinetic structural changes at the single-molecule level.

arxiv情報

著者 Wenqi Zeng,Shuqi Zhou,Yuan Yao,Chunlai Chen
発行日 2025-05-13 14:26:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | Automated Model-Free Sorting of Single-Molecule Fluorescence Events Using a Deep Learning Based Hidden-State Model はコメントを受け付けていません

neuralGAM: An R Package for Fitting Generalized Additive Neural Networks

要約

現在、ニューラルネットワークは、異常検出、コンピューター支援疾患検出、自然言語処理など、さまざまなタスクの最も効果的な方法の1つと考えられています。
ただし、これらのネットワークは「ブラックボックス」の問題に悩まされているため、決定を下す方法を理解することは困難です。
この問題を解決するために、Neuralgamと呼ばれるRパッケージが導入されています。
このパッケージは、一般化された添加剤モデルに基づいてニューラルネットワークトポロジを実装し、独立したニューラルネットワークに適合して各機能の寄与を出力変数への貢献度を推定し、非常に正確で解釈可能なディープラーニングモデルを生成します。
Neuralgamパッケージは、一般化された添加剤ニューラルネットワークをトレーニングするための柔軟なフレームワークを提供します。これは、ニューラルネットワークアーキテクチャに制限を課さないものです。
合成データの例と実際のデータの両方の例で、Neuralgamパッケージの使用を説明します。

要約(オリジナル)

Nowadays, Neural Networks are considered one of the most effective methods for various tasks such as anomaly detection, computer-aided disease detection, or natural language processing. However, these networks suffer from the “black-box” problem which makes it difficult to understand how they make decisions. In order to solve this issue, an R package called neuralGAM is introduced. This package implements a Neural Network topology based on Generalized Additive Models, allowing to fit an independent Neural Network to estimate the contribution of each feature to the output variable, yielding a highly accurate and interpretable Deep Learning model. The neuralGAM package provides a flexible framework for training Generalized Additive Neural Networks, which does not impose any restrictions on the Neural Network architecture. We illustrate the use of the neuralGAM package in both synthetic and real data examples.

arxiv情報

著者 Ines Ortega-Fernandez,Marta Sestelo
発行日 2025-05-13 14:30:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML | neuralGAM: An R Package for Fitting Generalized Additive Neural Networks はコメントを受け付けていません

Cost Function Estimation Using Inverse Reinforcement Learning with Minimal Observations

要約

連続空間で最適なコスト関数を推測するために、反復的な逆補強学習アルゴリズムを提示します。
一般的な最大エントロピー基準に基づいて、このアプローチは体重改善ステップを繰り返し見つけ、学習されたコスト関数機能が実証された軌道機能と同様のままであることを保証する適切なステップサイズを見つける方法を提案します。
同様のアプローチとは対照的に、私たちのアルゴリズムは、パーティション関数の各観測の有効性を個別に調整でき、大規模なサンプルセットは必要ありません。
ランダムサンプリングの代わりに最適な制御問題を解決することにより、サンプルの軌跡を生成し、より有益な軌跡につながります。
私たちの方法のパフォーマンスは、2つの最先端のアルゴリズムと比較され、いくつかのシミュレートされた環境でその利点を実証します。

要約(オリジナル)

We present an iterative inverse reinforcement learning algorithm to infer optimal cost functions in continuous spaces. Based on a popular maximum entropy criteria, our approach iteratively finds a weight improvement step and proposes a method to find an appropriate step size that ensures learned cost function features remain similar to the demonstrated trajectory features. In contrast to similar approaches, our algorithm can individually tune the effectiveness of each observation for the partition function and does not need a large sample set, enabling faster learning. We generate sample trajectories by solving an optimal control problem instead of random sampling, leading to more informative trajectories. The performance of our method is compared to two state of the art algorithms to demonstrate its benefits in several simulated environments.

arxiv情報

著者 Sarmad Mehrdad,Avadesh Meduri,Ludovic Righetti
発行日 2025-05-13 14:38:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO | Cost Function Estimation Using Inverse Reinforcement Learning with Minimal Observations はコメントを受け付けていません

DrivAer Transformer: A high-precision and fast prediction method for vehicle aerodynamic drag coefficient based on the DrivAerNet++ dataset

要約

現在の段階では、深い学習ベースの方法により、空力性能の評価において優れた能力が実証されており、従来の計算流体ダイナミクス(CFD)シミュレーションに必要な時間とコストを大幅に削減しています。
ただし、非常に複雑な3次元(3D)車両モデルを処理するタスクに直面した場合、大規模なデータセットとトレーニングリソースの欠如と、さまざまな車両モデルの幾何学の固有の多様性と複雑さは、これらのネットワークの予測精度と汎用性が現在の生産に必要なレベルまでではないことを意味します。
自然言語処理の分野におけるトランスモデルの顕著な成功と画像処理の分野での強力な可能性を考慮して、この研究では、Drivaer Transformer(DAT)と呼ばれるポイントクラウド学習フレームワークを革新的に提案しています。
DAT構造は、Drivaernet ++データセットを使用します。これには、工業用標準の3D車両形状の高忠実度CFDデータが含まれています。
3Dメッシュから直接空気ドラッグの正確な推定を可能にするため、2D画像レンダリングまたは署名距離フィールド(SDF)などの従来の方法の制限を回避します。
DATは、空力評価プロセスの進化を促進し、自動車設計にデータ駆動型アプローチを導入するための重要な基盤を築き、迅速かつ正確なドラッグ予測を可能にします。
このフレームワークは、車両の設計プロセスを加速し、開発効率を向上させることが期待されています。

要約(オリジナル)

At the current stage, deep learning-based methods have demonstrated excellent capabilities in evaluating aerodynamic performance, significantly reducing the time and cost required for traditional computational fluid dynamics (CFD) simulations. However, when faced with the task of processing extremely complex three-dimensional (3D) vehicle models, the lack of large-scale datasets and training resources, coupled with the inherent diversity and complexity of the geometry of different vehicle models, means that the prediction accuracy and versatility of these networks are still not up to the level required for current production. In view of the remarkable success of Transformer models in the field of natural language processing and their strong potential in the field of image processing, this study innovatively proposes a point cloud learning framework called DrivAer Transformer (DAT). The DAT structure uses the DrivAerNet++ dataset, which contains high-fidelity CFD data of industrial-standard 3D vehicle shapes. enabling accurate estimation of air drag directly from 3D meshes, thus avoiding the limitations of traditional methods such as 2D image rendering or signed distance fields (SDF). DAT enables fast and accurate drag prediction, driving the evolution of the aerodynamic evaluation process and laying the critical foundation for introducing a data-driven approach to automotive design. The framework is expected to accelerate the vehicle design process and improve development efficiency.

arxiv情報

著者 Jiaqi He,Xiangwen Luo,Yiping Wang
発行日 2025-05-13 14:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 68T07, 76F65, cs.LG, G.1.8 | DrivAer Transformer: A high-precision and fast prediction method for vehicle aerodynamic drag coefficient based on the DrivAerNet++ dataset はコメントを受け付けていません

Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning

要約

まばらな報酬シナリオでの協同組合のトレーニングは、マルチエージェント強化学習(MARL)に大きな課題をもたらします。
まばらな報酬設定の各ステップでのアクションに関する明確なフィードバックがなければ、以前の方法はエージェント間の正確なクレジット割り当てと効果的な調査に苦労しています。
このホワイトペーパーでは、報酬スパースドメインのクレジット割り当てと探査の問題の両方に対処するための新しい方法を紹介します。
したがって、個々のエージェントの影響を受ける可能性のある状態の寸法/属性の特定の値を取得することにより、状態に対するエージェントの影響範囲(ISA)を計算するアルゴリズムを提案します。
次に、エージェントのアクションと状態属性間の相互依存性を使用して、クレジット割り当てを計算し、個々のエージェントごとの探査スペースを区切ります。
次に、さまざまなまばらなマルチエージェントシナリオでISAを評価します。
結果は、私たちの方法が最先端のベースラインを大幅に上回ることを示しています。

要約(オリジナル)

Training cooperative agents in sparse-reward scenarios poses significant challenges for multi-agent reinforcement learning (MARL). Without clear feedback on actions at each step in sparse-reward setting, previous methods struggle with precise credit assignment among agents and effective exploration. In this paper, we introduce a novel method to deal with both credit assignment and exploration problems in reward-sparse domains. Accordingly, we propose an algorithm that calculates the Influence Scope of Agents (ISA) on states by taking specific value of the dimensions/attributes of states that can be influenced by individual agents. The mutual dependence between agents’ actions and state attributes are then used to calculate the credit assignment and to delimit the exploration space for each individual agent. We then evaluate ISA in a variety of sparse-reward multi-agent scenarios. The results show that our method significantly outperforms the state-of-art baselines.

arxiv情報

著者 Shuai Han,Mehdi Dastani,Shihan Wang
発行日 2025-05-13 14:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Credit Assignment and Efficient Exploration based on Influence Scope in Multi-agent Reinforcement Learning はコメントを受け付けていません

Modular Federated Learning: A Meta-Framework Perspective

要約

Federated Learning(FL)は、データに敏感で分散型環境のパラダイムシフトを表すプライバシーを維持しながら、分散型機械学習トレーニングを可能にします。
その急速な進歩にもかかわらず、FLは複雑で多面的な分野のままであり、その方法論、課題、およびアプリケーションを構造的に理解する必要があります。
この調査では、メタフレームワークの視点を紹介し、FLがコミュニケーション、最適化、セキュリティ、プライバシーなどのコア側面に体系的に対処するモジュラーコンポーネントの構成として概念化します。
FLの歴史的な文脈化を提供し、分散型の最適化から最新の分散学習パラダイムへの進化を追跡します。
さらに、集計をアラインメントと区別する新しい分類法を提案し、集計とともに基本的な演算子としてのアラインメントの概念を導入します。
理論を実践して橋渡しするために、Pythonで利用可能なFLフレームワークを探り、実際の実装を促進します。
最後に、FLサブフィールド全体で重要な課題を体系化し、メタフレームワークモジュール全体で開かれた研究の質問に関する洞察を提供します。
モジュラーコンポーネントのメタフレームワーク内でFLを構築し、集約とアラインメントの二重の役割を強調することにより、この調査は、FLの研究と展開を理解し、展開するための全体的で適応性のある基盤を提供します。

要約(オリジナル)

Federated Learning (FL) enables distributed machine learning training while preserving privacy, representing a paradigm shift for data-sensitive and decentralized environments. Despite its rapid advancements, FL remains a complex and multifaceted field, requiring a structured understanding of its methodologies, challenges, and applications. In this survey, we introduce a meta-framework perspective, conceptualising FL as a composition of modular components that systematically address core aspects such as communication, optimisation, security, and privacy. We provide a historical contextualisation of FL, tracing its evolution from distributed optimisation to modern distributed learning paradigms. Additionally, we propose a novel taxonomy distinguishing Aggregation from Alignment, introducing the concept of alignment as a fundamental operator alongside aggregation. To bridge theory with practice, we explore available FL frameworks in Python, facilitating real-world implementation. Finally, we systematise key challenges across FL sub-fields, providing insights into open research questions throughout the meta-framework modules. By structuring FL within a meta-framework of modular components and emphasising the dual role of Aggregation and Alignment, this survey provides a holistic and adaptable foundation for understanding and advancing FL research and deployment.

arxiv情報

著者 Frederico Vicente,Cláudia Soares,Dušan Jakovetić
発行日 2025-05-13 15:04:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Modular Federated Learning: A Meta-Framework Perspective はコメントを受け付けていません

Sample-Efficient Reinforcement Learning of Koopman eNMPC

要約

強化学習(RL)を使用して、ポリシーの目的関数または状態境界などの制約の動的モデルまたはパラメーターを最適化することにより、特定のコントロールタスクで最適なパフォーマンスのために、データ駆動型の(経済的)非線形モデル予測コントローラー((e)NMPCS)を調整できます。
ただし、RLのサンプル効率は非常に重要であり、それを改善するために、モデルベースのRLアルゴリズムと、Koopman(E)NMPCを自動的に微分可能なポリシーに変える公開された方法を組み合わせます。
文献からの連続攪拌タンク反応器(CSTR)モデルのENMPCケーススタディにアプローチを適用します。
このアプローチは、ベンチマークメソッド、つまり、得られたポリシーのさらなるRLチューニングなしでシステム識別に基づいてモデルを使用したデータ駆動型ENMPC、および優れたコントロールパフォーマンスとより高いサンプル効率を達成することにより、モデルベースのRLでトレーニングされたニューラルネットワークコントローラーを上回ります。
さらに、物理学に基づいた学習を介してシステムのダイナミクスに関する部分的な事前知識を利用すると、サンプル効率がさらに向上します。

要約(オリジナル)

Reinforcement learning (RL) can be used to tune data-driven (economic) nonlinear model predictive controllers ((e)NMPCs) for optimal performance in a specific control task by optimizing the dynamic model or parameters in the policy’s objective function or constraints, such as state bounds. However, the sample efficiency of RL is crucial, and to improve it, we combine a model-based RL algorithm with our published method that turns Koopman (e)NMPCs into automatically differentiable policies. We apply our approach to an eNMPC case study of a continuous stirred-tank reactor (CSTR) model from the literature. The approach outperforms benchmark methods, i.e., data-driven eNMPCs using models based on system identification without further RL tuning of the resulting policy, and neural network controllers trained with model-based RL, by achieving superior control performance and higher sample efficiency. Furthermore, utilizing partial prior knowledge about the system dynamics via physics-informed learning further increases sample efficiency.

arxiv情報

著者 Daniel Mayfrank,Mehmet Velioglu,Alexander Mitsos,Manuel Dahmen
発行日 2025-05-13 15:16:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC | Sample-Efficient Reinforcement Learning of Koopman eNMPC はコメントを受け付けていません

On the Impact of Uncertainty and Calibration on Likelihood-Ratio Membership Inference Attacks

要約

メンバーシップ推論攻撃(MIA)では、攻撃者は、典型的な機械学習モデルによって示される過度の自信を活用して、特定のデータポイントを使用してターゲットモデルをトレーニングするかどうかを判断します。
このホワイトペーパーでは、真のデータ生成プロセスにおけるアレアトリックの不確実性の影響、限られたトレーニングデータセットによって引き起こされる認識論的不確実性、およびターゲットモデルのキャリブレーションレベルの影響の調査を可能にする情報理論的枠組みの中で、尤度比攻撃(LIRA)のパフォーマンスを分析します。
攻撃者がターゲットモデルから減少的に有益なフィードバックを受け取る3つの異なる設定を比較します。信頼ベクター(CV)開示では、出力確率ベクトルがリリースされます。
真のラベル信頼性(TLC)の開示。このラベルに割り当てられた確率のみがモデルによって利用可能になります。
および決定セット(DS)開示。適応予測セットが適合予測のように生成されます。
私たちは、MIAの有効性に対する不確実性とキャリブレーションの影響に関する洞察を提供することを目的として、MIA敵の利点に関する境界を導き出します。
シミュレーション結果は、導出された分析境界がMIAの有効性を十分に予測することを示しています。

要約(オリジナル)

In a membership inference attack (MIA), an attacker exploits the overconfidence exhibited by typical machine learning models to determine whether a specific data point was used to train a target model. In this paper, we analyze the performance of the likelihood ratio attack (LiRA) within an information-theoretical framework that allows the investigation of the impact of the aleatoric uncertainty in the true data generation process, of the epistemic uncertainty caused by a limited training data set, and of the calibration level of the target model. We compare three different settings, in which the attacker receives decreasingly informative feedback from the target model: confidence vector (CV) disclosure, in which the output probability vector is released; true label confidence (TLC) disclosure, in which only the probability assigned to the true label is made available by the model; and decision set (DS) disclosure, in which an adaptive prediction set is produced as in conformal prediction. We derive bounds on the advantage of an MIA adversary with the aim of offering insights into the impact of uncertainty and calibration on the effectiveness of MIAs. Simulation results demonstrate that the derived analytical bounds predict well the effectiveness of MIAs.

arxiv情報

著者 Meiyi Zhu,Caili Guo,Chunyan Feng,Osvaldo Simeone
発行日 2025-05-13 15:38:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.IT, cs.LG, eess.SP, math.IT | On the Impact of Uncertainty and Calibration on Likelihood-Ratio Membership Inference Attacks はコメントを受け付けていません