Advantage Alignment Algorithms

要約

人工的にインテリジェントなエージェントは、大規模な言語モデル(LLM)アシスタントから自律車両まで、人間の意思決定にますます統合されています。
これらのシステムは、多くの場合、個々の目的を最適化し、特に素朴な補強学習エージェントがパレートサブプチマルナッシュ平衡に経験的に収束する一般的なゲームで紛争につながります。
この問題に対処するために、対戦相手の形成は、一般的なゲームで社会的に有益な平衡を見つけるためのパラダイムとして浮上しています。
この作業では、Advantage Alignmentを紹介します。これは、相手を効率的かつ直感的に形作る最初の原則から派生したアルゴリズムのファミリーです。
相互作用エージェントの利点を調整することでこれを達成し、相互作用が肯定的である場合に相互に有益なアクションの確率を高めます。
既存の対戦相手の形成方法は、暗黙的にアドバンテージアラインメントを実行することを証明します。
これらの方法と比較して、アドバンテージアラインメントは、相手の形成の数学的定式化を簡素化し、計算負荷を減らし、連続的なアクションドメインに拡張します。
私たちは、さまざまな社会的ジレンマにわたるアルゴリズムの有効性を実証し、最先端の協力と搾取に対する堅牢性を達成します。

要約(オリジナル)

Artificially intelligent agents are increasingly being integrated into human decision-making: from large language model (LLM) assistants to autonomous vehicles. These systems often optimize their individual objective, leading to conflicts, particularly in general-sum games where naive reinforcement learning agents empirically converge to Pareto-suboptimal Nash equilibria. To address this issue, opponent shaping has emerged as a paradigm for finding socially beneficial equilibria in general-sum games. In this work, we introduce Advantage Alignment, a family of algorithms derived from first principles that perform opponent shaping efficiently and intuitively. We achieve this by aligning the advantages of interacting agents, increasing the probability of mutually beneficial actions when their interaction has been positive. We prove that existing opponent shaping methods implicitly perform Advantage Alignment. Compared to these methods, Advantage Alignment simplifies the mathematical formulation of opponent shaping, reduces the computational burden and extends to continuous action domains. We demonstrate the effectiveness of our algorithms across a range of social dilemmas, achieving state-of-the-art cooperation and robustness against exploitation.

arxiv情報

著者 Juan Agustin Duque,Milad Aghajohari,Tim Cooijmans,Razvan Ciuca,Tianyu Zhang,Gauthier Gidel,Aaron Courville
発行日 2025-02-06 18:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Advantage Alignment Algorithms はコメントを受け付けていません

Electrical Impedance Tomography for Anisotropic Media: a Machine Learning Approach to Classify Inclusions

要約

バックグラウンドコンダクティングボディ$ \ omega \ subset \ mathbb {r}^2 $を識別するという電気インピーダンス断層撮影(EIT)の問題を考慮します。
境界$ \ partial \ omega $およびDirichlet-to-Neumann(D-N)マトリックスによってモデル化されています。
$ \ omega $に1つの包含が確立されると、私たちのモデルは、人工ニューラルネットワーク(ANN)およびサポートベクターマシン(SVM)の機械学習技術と組み合わされて、包含のサイズを決定するために使用できます。
複数の包含物の存在、および包含内の異方性の存在。
16電極セットアップ内で実際のデータセットとシミュレーションされたデータセットの両方を利用して、包含検出率が高いことを示し、包含のサイズを予測するときに2つの測定が適切な精度を達成するのに十分であることを示します。
これは、エイトのより古典的な分析と、異方性の存在などの重要な洞察を抽出するための逆包含問題と機械学習アプローチを統合するという実質的な可能性を強調しています。

要約(オリジナル)

We consider the problem in Electrical Impedance Tomography (EIT) of identifying one or multiple inclusions in a background-conducting body $\Omega\subset\mathbb{R}^2$, from the knowledge of a finite number of electrostatic measurements taken on its boundary $\partial\Omega$ and modelled by the Dirichlet-to-Neumann (D-N) matrix. Once the presence of one inclusion in $\Omega$ is established, our model, combined with the machine learning techniques of Artificial Neural Networks (ANN) and Support Vector Machines (SVM), may be used to determine the size of the inclusion, the presence of multiple inclusions, and also that of anisotropy within the inclusion(s). Utilising both real and simulated datasets within a 16-electrode setup, we achieve a high rate of inclusion detection and show that two measurements are sufficient to achieve a good level of accuracy when predicting the size of an inclusion. This underscores the substantial potential of integrating machine learning approaches with the more classical analysis of EIT and the inverse inclusion problem to extract critical insights, such as the presence of anisotropy.

arxiv情報

著者 Romina Gaburro,Patrick Healy,Shraddha Naidu,Clifford Nolan
発行日 2025-02-06 18:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 35R30, 65N21, 68T99, cs.LG, cs.NA, math.NA | Electrical Impedance Tomography for Anisotropic Media: a Machine Learning Approach to Classify Inclusions はコメントを受け付けていません

Orthogonal Representation Learning for Estimating Causal Quantities

要約

表現学習は、観察データからの原因量(条件付き平均治療効果など)の推定に広く使用されています。
既存の表現学習方法には、エンドツーエンドの学習を許可する利点がありますが、二重の堅牢性や準オラクル効率など、ネイマン – 正義学習者の好ましい理論的特性はありません。
また、このような表現学習方法は、バランスのような追加の制約を採用していることが多く、一貫性のない推定につながる可能性があります。
この論文では、表現レベルで定義された因果量について、ネイマン – 正義学習者の新しいクラスを提案します。
私たちのOR-Learnersにはいくつかの実際的な利点があります。これらは、学習した表現に基づいて因果量の一貫した推定を可能にし、二重の堅牢性や準オラクル効率を含む好ましい理論的特性を提供します。
複数の実験では、特定の規則性条件下で、OR-Learnersが既存の表現学習方法を改善し、最先端のパフォーマンスを達成することを示しています。
私たちの知る限り、私たちの学習者は、因果量の推定のために、表現学習方法の統一された枠組みとネイマンと正義の学習者を提供する最初の作業です。

要約(オリジナル)

Representation learning is widely used for estimating causal quantities (e.g., the conditional average treatment effect) from observational data. While existing representation learning methods have the benefit of allowing for end-to-end learning, they do not have favorable theoretical properties of Neyman-orthogonal learners, such as double robustness and quasi-oracle efficiency. Also, such representation learning methods often employ additional constraints, like balancing, which may even lead to inconsistent estimation. In this paper, we propose a novel class of Neyman-orthogonal learners for causal quantities defined at the representation level, which we call OR-learners. Our OR-learners have several practical advantages: they allow for consistent estimation of causal quantities based on any learned representation, while offering favorable theoretical properties including double robustness and quasi-oracle efficiency. In multiple experiments, we show that, under certain regularity conditions, our OR-learners improve existing representation learning methods and achieve state-of-the-art performance. To the best of our knowledge, our OR-learners are the first work to offer a unified framework of representation learning methods and Neyman-orthogonal learners for causal quantities estimation.

arxiv情報

著者 Valentyn Melnychuk,Dennis Frauen,Jonas Schweisthal,Stefan Feuerriegel
発行日 2025-02-06 18:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Orthogonal Representation Learning for Estimating Causal Quantities はコメントを受け付けていません

Gaussian Process Regression for Inverse Problems in Linear PDEs

要約

このペーパーでは、線形部分微分方程式(PDE)によって支配された逆問題を解くためのシステム理論の計算効率的なアルゴリズムを紹介します。
高度な通勤代数および代数分析に基づいて定義されたプライアーを使用して、ガウスプロセスを使用して線形PDEのソリューションをモデル化します。
これらのプライアーの実装はアルゴリズムであり、Macaulay2コンピューター代数ソフトウェアを使用して達成されます。
例のアプリケーションには、物理​​学で広く使用されている古典的な波方程式の騒々しいデータからの波速度の識別が含まれます。
この方法は、計算効率を向上させながら、高い精度を実現します。

要約(オリジナル)

This paper introduces a computationally efficient algorithm in system theory for solving inverse problems governed by linear partial differential equations (PDEs). We model solutions of linear PDEs using Gaussian processes with priors defined based on advanced commutative algebra and algebraic analysis. The implementation of these priors is algorithmic and achieved using the Macaulay2 computer algebra software. An example application includes identifying the wave speed from noisy data for classical wave equations, which are widely used in physics. The method achieves high accuracy while enhancing computational efficiency.

arxiv情報

著者 Xin Li,Markus Lange-Hegermann,Bogdan Raiţă
発行日 2025-02-06 18:20:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AC, stat.ML | Gaussian Process Regression for Inverse Problems in Linear PDEs はコメントを受け付けていません

DECAF: Learning to be Fair in Multi-agent Resource Allocation

要約

さまざまなリソース割り当ての問題は、これらのリソースよりも好みを評価および伝達するエージェントとともに、中央仲裁人によって管理されるリソース制約の下で機能します。
分散評価、集中配分(DECA)の問題としてこの広範なクラスの問題を策定し、集中リソース割り当てで公正かつ効率的なポリシーを学ぶ方法を提案します。
私たちの方法は、マルチエージェントシステムにおける公平性のための斬新で一般的な枠組みにおける長期的な公平性を学習することに適用されます。
ダブルディープQラーニングに基づいて3つの異なる方法を示します。(1)公平性とユーティリティの共同加重最適化、(2)分割最適化、ユーティリティと公平性のための2つの個別のQエスティメーターの学習、および(3)オンラインポリシー
既存のブラックボックスユーティリティ機能を公正なソリューションに導くための摂動。
私たちの方法は、多様な公平性関数を使用して評価された場合でも、複数のリソース割り当てドメインで既存の公正なMARLアプローチを上回り、ユーティリティと公平性の間の柔軟なオンライントレードオフを可能にします。

要約(オリジナル)

A wide variety of resource allocation problems operate under resource constraints that are managed by a central arbitrator, with agents who evaluate and communicate preferences over these resources. We formulate this broad class of problems as Distributed Evaluation, Centralized Allocation (DECA) problems and propose methods to learn fair and efficient policies in centralized resource allocation. Our methods are applied to learning long-term fairness in a novel and general framework for fairness in multi-agent systems. We show three different methods based on Double Deep Q-Learning: (1) A joint weighted optimization of fairness and utility, (2) a split optimization, learning two separate Q-estimators for utility and fairness, and (3) an online policy perturbation to guide existing black-box utility functions toward fair solutions. Our methods outperform existing fair MARL approaches on multiple resource allocation domains, even when evaluated using diverse fairness functions, and allow for flexible online trade-offs between utility and fairness.

arxiv情報

著者 Ashwin Kumar,William Yeoh
発行日 2025-02-06 18:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, cs.MA | DECAF: Learning to be Fair in Multi-agent Resource Allocation はコメントを受け付けていません

Leveraging Geolocation in Clinical Records to Improve Alzheimer’s Disease Diagnosis Using DMV Framework

要約

アルツハイマー病(AD)早期発見は、タイムリーな介入を可能にし、患者の転帰を改善するために重要です。
このホワイトペーパーでは、LLAMA3-70BとGPT-4Oを埋め込みモデルとして使用してDMVフレームワークを紹介し、臨床ノートを分析し、早期ADの発症に関連する連続リスクスコアを予測します。
タスクを回帰問題としてフレーミングすると、特定のトピックカテゴリ内のADリスクに関連する特定の質問に答える臨床ノート(入力)の言語機能とターゲット変数(データ値)の関係をモデル化します。
ジオロケーションデータを含む多面的な機能セットを活用することにより、ADにリンクされる可能性のある追加の環境コンテキストをキャプチャします。
我々の結果は、地理配分情報の統合により、以前のモデルでの早期ADリスクスコアの予測の誤差が大幅に減少し、28.57%(LLAMA3-70B)および33.47%(GPT4-O)が大幅に減少することを示しています。
私たちの調査結果は、この組み合わせたアプローチがADリスク評価の予測精度を高めることができることを示唆しており、臨床環境での早期診断と介入をサポートしています。
さらに、Geolocationデータを組み込むフレームワークの能力は、医療提供者が広告開発に貢献する環境要因をよりよく理解し、対処するのに役立つ、より包括的なリスク評価モデルを提供します。

要約(オリジナル)

Alzheimer’s Disease (AD) early detection is critical for enabling timely intervention and improving patient outcomes. This paper presents a DMV framework using Llama3-70B and GPT-4o as embedding models to analyze clinical notes and predict a continuous risk score associated with early AD onset. Framing the task as a regression problem, we model the relationship between linguistic features in clinical notes (inputs) and a target variable (data value) that answers specific questions related to AD risk within certain topic categories. By leveraging a multi-faceted feature set that includes geolocation data, we capture additional environmental context potentially linked to AD. Our results demonstrate that the integration of the geolocation information significantly decreases the error of predicting early AD risk scores over prior models by 28.57% (Llama3-70B) and 33.47% (GPT4-o). Our findings suggest that this combined approach can enhance the predictive accuracy of AD risk assessment, supporting early diagnosis and intervention in clinical settings. Additionally, the framework’s ability to incorporate geolocation data provides a more comprehensive risk assessment model that could help healthcare providers better understand and address environmental factors contributing to AD development.

arxiv情報

著者 Peng Zhang,Divya Chaudhary
発行日 2025-02-06 18:33:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Leveraging Geolocation in Clinical Records to Improve Alzheimer’s Disease Diagnosis Using DMV Framework はコメントを受け付けていません

Retro-Rank-In: A Ranking-Based Approach for Inorganic Materials Synthesis Planning

要約

レトロシンセシスは、よりシンプルで容易に利用可能な前駆体化合物からの化学標的化合物の合成を戦略的に計画しています。
このプロセスは、新しい無機材料を合成するために重要ですが、無機化学の伝統的な方法は、試行錯誤の実験に依存し続けています。
新たな機械学習アプローチは、既知の前駆体に依存しているため、マルチラベル分類タスクとしてレトロシンセシスを組み立てるため、まったく新しい反応に一般化するのに苦労しています。
これらの制限に対処するために、ターゲットと前駆体材料を共有潜在空間に埋め込み、無機化合物の二部グラフでペアワイズランカーを学習することにより、レトロシンセシス問題を再定式化する新しいフレームワークであるレトロランクインを提案します。
データの複製と重複を緩和するために設計された挑戦的なレトロシンセシスデータセットスプリットに関するレトロランクインの一般化可能性を評価します。
たとえば、CR2ALB2の場合、トレーニングでそれらを見たことがないにもかかわらず、検証された前駆体ペアCRB + ALを正しく予測します。
広範な実験では、レトロランクインが、特に分散型の一般化と候補セットランキングにおいて、新しい最先端の最先端を設定し、無機材料合成を加速するための強力なツールを提供することが示されています。

要約(オリジナル)

Retrosynthesis strategically plans the synthesis of a chemical target compound from simpler, readily available precursor compounds. This process is critical for synthesizing novel inorganic materials, yet traditional methods in inorganic chemistry continue to rely on trial-and-error experimentation. Emerging machine-learning approaches struggle to generalize to entirely new reactions due to their reliance on known precursors, as they frame retrosynthesis as a multi-label classification task. To address these limitations, we propose Retro-Rank-In, a novel framework that reformulates the retrosynthesis problem by embedding target and precursor materials into a shared latent space and learning a pairwise ranker on a bipartite graph of inorganic compounds. We evaluate Retro-Rank-In’s generalizability on challenging retrosynthesis dataset splits designed to mitigate data duplicates and overlaps. For instance, for Cr2AlB2, it correctly predicts the verified precursor pair CrB + Al despite never seeing them in training, a capability absent in prior work. Extensive experiments show that Retro-Rank-In sets a new state-of-the-art, particularly in out-of-distribution generalization and candidate set ranking, offering a powerful tool for accelerating inorganic material synthesis.

arxiv情報

著者 Thorben Prein,Elton Pan,Sami Haddouti,Marco Lorenz,Janik Jehkul,Tymoteusz Wilk,Cansu Moran,Menelaos Panagiotis Fotiadis,Artur P. Toshev,Elsa Olivetti,Jennifer L. M. Rupp
発行日 2025-02-06 18:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph | Retro-Rank-In: A Ranking-Based Approach for Inorganic Materials Synthesis Planning はコメントを受け付けていません

Prediction-Powered E-Values

要約

品質の統計的推論には、十分な量のデータが必要であり、取得が不足しているか、取得が難しい場合があります。
この目的のために、予測駆動の推論は有望な方法論として上昇していますが、既存のアプローチは、平均や分位数の推論などのZ推定問題に大きく限定されています。
このホワイトペーパーでは、e値に対する予測駆動の推論のアイデアを適用します。
そうすることで、任意の妥当性、事後妥当性、多目的な順次推論などの電子値のすべての通常の利点を継承し、予測駆動の方法で達成可能な一連の推論を大幅に拡張します。
特に、電子値の観点からフレーム化できるすべての推論手順には、私たちの方法で与えられた予測駆動の対応物があることを示します。
単純な仮説テストや信頼区間から、以前の技術の範囲外であった変更点検出と因果発見のためのより複雑な手順まで、幅広い推論タスクにわたるフレームワークの有効性を紹介します。
私たちのアプローチはモジュール式であり、既存のアルゴリズムに簡単に統合でき、実用的なアプリケーションに説得力のある選択肢となっています。

要約(オリジナル)

Quality statistical inference requires a sufficient amount of data, which can be missing or hard to obtain. To this end, prediction-powered inference has risen as a promising methodology, but existing approaches are largely limited to Z-estimation problems such as inference of means and quantiles. In this paper, we apply ideas of prediction-powered inference to e-values. By doing so, we inherit all the usual benefits of e-values — such as anytime-validity, post-hoc validity and versatile sequential inference — as well as greatly expand the set of inferences achievable in a prediction-powered manner. In particular, we show that every inference procedure that can be framed in terms of e-values has a prediction-powered counterpart, given by our method. We showcase the effectiveness of our framework across a wide range of inference tasks, from simple hypothesis testing and confidence intervals to more involved procedures for change-point detection and causal discovery, which were out of reach of previous techniques. Our approach is modular and easily integrable into existing algorithms, making it a compelling choice for practical applications.

arxiv情報

著者 Daniel Csillag,Claudio José Struchiner,Guilherme Tegoni Goedert
発行日 2025-02-06 18:36:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML | Prediction-Powered E-Values はコメントを受け付けていません

MPAX: Mathematical Programming in JAX

要約

このペーパーでは、線形プログラミング(LP)を機械学習ワークフローに統合するための多用途で効率的なツールボックスであるMPAX(JAXの数学プログラミング)を紹介します。
MPAXは、最先端の1次方法を実装し、平均プライマルデュアルハイブリッド勾配を再開し、JAXのLPSを解くために再起動Halpern Primal-Dual Hybrid Gradientを反映しました。
これにより、ハードウェアアクセラ化のネイティブサポートと、バッチ解決、自動分化、デバイスの並列性などの機能が提供されます。
広範な数値実験は、既存のソルバーに対するMPAXの利点を示しています。
ソルバーはhttps://github.com/mit-lu-lab/mpaxで入手できます。

要約(オリジナル)

This paper presents MPAX (Mathematical Programming in JAX), a versatile and efficient toolbox for integrating linear programming (LP) into machine learning workflows. MPAX implemented the state-of-the-art first-order methods, restarted average primal-dual hybrid gradient and reflected restarted Halpern primal-dual hybrid gradient, to solve LPs in JAX. This provides native support for hardware accelerations along with features like batch solving, auto-differentiation, and device parallelism. Extensive numerical experiments demonstrate the advantages of MPAX over existing solvers. The solver is available at https://github.com/MIT-Lu-Lab/MPAX.

arxiv情報

著者 Haihao Lu,Zedong Peng,Jinwen Yang
発行日 2025-02-06 18:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90-04, cs.LG, math.OC | MPAX: Mathematical Programming in JAX はコメントを受け付けていません

Statistical guarantees for continuous-time policy evaluation: blessing of ellipticity and new tradeoffs

要約

単一の個別に観察されたエルゴジック軌道を使用して、連続時間マルコフ拡散プロセスの値関数の推定を研究します。
私たちの研究は、最小二乗時間差(LSTD)メソッドの非症状の統計的保証を提供し、パフォーマンスは1次ソボレフ基準で測定されます。
具体的には、推定器は、長さ$ t $の軌跡を使用する場合、$ o(1 / \ sqrt {t})$収束率を達成します。
特に、このレートは、拡散の混合時間と採用されている基底関数の数の両方で、$ T $がほぼ直線的にスケーリングする限り達成されます。
私たちのアプローチの重要な洞察は、拡散プロセスに固有の楕円率が、効果的な地平線が無限に分岐しても、堅牢なパフォーマンスを保証することです。
さらに、統計誤差のマルコビアン成分は近似誤差によって制御できることを実証しますが、Martingaleコンポーネントは基底関数の数に比べて遅い速度で成長します。
これらの2つのエラーソースのバランスを慎重にバランスさせることにより、分析により、近似と統計エラーの間の新しいトレードオフが明らかになります。

要約(オリジナル)

We study the estimation of the value function for continuous-time Markov diffusion processes using a single, discretely observed ergodic trajectory. Our work provides non-asymptotic statistical guarantees for the least-squares temporal-difference (LSTD) method, with performance measured in the first-order Sobolev norm. Specifically, the estimator attains an $O(1 / \sqrt{T})$ convergence rate when using a trajectory of length $T$; notably, this rate is achieved as long as $T$ scales nearly linearly with both the mixing time of the diffusion and the number of basis functions employed. A key insight of our approach is that the ellipticity inherent in the diffusion process ensures robust performance even as the effective horizon diverges to infinity. Moreover, we demonstrate that the Markovian component of the statistical error can be controlled by the approximation error, while the martingale component grows at a slower rate relative to the number of basis functions. By carefully balancing these two sources of error, our analysis reveals novel trade-offs between approximation and statistical errors.

arxiv情報

著者 Wenlong Mou
発行日 2025-02-06 18:39:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.PR, math.ST, stat.TH | Statistical guarantees for continuous-time policy evaluation: blessing of ellipticity and new tradeoffs はコメントを受け付けていません