Stochastic Optimization with Optimal Importance Sampling

要約

重要度サンプリング(Importance Sampling: IS)は、モンテカルロ法の効率を向上させるために広く使用されている分散削減手法であり、特に希少事象シミュレーションやその関連アプリケーションにおいて有効である。その強力さにもかかわらず、ISの性能はしばしば提案分布の選択に非常に敏感であり、確率的キャリブレーション技術を必要とすることが多い。ISの設計と解析は推定設定において広く研究されているが、確率最適化におけるISの適用には独自の課題がある。この相互依存性は、決定反復の収束分析とISスキームの効率性の両方を複雑にする。本論文では、決定変数とIS分布を時間スケールで分離することなく共同で更新する反復勾配ベースのアルゴリズムを提案する。本手法は、漸近分散を可能な限り小さくし、目的の凸性とIS分布族に関する穏やかな仮定の下で大域的収束を保証する。さらに、Nesterovの双対平均法の最近の変形を取り入れることで、線形制約下でもこれらの特性が保たれることを示す。

要約(オリジナル)

Importance Sampling (IS) is a widely used variance reduction technique for enhancing the efficiency of Monte Carlo methods, particularly in rare-event simulation and related applications. Despite its power, the performance of IS is often highly sensitive to the choice of the proposal distribution and frequently requires stochastic calibration techniques. While the design and analysis of IS have been extensively studied in estimation settings, applying IS within stochastic optimization introduces a unique challenge: the decision and the IS distribution are mutually dependent, creating a circular optimization structure. This interdependence complicates both the analysis of convergence for decision iterates and the efficiency of the IS scheme. In this paper, we propose an iterative gradient-based algorithm that jointly updates the decision variable and the IS distribution without requiring time-scale separation between the two. Our method achieves the lowest possible asymptotic variance and guarantees global convergence under convexity of the objective and mild assumptions on the IS distribution family. Furthermore, we show that these properties are preserved under linear constraints by incorporating a recent variant of Nesterov’s dual averaging method.

arxiv情報

著者 Liviu Aolaritei,Bart P. G. Van Parys,Henry Lam,Michael I. Jordan
発行日 2025-04-04 16:10:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, math.ST, stat.ML, stat.TH | Stochastic Optimization with Optimal Importance Sampling はコメントを受け付けていません

Hallucination Detection on a Budget: Efficient Bayesian Estimation of Semantic Entropy

要約

LLMが幻覚を見ているかどうかを検出することは、重要な研究課題である。そのための有望な方法の1つは、生成された配列の分布の意味エントロピー(Farquhar et al.我々はそのための新しいアルゴリズムを提案するが、これには2つの主な利点がある。第一に、ベイズ的アプローチをとることにより、LLMからのサンプルの与えられた予算に対して、意味エントロピーの推定の質が格段に向上する。第二に、「より難しい」文脈がより多くのサンプルを受け取るように、サンプルの数を適応的に調整することができる。AUROCによって測定された幻覚検出と同じ品質を達成するために、Farquharら(2024)が使用したサンプルの59%しか必要としない。さらに、非常に直感に反することだが、我々の推定器はLLMからたった1サンプルでも有効である。

要約(オリジナル)

Detecting whether an LLM hallucinates is an important research challenge. One promising way of doing so is to estimate the semantic entropy (Farquhar et al., 2024) of the distribution of generated sequences. We propose a new algorithm for doing that, with two main advantages. First, due to us taking the Bayesian approach, we achieve a much better quality of semantic entropy estimates for a given budget of samples from the LLM. Second, we are able to tune the number of samples adaptively so that `harder’ contexts receive more samples. We demonstrate empirically that our approach systematically beats the baselines, requiring only 59% of samples used by Farquhar et al. (2024) to achieve the same quality of hallucination detection as measured by AUROC. Moreover, quite counterintuitively, our estimator is useful even with just one sample from the LLM.

arxiv情報

著者 Kamil Ciosek,Nicolò Felicioni,Sina Ghiassian
発行日 2025-04-04 16:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | Hallucination Detection on a Budget: Efficient Bayesian Estimation of Semantic Entropy はコメントを受け付けていません

Scalable Hypergraph Structure Learning with Diverse Smoothness Priors

要約

グラフ信号処理において、サンプル信号の集合からノード間の重み付けされた接続を学習することは、基本的な関係が先験的に知られていない場合の基本的なタスクである。このタスクは通常、観測された信号が平滑であるグラフラプラシアンを見つけることによって対処される。グラフがハイパーグラフ(辺が2つ以上のノードを接続できる)に拡張されたことにより、グラフ学習手法も同様にハイパーグラフに一般化された。しかしながら、全変動の計算のための統一された枠組みがないため、平滑性の定義がばらばらであり、その結果ハイパーグラフの復元へのアプローチもばらばらである。我々は、以前に提案されたいくつかのハイパーグラフの全変動の一般化を通して、この課題に立ち向かう。この目的のために、我々は、平滑度事前分布に基づいて時系列信号からハイパーグラフ・トポロジーを復元する、新しいハイパーグラフ学習法を提案する。我々のアプローチは、ハイパーページの選択や収束の問題など、先行研究における主要な限界に対処するものであり、問題をフォワード-バックワード-フォワードアルゴリズムを介して解く凸最適化として定式化することで、収束を保証する。さらに、ハイパーエッジ探索のスパンを制限し、同時に有効なハイパーエッジ選択セットを維持するプロセスを導入する。そうすることで、我々の手法は複雑化するネットワーク構造においてスケーラブルになる。実験結果は、他の最先端のハイパーグラフ推論手法と比較して、精度の点で性能が向上していることを示している。さらに、我々の手法が、全変動項に対してロバストであること、大域的な平滑性に偏っていること、より大きなハイパーグラフに対してスケーラブルであることを経験的に示している。

要約(オリジナル)

In graph signal processing, learning the weighted connections between nodes from a set of sample signals is a fundamental task when the underlying relationships are not known a priori. This task is typically addressed by finding a graph Laplacian on which the observed signals are smooth. With the extension of graphs to hypergraphs – where edges can connect more than two nodes – graph learning methods have similarly been generalized to hypergraphs. However, the absence of a unified framework for calculating total variation has led to divergent definitions of smoothness and, consequently, differing approaches to hyperedge recovery. We confront this challenge through generalization of several previously proposed hypergraph total variations, subsequently allowing ease of substitution into a vector based optimization. To this end, we propose a novel hypergraph learning method that recovers a hypergraph topology from time-series signals based on a smoothness prior. Our approach addresses key limitations in prior works, such as hyperedge selection and convergence issues, by formulating the problem as a convex optimization solved via a forward-backward-forward algorithm, ensuring guaranteed convergence. Additionally, we introduce a process that simultaneously limits the span of the hyperedge search and maintains a valid hyperedge selection set. In doing so, our method becomes scalable in increasingly complex network structures. The experimental results demonstrate improved performance, in terms of accuracy, over other state-of-the-art hypergraph inference methods; furthermore, we empirically show our method to be robust to total variation terms, biased towards global smoothness, and scalable to larger hypergraphs.

arxiv情報

著者 Benjamin T. Brown,Haoxiang Zhang,Daniel L. Lau,Gonzalo R. Arce
発行日 2025-04-04 16:47:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP | Scalable Hypergraph Structure Learning with Diverse Smoothness Priors はコメントを受け付けていません

Optimistic Online Learning in Symmetric Cone Games

要約

最適化オンライン学習アルゴリズムにより、特に2人零和ゲームの均衡計算が大きく進歩し、$mathcal{O}(1/epsilon)$の反復複雑度で$epsilon$-鞍点に到達する。これらの進歩は、戦略がシンプレックスベクトルである正規形ゲームと、戦略がトレース1正半正定値行列である量子ゲームにおいて確立されている。我々は楽観的学習を、戦略空間が一般化されたシンプリス(対称円錐のトレースワンスライス)である2人零和ゲームのクラスである対称円錐ゲーム(SCG)に拡張する。対称円錐とは、ユークリッド・ヨルダン代数の二乗の円錐のことである。典型的な例としては、非負の正接、二次の円錐、正の半正定値行列の円錐、およびそれらの積があり、これらはすべて凸最適化の基本である。SCGは正規形ゲームと量子ゲームを統合したものであり、我々が示すように、モデリングの柔軟性が大幅に向上し、距離計量学習問題やフェルマー・ウェーバー問題などの応用をモデル化することができる。SCGにおける近似鞍点を計算するために、最適化対称円錐乗法重み更新アルゴリズムを導入し、$mathcal{O}(1/epsilon)$の反復複雑度で$epsilon$-鞍点に到達することを確立する。我々の解析は、Optimistic Follow-the-Regularized-Leaderフレームワークに基づいており、重要な技術的貢献は、トレースワンノルムに関する対称錐負のエントロピーの強い凸性の新しい証明である。

要約(オリジナル)

Optimistic online learning algorithms have led to significant advances in equilibrium computation, particularly for two-player zero-sum games, achieving an iteration complexity of $\mathcal{O}(1/\epsilon)$ to reach an $\epsilon$-saddle point. These advances have been established in normal-form games, where strategies are simplex vectors, and quantum games, where strategies are trace-one positive semidefinite matrices. We extend optimistic learning to symmetric cone games (SCGs), a class of two-player zero-sum games where strategy spaces are generalized simplices (trace-one slices of symmetric cones). A symmetric cone is the cone of squares of a Euclidean Jordan Algebra; canonical examples include the nonnegative orthant, the second-order cone, the cone of positive semidefinite matrices, and their products, all fundamental to convex optimization. SCGs unify normal-form and quantum games and, as we show, offer significantly greater modeling flexibility, allowing us to model applications such as distance metric learning problems and the Fermat-Weber problem. To compute approximate saddle points in SCGs, we introduce the Optimistic Symmetric Cone Multiplicative Weights Update algorithm and establish an iteration complexity of $\mathcal{O}(1/\epsilon)$ to reach an $\epsilon$-saddle point. Our analysis builds on the Optimistic Follow-the-Regularized-Leader framework, with a key technical contribution being a new proof of the strong convexity of the symmetric cone negative entropy with respect to the trace-one norm, a result that may be of independent interest.

arxiv情報

著者 Anas Barakat,Wayne Lin,John Lazarsfeld,Antonios Varvitsiotis
発行日 2025-04-04 16:59:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.GT, cs.LG, math.OC | Optimistic Online Learning in Symmetric Cone Games はコメントを受け付けていません

Trading off Relevance and Revenue in the Jobs Marketplace: Estimation, Optimization and Auction Design

要約

我々は、プラットフォームが求職者ごとに求人のランキングを決定する、ジョブマーケットプレイスにおけるポジション割り当ての問題を研究している。ランキングメカニズムの設計は、促進された仕事の配置による短期的な収益と、求職者の持続的な関与による長期的な健全性の両方に影響を与えるため、市場の効率性にとって非常に重要である。我々の分析は、収益と関連性のトレードオフ、および求人オークション設計の革新に焦点を当てている。我々は、収益への影響を最小限に抑えながら関連性を向上させる2つの方法、すなわち求職者の嗜好を取り入れることと、ポジションを考慮したオークションを適用することを実証した。

要約(オリジナル)

We study the problem of position allocation in job marketplaces, where the platform determines the ranking of the jobs for each seeker. The design of ranking mechanisms is critical to marketplace efficiency, as it influences both short-term revenue from promoted job placements and long-term health through sustained seeker engagement. Our analysis focuses on the tradeoff between revenue and relevance, as well as the innovations in job auction design. We demonstrated two ways to improve relevance with minimal impact on revenue: incorporating the seekers preferences and applying position-aware auctions.

arxiv情報

著者 Farzad Pourbabaee,Sophie Yanying Sheng,Peter McCrory,Luke Simon,Di Mo
発行日 2025-04-04 17:36:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.GT, cs.LG | Trading off Relevance and Revenue in the Jobs Marketplace: Estimation, Optimization and Auction Design はコメントを受け付けていません

Reciprocity-Aware Convolutional Neural Networks for Map-Based Path Loss Prediction

要約

パスロス・モデリングは、送信機(Tx)から受信機(Rx)までの通信リンクに沿ったポイント・ツー・ポイントの損失を推定するために広く使用されている技術である。正確なパスロス予測により、無線周波数スペクトラムの使用を最適化し、不要な干渉を最小限に抑えることができます。最新のパスロス・モデリングは、多くの場合、データ駆動型のアプローチを活用し、機械学習を使用して、ドライブテストの測定データセットでモデルを訓練します。ドライブテストは主にダウンリンクのシナリオを表しており、Txは建物の上に、Rxは移動する車両の上に配置されています。その結果、学習されたモデルはダウンリンクのカバレッジ推定に留まることが多く、アップリンクのシナリオを表現することができない。本論文では、データ補強を使用して、アップリンク、ダウンリンク、およびバックホールのシナリオに汎化されたパスロスモデルを、ダウンリンクのドライブテスト測定値のみを使用してトレーニングできることを実証する。アップリンクシナリオを表す少数の合成サンプルをトレーニングセットに追加することで、テストセットのアップリンクの例で平均二乗誤差が8dB以上減少した。

要約(オリジナル)

Path loss modeling is a widely used technique for estimating point-to-point losses along a communications link from transmitter (Tx) to receiver (Rx). Accurate path loss predictions can optimize use of the radio frequency spectrum and minimize unwanted interference. Modern path loss modeling often leverages data-driven approaches, using machine learning to train models on drive test measurement datasets. Drive tests primarily represent downlink scenarios, where the Tx is located on a building and the Rx is located on a moving vehicle. Consequently, trained models are frequently reserved for downlink coverage estimation, lacking representation of uplink scenarios. In this paper, we demonstrate that data augmentation can be used to train a path loss model that is generalized to uplink, downlink, and backhaul scenarios, training using only downlink drive test measurements. By adding a small number of synthetic samples representing uplink scenarios to the training set, root mean squared error is reduced by >8 dB on uplink examples in the test set.

arxiv情報

著者 Ryan G. Dempsey,Jonathan Ethier,Halim Yanikomeroglu
発行日 2025-04-04 17:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, eess.SP | Reciprocity-Aware Convolutional Neural Networks for Map-Based Path Loss Prediction はコメントを受け付けていません

Quantum Speedups for Markov Chain Monte Carlo Methods with Application to Optimization

要約

我々は、ポテンシャル関数を$f$とする確率分布からのサンプリングによく用いられるマルコフ連鎖モンテカルロ法(MCMC)に対して、証明可能な高速化をもたらす量子アルゴリズムを提案する。我々の最初のアプローチは、確率的設定における有限和ポテンシャルに対するギブスサンプリングを考察するもので、個々の関数の勾配を提供するオラクルを用いる。2つ目のアプローチでは、確率的評価オラクルへのアクセスのみを考慮し、同じ確率パラメータの下で、ポテンシャル関数の2点への同時問い合わせを可能にする。確率的勾配推定に新しい手法を導入することにより、我々のアルゴリズムは、ハミルトニアンモンテカルロ(HMC)やランジュバンモンテカルロ(LMC)のような古典的サンプラーの勾配と評価の複雑さを、次元、精度、その他問題に依存するパラメータの観点から改善する。さらに、最適化、特に経験的リスク最小化問題によく現れる非平滑関数や近似凸関数の最小化において、量子的な高速化を達成した。

要約(オリジナル)

We propose quantum algorithms that provide provable speedups for Markov Chain Monte Carlo (MCMC) methods commonly used for sampling from probability distributions of the form $\pi \propto e^{-f}$, where $f$ is a potential function. Our first approach considers Gibbs sampling for finite-sum potentials in the stochastic setting, employing an oracle that provides gradients of individual functions. In the second setting, we consider access only to a stochastic evaluation oracle, allowing simultaneous queries at two points of the potential function under the same stochastic parameter. By introducing novel techniques for stochastic gradient estimation, our algorithms improve the gradient and evaluation complexities of classical samplers, such as Hamiltonian Monte Carlo (HMC) and Langevin Monte Carlo (LMC) in terms of dimension, precision, and other problem-dependent parameters. Furthermore, we achieve quantum speedups in optimization, particularly for minimizing non-smooth and approximately convex functions that commonly appear in empirical risk minimization problems.

arxiv情報

著者 Guneykan Ozgul,Xiantao Li,Mehrdad Mahdavi,Chunhao Wang
発行日 2025-04-04 17:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, math.OC, quant-ph | Quantum Speedups for Markov Chain Monte Carlo Methods with Application to Optimization はコメントを受け付けていません

Learning Natural Language Constraints for Safe Reinforcement Learning of Language Agents

要約

汎化可能なアライメントは、大規模言語モデル(LLM)を実世界の自然言語処理アプリケーションに安全に導入するための中核的な課題である。人間のフィードバックからの強化学習(RLHF)を含む現在のアライメント手法は、暗黙的でその場限りのプリファレンスに依存しているため、学習分布外での制約充足を保証できないことが多い。チューニングの前にまずデータをキュレートするというパラダイムシフトに触発され、我々は安全な言語アライメントのための新しいフレームワークを導入する。タスク固有の報酬関数と潜在的な制約関数の両方を推論することから、我々のアプローチは、新しい安全要件への適応と、ドメインシフトや敵対的入力の下での頑健な汎化を促進する。我々はこのフレームワークを制約マルコフ決定過程(CMDP)の中で定式化し、テキストベースのナビゲーション環境を用いて検証し、変化する危険領域への安全な適応を実証する。我々の実験では、安全なナビゲーション経路に従うと、ドメインシフト時の違反が少ないことを示し、微調整技術として学習された制約を蒸留されたBERTモデルに適用することにより、違反ゼロを達成した。この研究は、実用的なNLP設定のための、セーフティクリティカルでより一般化可能なLLMを構築するための有望な道を提供する。

要約(オリジナル)

Generalizable alignment is a core challenge for deploying Large Language Models (LLMs) safely in real-world NLP applications. Current alignment methods, including Reinforcement Learning from Human Feedback (RLHF), often fail to guarantee constraint satisfaction outside their training distribution due to their reliance on implicit, post-hoc preferences. Inspired by a paradigm shift to first curate data before tuning, we introduce a new framework for safe language alignment that learns natural language constraints from positive and negative demonstrations as a primary step. From inferring both a task-specific reward function and latent constraint functions, our approach fosters adaptation to novel safety requirements and robust generalization under domain shifts and adversarial inputs. We formalize the framework within a Constrained Markov Decision Process (CMDP) and validate it via a text-based navigation environment, demonstrating safe adaptation to changing danger zones. Our experiments show fewer violations upon domain shift when following a safe navigation path, and we achieve zero violations by applying learned constraints to a distilled BERT model as a fine-tuning technique. This work offers a promising path toward building safety-critical and more generalizable LLMs for practical NLP settings.

arxiv情報

著者 Jaymari Chua,Chen Wang,Lina Yao
発行日 2025-04-04 05:26:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, I.2.4 | Learning Natural Language Constraints for Safe Reinforcement Learning of Language Agents はコメントを受け付けていません

Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation

要約

大規模言語モデル(LLM)における数学的推論能力の急速な進歩に伴い、AIシステムは、生徒の問題解決プロセスの理解を支援するために、教育現場でますます採用されるようになってきている。しかし、現在のLLMが生成する説明には、視覚的説明という重要な要素がまだ十分に検討されていない。実際の教育現場では、人間のチューターが、概念的な明瞭性を高めるために、図、マーキング、ハイライトなどの視覚的補助を日常的に用いている。このギャップを埋めるために、問題を解くだけでなく、理解に不可欠な新しく導入された視覚的要素(補助線、注釈、幾何学的構造など)を組み込んだ説明を生成する必要がある、視覚的解法説明という新しいタスクを導入する。このタスクにおけるモデルの性能を評価するために、我々はMathExplainを提案する。MathExplainは、視覚的キーポイントと、それらの要素を参照する対応する説明テキストで注釈された997の数学問題からなるマルチモーダルベンチマークである。我々の実証結果は、いくつかのクローズドソースモデルが視覚的解法説明において有望な能力を示す一方で、現在のオープンソースの汎用モデルは、特に関連する視覚的要素を識別し、首尾一貫したキーポイントに基づく説明を生成することにおいて、一貫性のないパフォーマンスを示すことを示している。我々は、視覚的解法説明とMathExplainデータセットが、教育におけるマルチモーダルLLMのさらなる研究を促進し、効果的な説明指向AIチューターとしての展開を進めることを期待している。コードとデータは公開される予定である。

要約(オリジナル)

With the rapid advancement of mathematical reasoning capabilities in large language models (LLMs), AI systems are increasingly being adopted in educational settings to support students’ comprehension of problem-solving processes. However, a critical component remains underexplored in current LLM-generated explanations: visual explanation. In real-world instructional contexts, human tutors routinely employ visual aids-such as diagrams, markings, and highlights-to enhance conceptual clarity. To bridge this gap, we introduce a novel task of visual solution explanation, which requires not only solving problems but also generating explanations that incorporate newly introduced visual elements essential for understanding (e.g., auxiliary lines, annotations, or geometric constructions). To evaluate model performance on this task, we propose MathExplain, a multimodal benchmark consisting of 997 math problems annotated with visual keypoints and corresponding explanatory text that references those elements. Our empirical results show that while some closed-source models demonstrate promising capabilities on visual solution-explaining, current open-source general-purpose models perform inconsistently, particularly in identifying relevant visual components and producing coherent keypoint-based explanations. We expect that visual solution-explaining and the MathExplain dataset will catalyze further research on multimodal LLMs in education and advance their deployment as effective, explanation-oriented AI tutors. Code and data will be released publicly.

arxiv情報

著者 Jaewoo Park,Jungyang Park,Dongju Jang,Jiwan Chung,Byungwoo Yoo,Jaewoo Shin,Seonjoon Park,Taehyeong Kim,Youngjae Yu
発行日 2025-04-04 06:03:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | Explain with Visual Keypoints Like a Real Mentor! A Benchmark for Multimodal Solution Explanation はコメントを受け付けていません

A Large-Scale Simulation on Large Language Models for Decision-Making in Political Science

要約

LLMはテキスト生成や推論において目覚ましい能力を発揮しているが、人間の意思決定–特に政治的な文脈における–をシミュレートする能力については未解決のままである。しかし、有権者の行動をモデル化することは、限られた有権者レベルのデータ、進化する政治的景観、人間の推論の複雑さなどのために、ユニークな課題を提起している。本研究では、有権者の意思決定を大規模にシミュレートするために、人口統計学的、時間的、イデオロギー的要因を統合した、理論駆動型の多段階推論フレームワークを開発する。実世界の有権者データに較正された合成ペルソナを用いて、最近の米国大統領選挙の大規模シミュレーションを実施した。我々の手法は、モデルのバイアスを緩和しつつ、シミュレーションの精度を大幅に向上させた。異なるLLM間でパフォーマンスを比較することで、その頑健性を検証する。さらに、LLMに基づく政治シミュレーションから生じる課題と制約を調査する。我々の研究は、政治的意思決定行動をモデル化するためのスケーラブルなフレームワークと、政治学研究においてLLMを使用することの可能性と限界についての洞察を提供する。

要約(オリジナル)

While LLMs have demonstrated remarkable capabilities in text generation and reasoning, their ability to simulate human decision-making — particularly in political contexts — remains an open question. However, modeling voter behavior presents unique challenges due to limited voter-level data, evolving political landscapes, and the complexity of human reasoning. In this study, we develop a theory-driven, multi-step reasoning framework that integrates demographic, temporal and ideological factors to simulate voter decision-making at scale. Using synthetic personas calibrated to real-world voter data, we conduct large-scale simulations of recent U.S. presidential elections. Our method significantly improves simulation accuracy while mitigating model biases. We examine its robustness by comparing performance across different LLMs. We further investigate the challenges and constraints that arise from LLM-based political simulations. Our work provides both a scalable framework for modeling political decision-making behavior and insights into the promise and limitations of using LLMs in political science research.

arxiv情報

著者 Chenxiao Yu,Jinyi Ye,Yuangang Li,Zhaotian Weng,Zheng Li,Emilio Ferrara,Xiyang Hu,Yue Zhao
発行日 2025-04-04 06:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SI | A Large-Scale Simulation on Large Language Models for Decision-Making in Political Science はコメントを受け付けていません