Multi-fidelity Parameter Estimation Using Conditional Diffusion Models

要約

複雑なシステムにおけるパラメーター推定値の不確実性の定量化のための多忠実度の方法を提示し、ターゲット条件分布をサンプリングするために訓練された生成モデルを活用します。
ベイジアン推論の設定では、従来のパラメーター推定方法は、潜在的に高価なフォワードモデルの繰り返しシミュレーションに依存して、パラメーター値の事後分布を決定するため、計算的に手に負えないワークフローになります。
さらに、マルコフチェーンモンテカルロ(MCMC)などの方法により、新しいデータ観察ごとにアルゴリズム全体を再実行する必要があり、計算負担がさらに増加し​​ます。
したがって、関心のあるデータ観察を与えられた高忠実度モデルのパラメーター推定値の事後分布を効率的に取得するための新しい方法を提案します。
この方法は、最初に、償却されたベイジアン推論、したがって、広範囲のデータ観測にわたって迅速な後密度近似が可能な低忠実度の条件付き生成モデルを構築します。
特定のデータ観察により高い精度が必要な場合、この方法は密度近似の適応洗練を採用しています。
低忠実度の生成モデルからの出力を使用して、パラメーターサンプリングスペースを改良し、計算高価な高忠実度ソルバーの効率的な使用を確保します。
その後、ターゲット後部分布の精度を高めるために、高忠実で無条件の生成モデルが訓練されます。
低忠実度と高忠実度の両方の生成モデルは、ターゲット後部から効率的なサンプリングを可能にし、高忠実度の前方モデルの繰り返しシミュレーションを必要としません。
マルチモーダル密度のある症例を含むいくつかの数値的例に対する提案方法の有効性、および暴走電子シミュレーションモデルのためのプラズマ物理学のアプリケーションを実証します。

要約(オリジナル)

We present a multi-fidelity method for uncertainty quantification of parameter estimates in complex systems, leveraging generative models trained to sample the target conditional distribution. In the Bayesian inference setting, traditional parameter estimation methods rely on repeated simulations of potentially expensive forward models to determine the posterior distribution of the parameter values, which may result in computationally intractable workflows. Furthermore, methods such as Markov Chain Monte Carlo (MCMC) necessitate rerunning the entire algorithm for each new data observation, further increasing the computational burden. Hence, we propose a novel method for efficiently obtaining posterior distributions of parameter estimates for high-fidelity models given data observations of interest. The method first constructs a low-fidelity, conditional generative model capable of amortized Bayesian inference and hence rapid posterior density approximation over a wide-range of data observations. When higher accuracy is needed for a specific data observation, the method employs adaptive refinement of the density approximation. It uses outputs from the low-fidelity generative model to refine the parameter sampling space, ensuring efficient use of the computationally expensive high-fidelity solver. Subsequently, a high-fidelity, unconditional generative model is trained to achieve greater accuracy in the target posterior distribution. Both low- and high- fidelity generative models enable efficient sampling from the target posterior and do not require repeated simulation of the high-fidelity forward model. We demonstrate the effectiveness of the proposed method on several numerical examples, including cases with multi-modal densities, as well as an application in plasma physics for a runaway electron simulation model.

arxiv情報

著者 Caroline Tatsuoka,Minglei Yang,Dongbin Xiu,Guannan Zhang
発行日 2025-04-02 16:54:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | コメントする

Analysis of an Idealized Stochastic Polyak Method and its Application to Black-Box Model Distillation

要約

SPS $^*$と呼ばれる理想的な確率的ポリックステップサイズの一般的な収束定理を提供します。
凸性に加えて、局所的に滑らかで局所的にリプシッツの損失を特別なケースとして含む、局所的な予想される勾配境界のみを想定しています。
SPS $^*$は、ソリューションで評価されたすべてのトレーニングバッチの損失にアクセスする必要があるため、理想化されたものと呼びます。
また、グローバルなリプシッツ関数に最適な下限を達成するという点でも理想的であり、スムーズな設定でいつでも$ o(1/\ sqrt {t})$ $ $ o(1/\ sqrt {t})$を持つ最初のpolyakステップサイズです。
SPS $^*$を勢いと組み合わせて、最後の繰り返しに対して同じ好ましいレートを達成する方法を示します。
私たちの理論を検証するためのいくつかの実験と、教師GPT-2モデルをハイパーパラメーターチューニングなしでより小さな学生モデルに蒸留する方法を示すより実用的な設定で締めくくります。

要約(オリジナル)

We provide a general convergence theorem of an idealized stochastic Polyak step size called SPS$^*$. Besides convexity, we only assume a local expected gradient bound, that includes locally smooth and locally Lipschitz losses as special cases. We refer to SPS$^*$ as idealized because it requires access to the loss for every training batch evaluated at a solution. It is also ideal, in that it achieves the optimal lower bound for globally Lipschitz function, and is the first Polyak step size to have an $O(1/\sqrt{t})$ anytime convergence in the smooth setting. We show how to combine SPS$^*$ with momentum to achieve the same favorable rates for the last iterate. We conclude with several experiments to validate our theory, and a more practical setting showing how we can distill a teacher GPT-2 model into a smaller student model without any hyperparameter tuning.

arxiv情報

著者 Robert M. Gower,Guillaume Garrigos,Nicolas Loizou,Dimitris Oikonomou,Konstantin Mishchenko,Fabian Schaipp
発行日 2025-04-02 16:57:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 15B52, 62L20, 65Y20, 68W20, 68W40, 74S60, 90C06, 90C53, cs.LG, G.1.6 | コメントする

Representing Flow Fields with Divergence-Free Kernels for Reconstruction

要約

既存の手法は、多くの場合、アーティファクトの過剰な技術、不均一なアーキテクチャへの依存、および暗黙的な神経表現(INRS)に物理学的に形成された損失を施行するという計算上の負担に苦しむため、まばらまたは間接的な測定からの連続フローフィールドを正確に再構築することは、未解決の課題のままです。
このホワイトペーパーでは、階層的または不均一な表現に依存せずに微細な構造をキャプチャしながら、非圧迫性を本質的に強制する、発散のないカーネル(DFK)に基づいた新しいフローフィールド再構成フレームワークを紹介します。
定性分析と定量的アブレーション研究を通じて、ウェンドランドの$ \ mathcal {c}^4 $多項式(dfks-wen4)に由来するマトリックス値の放射状基底関数を特定します。
さまざまな再構成タスクにわたる実験データ圧縮、インパインティング、超分解、および時間のないフロー推論に及ぶ実験は、DFKS-WEN4がINRとその他の発散のない表現を、再構成の精度とコンピューター効率の両方で、最も訓練可能なパラメーターを必要とする一方で、他の発散のない表現を上回ることを実証しました。

要約(オリジナル)

Accurately reconstructing continuous flow fields from sparse or indirect measurements remains an open challenge, as existing techniques often suffer from oversmoothing artifacts, reliance on heterogeneous architectures, and the computational burden of enforcing physics-informed losses in implicit neural representations (INRs). In this paper, we introduce a novel flow field reconstruction framework based on divergence-free kernels (DFKs), which inherently enforce incompressibility while capturing fine structures without relying on hierarchical or heterogeneous representations. Through qualitative analysis and quantitative ablation studies, we identify the matrix-valued radial basis functions derived from Wendland’s $\mathcal{C}^4$ polynomial (DFKs-Wen4) as the optimal form of analytically divergence-free approximation for velocity fields, owing to their favorable numerical properties, including compact support, positive definiteness, and second-order differentiablility. Experiments across various reconstruction tasks, spanning data compression, inpainting, super-resolution, and time-continuous flow inference, has demonstrated that DFKs-Wen4 outperform INRs and other divergence-free representations in both reconstruction accuracy and computational efficiency while requiring the fewest trainable parameters.

arxiv情報

著者 Xingyu Ni,Jingrui Xing,Xingqiao Li,Bin Wang,Baoquan Chen
発行日 2025-04-02 17:13:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG | コメントする

Limits to Analog Reservoir Learning

要約

貯水池の計算は、時系列データを学習および予測するための再発性のフレームワークであり、多くの場合、物理システムのダイナミクスとして、非常に単純なトレーニングと解釈可能性の恩恵を受けます。
このホワイトペーパーでは、アナログリザーバーコンピューターの学習能力に対するノイズの影響を研究します。
貯水池計算に関する最近の研究は、情報処理能力(IPC)が騒音によるパフォーマンスの分解を定量化するための有用なメトリックであることを示しています。
この分析をさらに分析し、このIPCの劣化により、アナログリザーバーのコンピューティング設定で有意義に構築できる可能性のある機能が制限されることを実証します。
計算の回路モデルを連続時間モデルに関連付ける量子複雑度理論の結果を借用し、リザーバー構成のアクセス可能な量の指数関数的な削減を実証します。
この劣化を、貯水池のダイナミクスを記述する機能のファミリーの脂肪粉砕の次元に関連付けることで結論付けます。これにより、分類タスクの観点から結果を表現できます。
ノイズにさらされる物理的なアナログ貯留層コンピューターは、指数関数的に大きな潜在スペースにもかかわらず、ポストプロセッシングの量であっても、多項式量の学習を実行するためにのみ使用できると結論付けています。

要約(オリジナル)

Reservoir computation is a recurrent framework for learning and predicting time series data, that benefits from extremely simple training and interpretability, often as the the dynamics of a physical system. In this paper, we will study the impact of noise on the learning capabilities of analog reservoir computers. Recent work on reservoir computation has shown that the information processing capacity (IPC) is a useful metric for quantifying the degradation of the performance due to noise. We further this analysis and demonstrate that this degradation of the IPC limits the possible features that can be meaningfully constructed in an analog reservoir computing setting. We borrow a result from quantum complexity theory that relates the circuit model of computation to a continuous time model, and demonstrate an exponential reduction in the accessible volume of reservoir configurations. We conclude by relating this degradation in the IPC to the fat-shattering dimension of a family of functions describing the reservoir dynamics, which allows us to express our result in terms of a classification task. We conclude that any physical, analog reservoir computer that is exposed to noise can only be used to perform a polynomial amount of learning, despite the exponentially large latent space, even with an exponential amount of post-processing.

arxiv情報

著者 Anthony M. Polloreno
発行日 2025-04-02 17:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT | コメントする

Large Language Models for Code Generation: A Comprehensive Survey of Challenges, Techniques, Evaluation, and Applications

要約

大規模な言語モデル(LLMS)は、多くの分野で顕著な能力を実証しています。
この調査では、LLMSがユーザーが技術的なバックグラウンドに関係なく、人間言語を使用して実行可能なコードを自動的に生成する方法に焦点を当てています。
自動化されたコード生成におけるLLMの制限と課題を理解することから始めます。
その後、コード生成タスクにおけるLLMのパフォーマンスと適応性の両方を強化するように設計されたさまざまな微調整技術をレビューします。
次に、評価のために既存のメトリックとベンチマークを確認して、微調整技術に基づいてモデルのパフォーマンスを評価します。
最後に、コード生成タスクでLLMS(Codellama、Github Copilot、Toolgenなど)のアプリケーションを調査して、その役割と機能を説明します。
この調査は、コード生成に関するLLMSの包括的な概要を提供し、多様な分野の研究者が現在の最先端のテクノロジーをよりよく理解し、コード生成タスクのLLMを効果的に活用する可能性を提供します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated their remarkable capabilities in numerous fields. This survey focuses on how LLMs empower users, regardless of their technical background, to use human languages to automatically generate executable code. We begin with understanding LLMs’ limitations and challenges in automated code generation. Subsequently, we review various fine-tuning techniques designed to enhance both the performance and adaptability of LLMs in code generation tasks. We then review the existing metrics and benchmarks for evaluations to assess model performance based on fine-tuning techniques. Finally, we explore the applications of LLMs (e.g. CodeLlama, GitHub Copilot, ToolGen) in code generation tasks to illustrate their roles and functionalities. This survey provides a comprehensive overview of LLMs for code generation, helps researchers in diverse fields better understand the current state-of-the-art technologies, and offers the potential of effectively leveraging LLMs for code generation tasks.

arxiv情報

著者 Nam Huynh,Beiyu Lin
発行日 2025-04-02 17:29:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE | コメントする

Client Selection in Federated Learning with Data Heterogeneity and Network Latencies

要約

Federated Learning(FL)は、複数のクライアントがプライベートデータに基づいてローカルトレーニングを実施する分散機械学習パラダイムであり、更新されたモデルはグローバル集約のために中央サーバーに送信されます。
FLの実際的な収束は複数の要因によって挑戦されており、主なハードルはクライアント間の不均一性です。
この不均一性は、サーバーへのモデル伝送中のローカルデータ分布と潜時の不均一性に関するデータの不均一性として現れます。
以前の研究では、これらの不均一性のいずれかの負の影響を個別に緩和するためのさまざまな効率的なクライアント選択方法を導入しましたが、これらの不均一性の両方が同時に存在しない現実世界の設定を処理する効率的な方法は存在しません。
この論文では、これらの両方の不均一性を処理できる2つの新しい理論的に最適なクライアント選択スキームを提案します。
私たちの方法では、理論的実行時間を収束に最小化することにより得られるラウンドごとに、単純な最適化問題を解決することが含まれます。
非IIDデータ分布、2つの実用的な遅延分布、および非凸ニューラルネットワークモデルを備えた9つのデータセットでの経験的評価は、私たちのアルゴリズムが少なくとも既存のベースラインよりも少なくとも20倍優れていることを示しています。

要約(オリジナル)

Federated learning (FL) is a distributed machine learning paradigm where multiple clients conduct local training based on their private data, then the updated models are sent to a central server for global aggregation. The practical convergence of FL is challenged by multiple factors, with the primary hurdle being the heterogeneity among clients. This heterogeneity manifests as data heterogeneity concerning local data distribution and latency heterogeneity during model transmission to the server. While prior research has introduced various efficient client selection methods to alleviate the negative impacts of either of these heterogeneities individually, efficient methods to handle real-world settings where both these heterogeneities exist simultaneously do not exist. In this paper, we propose two novel theoretically optimal client selection schemes that can handle both these heterogeneities. Our methods involve solving simple optimization problems every round obtained by minimizing the theoretical runtime to convergence. Empirical evaluations on 9 datasets with non-iid data distributions, 2 practical delay distributions, and non-convex neural network models demonstrate that our algorithms are at least competitive to and at most 20 times better than best existing baselines.

arxiv情報

著者 Harsh Vardhan,Xiaofan Yu,Tajana Rosing,Arya Mazumdar
発行日 2025-04-02 17:31:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | コメントする

Gen-C: Populating Virtual Worlds with Generative Crowds

要約

過去20年にわたって、研究者は人間の群衆をシミュレートすることに大きな進歩を遂げてきましたが、これらの努力は衝突回避などの低レベルのタスクや、パスフォローや群れなどの狭い範囲の行動に主に焦点を当てています。
ただし、魅力的な群衆のシーンを作成するには、単なる機能的な動き以上のものが必要です。エージェント、環境、および互いの間の高レベルの相互作用を時間の経過とともにキャプチャする必要があります。
この問題に対処するために、高レベルの群衆行動を作成するタスクを自動化するための生成モデルであるGen-Cを紹介します。
Gen-Cは、大規模な言語モデル(LLM)を活用して限られた一連の群衆シナリオを生成することにより、実際のクラウドビデオデータを収集および注釈を付けるという労働集約的で挑戦的なタスクをバイパスします。これは、シミュレーションを通じて拡張および一般化され、仮想エージェントのアクションと相互作用をモデル化する時間拡大グラフを構築します。
私たちの方法では、以前のネットワークの条件によって導かれる2つの変分グラフ自動エンコーダーを採用しています。1つは、グラフ構造(エージェント相互作用)の潜在スペースを学習することに専念し、もう1つはノード機能(エージェントアクションとナビゲーション)です。
このセットアップにより、柔軟な生成の動的な群衆の相互作用が可能になります。
訓練されたモデルは、自然言語に条件付けられ、ユーザーがテキストの説明から新しい群衆の行動を統合できるようにすることができます。
大学のキャンパスと駅の2つのシナリオでアプローチの有効性を実証し、エージェントが複雑な相互作用と高レベルの意思決定パターンを反映するさまざまな動的な動作を示す多様な仮想環境に住む可能性を示しています。

要約(オリジナル)

Over the past two decades, researchers have made significant advancements in simulating human crowds, yet these efforts largely focus on low-level tasks like collision avoidance and a narrow range of behaviors such as path following and flocking. However, creating compelling crowd scenes demands more than just functional movement-it requires capturing high-level interactions between agents, their environment, and each other over time. To address this issue, we introduce Gen-C, a generative model to automate the task of authoring high-level crowd behaviors. Gen-C bypasses the labor-intensive and challenging task of collecting and annotating real crowd video data by leveraging a large language model (LLM) to generate a limited set of crowd scenarios, which are subsequently expanded and generalized through simulations to construct time-expanded graphs that model the actions and interactions of virtual agents. Our method employs two Variational Graph Auto-Encoders guided by a condition prior network: one dedicated to learning a latent space for graph structures (agent interactions) and the other for node features (agent actions and navigation). This setup enables the flexible generation of dynamic crowd interactions. The trained model can be conditioned on natural language, empowering users to synthesize novel crowd behaviors from text descriptions. We demonstrate the effectiveness of our approach in two scenarios, a University Campus and a Train Station, showcasing its potential for populating diverse virtual environments with agents exhibiting varied and dynamic behaviors that reflect complex interactions and high-level decision-making patterns.

arxiv情報

著者 Andreas Panayiotou,Panayiotis Charalambous,Ioannis Karamouzas
発行日 2025-04-02 17:33:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GR, cs.LG | コメントする

Hessian-aware Training for Enhancing DNNs Resilience to Parameter Corruptions

要約

深いニューラルネットワークは、パラメーターの破損に対して回復力がありません。メモリ内のパラメーターの単一刺されたエラーでさえ、精度が10%を超え、最悪の場合は最大99%の低下を引き起こす可能性があります。
この感受性は、コンピューティングプラットフォームにモデルを展開する際に大きな課題をもたらします。敵はソフトウェアを介してビットフリップを誘導したり、ビットワイズの腐敗を自然に発生させる可能性があります。
ほとんどの以前の作業は、この問題に、追加のハードウェアコンポーネントを統合して推論でモデルの整合性を検証するなど、ハードウェアまたはシステムレベルのアプローチで対処しています。
ただし、これらの方法は、インフラストラクチャまたはプラットフォーム全体の変更が必要なため、広く展開されていません。
この論文では、この問題に対処するための新しいアプローチを提案します。トレーニングモデルは、パラメーターに対するビットワイズの腐敗に対してより回復力があります。
私たちのアプローチであるHessian-Aware Trainingは、$ hrath $ $の損失表面でモデルを促進します。
ヘシアンベースのアプローチを通じて一般化を改善するために設計されたトレーニング方法がありましたが、パラメーターの腐敗に対する回復力を高めることはできないことを示しています。
対照的に、私たちの方法で訓練されたモデルは、特に個々のフリップが90 $ -100%の精度低下につながるビット数が20ドル-50%削減されることで、パラメーターの腐敗に対する回復力の増加を示しています。
さらに、既存のハードウェアとシステムレベルの防御との相乗効果を示します。

要約(オリジナル)

Deep neural networks are not resilient to parameter corruptions: even a single-bitwise error in their parameters in memory can cause an accuracy drop of over 10%, and in the worst cases, up to 99%. This susceptibility poses great challenges in deploying models on computing platforms, where adversaries can induce bit-flips through software or bitwise corruptions may occur naturally. Most prior work addresses this issue with hardware or system-level approaches, such as integrating additional hardware components to verify a model’s integrity at inference. However, these methods have not been widely deployed as they require infrastructure or platform-wide modifications. In this paper, we propose a new approach to addressing this issue: training models to be more resilient to bitwise corruptions to their parameters. Our approach, Hessian-aware training, promotes models with $flatter$ loss surfaces. We show that, while there have been training methods, designed to improve generalization through Hessian-based approaches, they do not enhance resilience to parameter corruptions. In contrast, models trained with our method demonstrate increased resilience to parameter corruptions, particularly with a 20$-$50% reduction in the number of bits whose individual flipping leads to a 90$-$100% accuracy drop. Moreover, we show the synergy between ours and existing hardware and system-level defenses.

arxiv情報

著者 Tahmid Hasan Prato,Seijoon Kim,Lizhong Chen,Sanghyun Hong
発行日 2025-04-02 17:42:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | コメントする

A Unified Approach to Analysis and Design of Denoising Markov Models

要約

拡散モデルや流れベースのモデルなどの測定輸送に基づく確率的生成モデルは、多くの場合、マルコフの確率的ダイナミクスの言語で定式化されます。そこでは、基礎となるプロセスの選択がアルゴリズムの設計の選択と理論分​​析の両方に影響します。
この論文では、マルコフモデルを除去するための厳密な数学的基盤を確立することを目指しています。マルコフモデルは、ターゲット分布からシンプルで簡単な分布に移行する順方向プロセスを仮定し、特に逆方向に効率的なサンプリングを可能にするために構築された後方プロセスを仮定することを目指しています。
非平衡統計力学と一般化されたDoobの$ h $ transformとの深いつながりを活用すると、次のことを保証する最小限の仮定セットを提案します。
私たちのフレームワークは、連続的で離散的な拡散モデルの既存の定式化を統合し、順方向ジェネレーターの特定の規則性の仮定の下で最も一般的な形式のマルコフモデルの最も一般的な形式を識別し、任意のL \ ‘Evy-Typeプロセスによって駆動されるマルコフモデルを除去するマルコフモデルを設計するための体系的なレシピを提供します。
幾何学的なブラウン運動とジャンププロセスを順方向のダイナミクスとして使用する新しい除生マルコフモデルを通じて、アプローチの汎用性と実用的な有効性を説明し、複雑な分布をモデル化する潜在的な柔軟性と能力を強調します。

要約(オリジナル)

Probabilistic generative models based on measure transport, such as diffusion and flow-based models, are often formulated in the language of Markovian stochastic dynamics, where the choice of the underlying process impacts both algorithmic design choices and theoretical analysis. In this paper, we aim to establish a rigorous mathematical foundation for denoising Markov models, a broad class of generative models that postulate a forward process transitioning from the target distribution to a simple, easy-to-sample distribution, alongside a backward process particularly constructed to enable efficient sampling in the reverse direction. Leveraging deep connections with nonequilibrium statistical mechanics and generalized Doob’s $h$-transform, we propose a minimal set of assumptions that ensure: (1) explicit construction of the backward generator, (2) a unified variational objective directly minimizing the measure transport discrepancy, and (3) adaptations of the classical score-matching approach across diverse dynamics. Our framework unifies existing formulations of continuous and discrete diffusion models, identifies the most general form of denoising Markov models under certain regularity assumptions on forward generators, and provides a systematic recipe for designing denoising Markov models driven by arbitrary L\’evy-type processes. We illustrate the versatility and practical effectiveness of our approach through novel denoising Markov models employing geometric Brownian motion and jump processes as forward dynamics, highlighting the framework’s potential flexibility and capability in modeling complex distributions.

arxiv情報

著者 Yinuo Ren,Grant M. Rotskoff,Lexing Ying
発行日 2025-04-02 17:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML | コメントする

Linear Representations of Political Perspective Emerge in Large Language Models

要約

大規模な言語モデル(LLM)は、さまざまな主観的な人間の視点を現実的に反映するテキストを生成する能力を実証しています。
このペーパーでは、LLMがどのようにして、アメリカの政治における他の政治的視点の中で、より自由な視点とより保守的な視点を反映できるように見える方法を研究しています。
LLMSは、活性化空間内で政治的視点の線形表現を持っていることを示します。
そのために、3つのオープントランスベースのLLMS(LLAMA-2-7B-chat、Mistral-7B-Instruct、Vicuna-7B)の層を横切る注意ヘッドを調べます。
最初に、異なる米国の議員の視点からテキストを生成するようにモデルを促します。
次に、政治的イデオロギーの広く使用された検証済みの尺度である議員のDWに賛成したスコアを活性化するアクティベーションが直線的に予測する注意ヘッドのセットを特定します。
高度に予測的なヘッドは主に中間層に位置しており、多くの場合、高レベルの概念とタスクをエンコードすると推測されています。
議員のイデオロギーを予測するために訓練されたプローブを使用して、同じプローブが、ニュースアウトレットからテキストをシミュレートするように促されたモデルのアクティベーションからのニュースアウトレットの傾斜の尺度を予測できることを示します。
これらの線形プローブにより、LLMがオープンエンドの応答を生成するため、LLMによって暗黙的に採用されたイデオロギーのスタンスを視覚化、解釈、監視することができます。
最後に、これらの注意ヘッドに線形介入を適用することにより、モデルの出力をよりリベラルまたは保守的な姿勢に向けることができることを実証します。
全体として、私たちの研究は、LLMSがアメリカの政治的イデオロギーの高レベルの線形表現を持っており、機械的解釈性の最近の進歩を活用することにより、生成されたテキストの基礎となる主観的な視点を特定、監視、および操縦できることを示唆しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated the ability to generate text that realistically reflects a range of different subjective human perspectives. This paper studies how LLMs are seemingly able to reflect more liberal versus more conservative viewpoints among other political perspectives in American politics. We show that LLMs possess linear representations of political perspectives within activation space, wherein more similar perspectives are represented closer together. To do so, we probe the attention heads across the layers of three open transformer-based LLMs (Llama-2-7b-chat, Mistral-7b-instruct, Vicuna-7b). We first prompt models to generate text from the perspectives of different U.S. lawmakers. We then identify sets of attention heads whose activations linearly predict those lawmakers’ DW-NOMINATE scores, a widely-used and validated measure of political ideology. We find that highly predictive heads are primarily located in the middle layers, often speculated to encode high-level concepts and tasks. Using probes only trained to predict lawmakers’ ideology, we then show that the same probes can predict measures of news outlets’ slant from the activations of models prompted to simulate text from those news outlets. These linear probes allow us to visualize, interpret, and monitor ideological stances implicitly adopted by an LLM as it generates open-ended responses. Finally, we demonstrate that by applying linear interventions to these attention heads, we can steer the model outputs toward a more liberal or conservative stance. Overall, our research suggests that LLMs possess a high-level linear representation of American political ideology and that by leveraging recent advances in mechanistic interpretability, we can identify, monitor, and steer the subjective perspective underlying generated text.

arxiv情報

著者 Junsol Kim,James Evans,Aaron Schein
発行日 2025-04-02 08:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | コメントする