要約
大規模な言語モデル(LLMS)の進歩は、AIの整合性に関する懸念を更新しました – 人間とAIの目標と価値の一貫性。
さまざまな管轄区域がAIの安全性に関する法律を制定するため、アラインメントの概念を定義および測定する必要があります。
このペーパーでは、LLMが比較的未開拓の資金調達の文脈で倫理的および法的基準に準拠しているかどうかを評価するための実験的枠組みを提案します。
12人のLLMが金融機関のCEOになりすまし、顧客資産を誤用して未払いの企業債務を返済する意欲をテストするよう促します。
ベースライン構成から始めて、設定、インセンティブ、制約を調整し、各調整の影響をロジスティック回帰を分析します。
私たちの発見は、LLMSの非倫理的行動に対するベースライン傾向における重要な不均一性を明らかにしています。
リスク回避、利益の期待、規制環境などの要因は、これらの効果の大きさはLLMによって異なりますが、経済理論によって予測される方法で一貫して不整合に影響します。
このペーパーでは、シミュレーションベースのEx安全性テストの利点と制限の両方を強調しています。
LLMの安全性を確保することを目的とした金融当局や機関に通知することができますが、一般性とコストの間には明確なトレードオフがあります。
要約(オリジナル)
Advancements in large language models (LLMs) have renewed concerns about AI alignment – the consistency between human and AI goals and values. As various jurisdictions enact legislation on AI safety, the concept of alignment must be defined and measured across different domains. This paper proposes an experimental framework to assess whether LLMs adhere to ethical and legal standards in the relatively unexplored context of finance. We prompt twelve LLMs to impersonate the CEO of a financial institution and test their willingness to misuse customer assets to repay outstanding corporate debt. Beginning with a baseline configuration, we adjust preferences, incentives and constraints, analyzing the impact of each adjustment with logistic regression. Our findings reveal significant heterogeneity in the baseline propensity for unethical behavior of LLMs. Factors such as risk aversion, profit expectations, and regulatory environment consistently influence misalignment in ways predicted by economic theory, although the magnitude of these effects varies across LLMs. This paper highlights both the benefits and limitations of simulation-based, ex post safety testing. While it can inform financial authorities and institutions aiming to ensure LLM safety, there is a clear trade-off between generality and cost.
arxiv情報
著者 | Claudia Biancotti,Carolina Camassa,Andrea Coletta,Oliver Giudice,Aldo Glielmo |
発行日 | 2025-02-25 15:10:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google