要約
標準的なベンチマークは、大規模な言語モデル(LLM)エージェントが金融でどれだけうまく機能するかについて固定していますが、展開が安全かどうかについてはほとんど言いません。
私たちは、精度のメトリックとリターンベースのスコアは、幻覚、古いデータ、敵対的な迅速な操作などの脆弱性を見落とす信頼性の幻想を提供すると主張します。
私たちはしっかりした立場を取ります:金融LLMエージェントは、ポイントエクサイモのパフォーマンスではなく、リスクプロファイルについて何よりもまず評価する必要があります。
リスクエンジニアリングの原則に基づいて、現実的な障害モードでの応力テストLLMエージェントのためのモデル、ワークフロー、およびシステムの3レベルのアジェンダの概要を説明します。
このシフトが緊急である理由を説明するために、3つのインパクトタスクで6つのAPIベースのLLMエージェントを監査し、従来のベンチマークが見逃している隠れた弱点を明らかにします。
私たちは、研究者、実務家、規制当局に対する実用的な推奨事項で結論付けています。将来の研究でリスク認識メトリックを監査し、データセットと並んでストレスシナリオを公開し、「安全予算」を主要な成功基準として扱います。
「良い」ものを再定義することによってのみ、コミュニティは責任を持ってAI主導の財務を進めることができます。
要約(オリジナル)
Standard benchmarks fixate on how well large language model (LLM) agents perform in finance, yet say little about whether they are safe to deploy. We argue that accuracy metrics and return-based scores provide an illusion of reliability, overlooking vulnerabilities such as hallucinated facts, stale data, and adversarial prompt manipulation. We take a firm position: financial LLM agents should be evaluated first and foremost on their risk profile, not on their point-estimate performance. Drawing on risk-engineering principles, we outline a three-level agenda: model, workflow, and system, for stress-testing LLM agents under realistic failure modes. To illustrate why this shift is urgent, we audit six API-based and open-weights LLM agents on three high-impact tasks and uncover hidden weaknesses that conventional benchmarks miss. We conclude with actionable recommendations for researchers, practitioners, and regulators: audit risk-aware metrics in future studies, publish stress scenarios alongside datasets, and treat “safety budget” as a primary success criterion. Only by redefining what “good” looks like can the community responsibly advance AI-driven finance.
arxiv情報
著者 | Zichen Chen,Jiaao Chen,Jianda Chen,Misha Sra |
発行日 | 2025-06-02 10:13:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google