Optimizing Credit Limit Adjustments Under Adversarial Goals Using Reinforcement Learning

要約

強化学習は、決定論的な環境のビデオゲームから、シナリオが確率的であるポートフォリオや運用管理に至るまで、多くの問題に対して研究されてきました。
しかし、銀行の問題でこれらの方法をテストする試みはほとんどありませんでした。
この研究では、強化学習技術を使用して、最適なクレジット カード限度額調整ポリシーを見つけて自動化することを目指しました。
利用可能な履歴データがあるため、顧客ごとに 2 つの可能なアクション、つまり個人の現在の与信限度額を増やすか維持するかを検討しました。
このポリシーを見つけるために、私たちはまず、この意思決定の質問を、期待される利益が最大化される最適化問題として定式化しました。
したがって、ポートフォリオの収益の最大化とポートフォリオの引当金の最小化という 2 つの敵対的な目標のバランスをとりました。
次に、問題の特殊性を考慮して、オフライン学習戦略を使用して、強化学習エージェントをトレーニングするためのラテンアメリカのスーパーアプリの履歴データに基づいてアクションの影響をシミュレートしました。
合成実験を含む提案された方法論に基づく我々の結果は、最適化されたハイパーパラメータを備えた Double Q 学習エージェントが他の戦略を上回るパフォーマンスを示し、この決定の複雑な性質を反映するだけでなく、探索へのインセンティブを提供する自明ではない最適なポリシーを生成できることを示しています。
現実世界の銀行業務シナリオにおける強化学習。
私たちの研究は、強化学習フレームワークを信用限度額調整に適用するための概念構造を確立し、専門家主導のシステムのみに依存するのではなく、主にデータ主導型の方法に基づいてこれらの決定を行うための客観的な手法を提示します。
また、残高予測の問題に対する代替データの使用についても研究します。これは、後者が提案するモデルの要件であるためです。
このようなデータの使用が必ずしも予測の利益をもたらすわけではないことがわかりました。

要約(オリジナル)

Reinforcement learning has been explored for many problems, from video games with deterministic environments to portfolio and operations management in which scenarios are stochastic; however, there have been few attempts to test these methods in banking problems. In this study, we sought to find and automatize an optimal credit card limit adjustment policy by employing reinforcement learning techniques. Because of the historical data available, we considered two possible actions per customer, namely increasing or maintaining an individual’s current credit limit. To find this policy, we first formulated this decision-making question as an optimization problem in which the expected profit was maximized; therefore, we balanced two adversarial goals: maximizing the portfolio’s revenue and minimizing the portfolio’s provisions. Second, given the particularities of our problem, we used an offline learning strategy to simulate the impact of the action based on historical data from a super-app in Latin America to train our reinforcement learning agent. Our results, based on the proposed methodology involving synthetic experimentation, show that a Double Q-learning agent with optimized hyperparameters can outperform other strategies and generate a non-trivial optimal policy not only reflecting the complex nature of this decision but offering an incentive to explore reinforcement learning in real-world banking scenarios. Our research establishes a conceptual structure for applying reinforcement learning framework to credit limit adjustment, presenting an objective technique to make these decisions primarily based on data-driven methods rather than relying only on expert-driven systems. We also study the use of alternative data for the problem of balance prediction, as the latter is a requirement of our proposed model. We find the use of such data does not always bring prediction gains.

arxiv情報

著者 Sherly Alfonso-Sánchez,Jesús Solano,Alejandro Correa-Bahnsen,Kristina P. Sendova,Cristián Bravo
発行日 2024-02-16 16:12:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.GN パーマリンク