Optimizing Credit Limit Adjustments Under Adversarial Goals Using Reinforcement Learning

要約

強化学習は、決定論的な環境のビデオゲームから、シナリオが確率的であるポートフォリオや運用管理に至るまで、多くの問題に対して研究されてきました。
しかし、銀行の問題でこれらの方法をテストする試みはほとんどありませんでした。
この研究では、強化学習技術を使用して、最適なクレジット カード限度額調整ポリシーを見つけて自動化することを目指しました。
特に、履歴データが利用できるため、顧客ごとに 2 つの可能なアクション、つまり個人の現在の与信限度額を増やすか維持するかを検討しました。
このポリシーを見つけるために、私たちはまず、この意思決定の質問を、期待される利益が最大化される最適化問題として定式化しました。
したがって、ポートフォリオの収益の最大化とポートフォリオの引当金の最小化という 2 つの敵対的な目標のバランスをとりました。
第 2 に、問題の特殊性を考慮して、オフライン学習戦略を使用して、ラテン語のスーパー アプリ (商品配送から金融商品までさまざまなサービスを提供するモバイル アプリケーション) の履歴データに基づいてアクションの影響をシミュレートしました。
アメリカが強化学習エージェントを訓練する。
私たちの結果は、最適化されたハイパーパラメーターを備えた Double Q 学習エージェントが他の戦略よりも優れたパフォーマンスを発揮し、この決定の複雑な性質を反映した自明ではない最適なポリシーを生成できることを示しています。
私たちの研究は、信用限度額調整に強化学習フレームワークを適用するための概念構造を確立し、専門家主導のシステムのみに依存するのではなく、主にデータ主導型の方法に基づいてこれらの意思決定を行うための客観的な手法を提示するだけでなく、
これらの変更を決定するための代替データの使用。

要約(オリジナル)

Reinforcement learning has been explored for many problems, from video games with deterministic environments to portfolio and operations management in which scenarios are stochastic; however, there have been few attempts to test these methods in banking problems. In this study, we sought to find and automatize an optimal credit card limit adjustment policy by employing reinforcement learning techniques. In particular, because of the historical data available, we considered two possible actions per customer, namely increasing or maintaining an individual’s current credit limit. To find this policy, we first formulated this decision-making question as an optimization problem in which the expected profit was maximized; therefore, we balanced two adversarial goals: maximizing the portfolio’s revenue and minimizing the portfolio’s provisions. Second, given the particularities of our problem, we used an offline learning strategy to simulate the impact of the action based on historical data from a super-app (i.e., a mobile application that offers various services from goods deliveries to financial products) in Latin America to train our reinforcement learning agent. Our results show that a Double Q-learning agent with optimized hyperparameters can outperform other strategies and generate a non-trivial optimal policy reflecting the complex nature of this decision. Our research not only establishes a conceptual structure for applying reinforcement learning framework to credit limit adjustment, presenting an objective technique to make these decisions primarily based on data-driven methods rather than relying only on expert-driven systems but also provides insights into the effect of alternative data usage for determining these modifications.

arxiv情報

著者 Sherly Alfonso-Sánchez,Jesús Solano,Alejandro Correa-Bahnsen,Kristina P. Sendova,Cristián Bravo
発行日 2023-06-27 16:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-fin.GN パーマリンク