要約
金融資産取引における意思決定の逐次的な性質は、強化学習 (RL) フレームワークと自然に一致しており、RL はこの分野で一般的なアプローチとなっています。
しかし、金融市場の信号対雑音比が低いため、報酬関数を含む環境要素の推定値にノイズが多くなり、RL エージェントによる効果的な政策学習が妨げられます。
RL 問題における報酬関数設計の極めて重要性を考慮して、この論文では、トレンド ラベリング アルゴリズムがエキスパートとして機能する模倣学習を活用することにより、新しくてより堅牢な報酬関数を紹介します。
モデルフリー RL アルゴリズムで模倣 (エキスパート) フィードバックと強化 (エージェント) フィードバックを統合し、報酬シグナルの確率性を処理するための模倣学習問題を RL パラダイム内に効果的に埋め込みます。
実証結果は、この新しいアプローチが従来のベンチマークや強化フィードバックのみを使用してトレーニングされた RL エージェントと比較して、財務パフォーマンスの指標を向上させることを示しています。
要約(オリジナル)
The sequential nature of decision-making in financial asset trading aligns naturally with the reinforcement learning (RL) framework, making RL a common approach in this domain. However, the low signal-to-noise ratio in financial markets results in noisy estimates of environment components, including the reward function, which hinders effective policy learning by RL agents. Given the critical importance of reward function design in RL problems, this paper introduces a novel and more robust reward function by leveraging imitation learning, where a trend labeling algorithm acts as an expert. We integrate imitation (expert’s) feedback with reinforcement (agent’s) feedback in a model-free RL algorithm, effectively embedding the imitation learning problem within the RL paradigm to handle the stochasticity of reward signals. Empirical results demonstrate that this novel approach improves financial performance metrics compared to traditional benchmarks and RL agents trained solely using reinforcement feedback.
arxiv情報
著者 | Sven Goluža,Tomislav Kovačević,Stjepan Begušić,Zvonko Kostanjčar |
発行日 | 2024-11-13 14:24:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google