强化学习金融应用最新综述论文
由于数据量的不断增加,金融行业的快速变化使数据处理和数据分析技术发生了革命性的变化,并带来了新的理论和计算挑战。与经典的随机控制理论和其他解决财务决策问题的分析方法相比,强化学习(RL)的新发展能够充分利用大量的金融数据,较少的模型假设,改善复杂金融环境下的决策。本文旨在回顾RL方法在金融领域的最新发展和应用。我们介绍了马尔科夫决策过程,它是许多常用RL方法的设置。然后介绍各种算法,重点介绍不需要任何模型假设的基于值和策略的方法。与神经网络连接,以扩展框架,以包含深度RL算法。我们的综述通过讨论这些RL算法在各种金融决策问题中的应用,包括最优执行、投资组合优化、期权定价和对冲、市场营销、智能订单路由和机器人建议。
引言
许多金融决策问题的数学方法传统上是通过随机过程建模和使用随机控制产生的技术。模型的选择通常是由平衡适应性和适用性的需要决定的。简单的模型可以在封闭的形式下或通过传统的数值方法找到易于处理和实现的策略。然而,这些模型有时过于简化了金融市场的机制和行为,这可能导致在实践中不是最优的策略,并可能导致财务损失。另一方面,试图捕捉金融市场现实特征的模型要复杂得多,而且往往在数学上和计算上难以使用随机最优控制的经典工具。
近年来,在电子订单驱动的市场中,大量关于交易、报价和订单流的金融数据的可用性给金融中的数据处理和统计建模技术带来了革命性的变化,并带来了新的理论和计算挑战。与经典的随机控制方法相比,来自强化学习(RL)的新思想正在被开发来利用所有这些信息。强化学习描述了一种方法,通过这种方法,在某些系统中活动的主体可以通过与系统交互获得的重复经验来学习做出最优决策。近年来,在金融行业中,RL算法在订单执行、做市和投资组合优化等领域的应用取得了许多成功,引起了人们的广泛关注。当参与者对市场和其他竞争对手的信息有限时,运用RL技术改进各种金融市场的交易决策取得了快速进展。
虽然已经有一些关于金融强化学习方面的更专业的回顾论文,我们的目标是回顾这一领域的广泛工作。本综述旨在提供RL理论的系统介绍,并对下列财务问题——最优执行、投资组合优化、期权定价和对冲、市场营销、智能指令路由和机器人建议进行介绍性讨论。此外,我们还将讨论RL方法相对于经典方法(如随机控制)的优势,特别是对于数学金融文献中已经广泛研究的问题。对于其他具有不同重点的近期综述,见[39],[43],[70],[120],[147]和[155]。关于RL方法在机器学习更广泛的框架内应用于金融问题的讨论,包括期权定价和投资组合优化,见[57,第10章]。
我们的综述将从讨论马尔可夫决策过程(MDP)开始,这是金融中许多强化学习思想的框架。然后,我们将在这个框架内考虑不同的学习方法,主要重点是基于价值和策略的方法。为了实现这些方法,我们将引入深度强化方法,在此背景下结合深度学习思想。对于我们的金融应用,我们将考虑一系列的主题,在考虑使用RL方法处理它们之前,我们将介绍基本的底层模型。我们将讨论每个应用领域的一系列论文,并给出他们的贡献。最后对金融强化学习的发展方向提出了一些思考。
强化学习金融应用未来发展
本综述中引用的许多论文都在这一方向上迈出了重要的第一步。我们列出了以下读者可能感兴趣的未来方向。
Model Predictive Emissions Control of a Diesel Engine Airpath: Design and Experimental Evaluation