深度强化学习将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的环境信息控制智能体执行各类动作决策,是一种更接近人类思维方式的人工智能算法。近些年,深度强化学习在智能博弈、金融风险控制和传染病防控等方面取得了广泛的应用。例如:2016年,基于强化学习算法框架的ALPHHAGO战胜了围棋世界冠军,推动了人工智能从理论研究到应用落地的新一轮技术变革。2025年,安德鲁·巴托(ANDREW BARTO)和理查德·萨顿( RICHHARD SUTTON)因在强化学习(REINFORCEMENT LEARNING)领域的开创性贡献而获得了图灵奖,强化学习获得了主流学界的认可。本报告将介绍研究组在深度强化学习的前沿技术和应用落地方面的近期研究成果。
