AlphaStar Unplugged:大规模离线强化学习
这篇论文介绍了StarCraft II作为一个具有挑战性的强化学习环境,并且提出了一个名为AlphaStar Unplugged的基准测试,为离线强化学习算法带来了前所未有的挑战。作者利用Blizzard发布的大规模数据集,建立了一个数据集、标准化机器学习方法的API以及评估协议。通过使用离线数据,他们改进了现有的代理算法,在与之前发布的AlphaStar行为克隆代理的对战中获得了90%的胜率。
© 版权声明
文章版权归作者所有,未经允许请勿转载。