职位描述
岗位职责:
包括但不限于:研究强化学习优化理论、大规模决策系统中的强化学习方法研究、根据实际进行环境抽象、计算模型优化等,特定任务中的强化学习算法调优(比如非完全信息博弈,稀疏奖励等),发表高水平论文,并参与决策AI算法框架的研发。
任职资格:
满足下列任意2项以上
1.有决策AI理论基础,对博弈论、深度强化学习、复杂搜索规划算法或启发式算法等决策AI算法之一有一定的研究和理解;
2.有强化学习等决策AI算法的在实际任务中的优化经验、对强化学习在不同环境上的优化有系统化理解;
3.对模仿学习、IRL或离线强化学习(offline RL)有研究经验;
4.研究能力强,有独立完成一个顶会级别研究工作的能力;
5.工程能力强,能根据论文对已有强化学习算法快速复现,并构参与构建通用训练框架;
6.有相关顶会论文、竞赛成果或丰富算法实现和调优经验者加分。