职位描述
1.参与大规模预训练语言模型的数据算法工作,主要涉及数据清洗策略与算法制定、数据去重算法、数据质量评估等
2.根据需求复现相关自然语言处理与数据处理算法与开源模型性能
3.参与前沿算法与应用的研究
职位要求
1.自然语言处理、机器学习、大数据处理及相关专业、2年以上相关工作经验
2.较强的算法开发能力,熟悉C++、python、shell、cuda等一种或多种编程语言
3.掌握传统NLP、深度学习NLP、数据处理相关算法,并具有相关实战经验
4.熟悉Pytorch等深度学习框架、了解spark等大数据分析工具
5.对深度学习、Transformer、预训练有一定深度的理解和经验,能根据论文复现相关算法,有大规模预训练模型研发和训练经验者优先。