职位描述
岗位职责:
1. 负责对话训练数据的收集与质量控制,熟悉训练数据收集的整个流程,审核与把控标注员的标注质量,其中涉及亲自标注少量数据;在一定程度上能根据需求构建出训练数据生产流程,制定数据标注规范。
2. 负责对话生成数据的质量控制,审核与把控标注员的评估质量,为产品提供优质的内容,其中涉及亲自评估少量数据;总结生成数据的特点和问题,在一定程度上提出改进方法,制定数据评估规范。
3. 其他涉及到的任务:
(1)构建训练数据,包括SFT和RL阶段的数据;
(2)先进技术调研,包括利用新发布的模型改善数据处理流程,调研与追踪数据质量、长上下文、强化学习、对话等方向的论文;
(3)其他质量控制任务,包括但不限于对话生成的辅助任务,多模态对话,朋友圈,音视频剪辑等。
任职要求:
1. 本科及以上;能熟练阅读英文文献。
2. 对AI内容创作感兴趣,对语言敏感,对文字有快速的总结分析能力。
3. 熟练使用python调用大模型api、设计和优化prompt,了解大模型基础知识和爬虫基本原理,有大模型数据处理、训练、应用构建等经验优先。
4. 熟练使用常用办公软件,熟悉电脑以及网页基本操作流程,熟练使用各类搜索工具获取相关信息。
5. 有时间管理意识,做事严谨,注重细节,踏实肯干,具备团队合作精神,有高度的责任心。
6. 实习时间:至少3个月以上。
7. 实习地点:北京市海淀区中关村国际创新大厦 或 上海市浦东新区环科路999弄浦东国际人才港,可远程办公。
工作地点
上海市浦东新区环科路999弄浦东国际人才港