职位描述
职位描述
1、负责剪映/Capcut/醒图等核心系统的线上可用性,保障服务高效、可靠、稳定运行;
2、通过持续的全方位数据运营(包括可用性指标、历史事故、资源利用率等),发现系统薄弱点,推动落地并持续优化;
3、基于业务使用场景,深入优化提供最佳服务治理实践,包含不局限于关键链路性能瓶颈分析、业务问题定位排障、推进系统高可用架构改造升级等;
4、积累运维最佳实践,制定服务质量观测、异常检测、事故应对等规范标准,并推广落地;
5、推动提升服务的可靠性、可扩展性以及性能优化,保障系统 SLA。
职位要求
1、本科及以上学历, 计算机相关专业;
2、扎实的计算机软件基础知识,了解 Linux 操作系统、存储、网络等相关原理;
3、精通一种或多种编程语言,例如 Python/Go/Java/PHP/C/C++;
4、具备系统化解决问题的能力,良好的沟通技巧和主人翁责任感,积极乐观;
5、加分项:有大型互联网项目稳定性保障经验优先。