2023 - 中电信人工智能(ZhongDianXin AI)
职位:大数据 / AI 工程师
述职人:大数据中心 黄一纯
一、年度重点工作任务完成情况/成果与亮点
- 配合完成2.0/3.0中台的发布,修改大量漏洞与部分bug,深入了解了整个系统的架构情况,积极参与了调度系统的开发工作。
- 承担资源调度开发的任务。完成子功能模块资源调度内容:监测broker主机、集群资源使用情况。通过根据主机资源和yarn资源进行任务下发控制,避免热点下发问题。同时根据配置的进行顺序队列下发,有效减少了任务不受控制的时间,提高了整个系统的稳定性和性能。
- 完成智算中台离线物理机自动化部署脚本开发,20+子项程序(包括starlink-web/dataex/datastash-broker/dataflow-broker/stream/kpi/starlink-dp/starlink-dp-statistic/datage-executor/starlink-gateway/starlink-dtworkshop/starlink-dtexchange/dtscheduler/dtschedulerX/starlink-security),开发完成bi/cloud-platform。
- 重新部署中台,整理中台部署文档,整合部署参数;实现中台部署由7人天缩短到1人天,提高部署效率避免部署人为错误;
- 规划化标准部署路径,统一基础目录;通过统一的配置文件管理本地化部署集群,支持扩容、更新、启动停止的常用命令;
- 避免人为操作业务环境导致的权限错误;优化部署参数调整,将40+配置文件整合融合到ansible统一文件参数中,实现更加高效的配置管理;
- 适配centos7/8、ctyunos、麒麟等系统,完成重庆高速、集团生产与测试、演示环境等多个部署环境的部署工作。
- 完成2次星海培训计划,共计培训学员100+,输出智算中台离线部署方法、页面业务使用流程、报错故障处理等内容。
- 从入职4个月的时间里,从部署入手了解智算中台的各个子部分,快速结识各位战友。在接下来的时间里,将在自己的大数据调度领域再下一城。
二、存在的不足与改进办法
- 在2.0与3.0智算中台发布过程中,遇到大量老代码bug的问题,这些老代码维护能力差,可塑性太弱,难以维持高质量开发。
- 在调度开发中,完成了资源调度的任务,但在一些极端情况下,系统的鲁棒性仍有提升空间,对yarn资源的获取存在一定的延迟性。
三、下一年度工作计划
- 深入大数据调度系统开发,完成智算中台调度部分内容,替换原有的老版本调度系统。
- 资源调度考虑和监控系统结合,比如提供基线任务设置,任务调度资源倾斜与优先保障。
- 增强调度的容错机制与故障恢复机制,避免任务假死、丢失等问题。