2020 - 德特塞维
职位:大数据网络处理系统 · 数据底层清洗工程师
一、年度重点工作任务完成情况/成果与亮点
- 核心架构重构:烟囱式架构→分层治理体系
- 主导电信大数据网络处理系统底层架构改造,打破原有烟囱式架构下计费、网优、客服等6大业务域数据互不互通的数据孤岛问题;
- 设计并落地“数据接入层-清洗治理层-统一服务层”三层架构,建立跨业务域数据标准,打通12个业务系统数据链路,实现数据全域共享,跨域数据同步时效从天级降至小时级;
- 优化表清洗逻辑500+,解决多业务系统数据格式不统一、字段冗余、字段名等问题100+
- 精细化优化任务参数2000+(涵盖数据采集频率、清洗并发数、存储分区策略等),任务执行平均效率提升30%
- 完成全量数据资产梳理,梳理数据表100+张,删除无效/冗余数据表100+张,释放存储资源15.8PB,同时建立数据生命周期管理机制,每月减少无效表生成300+张。
- 小文件治理系统研发与落地
- 针对采集侧小文件碎片化严重(单文件小于1MB占比达88%)、存储效率低、读取性能差等核心问题,独立研发小文件治理系统,代码量累计1.2万行;
- 实现小文件自动合并归档:设计按时间/业务维度的合并规则,将2800万+个分散小文件合并为GB级大文件,单文件平均大小从1MB提升至200MB,解决元数据过载问题,元数据查询压力降低70%;
- 落地冷数据分层处理策略:将90天以上冷数据(占比75%)迁移至低成本对象存储,热数据保留在高性能存储,累计节约存储空间8.5PB,存储成本降低35%
- 优化小文件采集链路,修复采集侧断点续传、文件重传等23类问题,小文件处理成功率从78%提升至99.5%,采集链路故障率从15%降至0.8%。
- Namespace元数据效率优化
- 针对原Namespace元数据查询耗时久(平均2.2秒/次)、并发能力弱(仅支持500QPS)的问题。按业务域拆分元数据存储,构建8个联邦Namespace;响应时间缩短至280ms以内,查询效率提升90%,并发支持能力提升至5000QPS;
- 建立分钟级元数据自动巡检机制,实时监控元数据一致性,解决跨联邦节点元数据同步延迟(原延迟3分钟)问题,同步延迟降至10秒内,保障数据查询准确性达99.99%。
- 输出底层数仓建设文档,规范数仓建设规范,杜绝不合规清洗任务上线
- 项目交付与客户认可
- 支撑电信省网、集团级12个大数据治理项目落地,覆盖31个省份,解决客户核心数据存储、清洗、查询痛点,获得客户书面表扬信3封;
- 年度绩效考核获评,最高绩效S级(仅2%员工获评)