2023年工作总结




近期团队和部门调整转到新部门,应新部门负责人要求,需要向他做一次2023年的工作情况汇报,也就是述职,因此整理了一下去年的个人和团队的主要工作。注意事项:
1)隐去了部分隐私、敏感内容
2)有些复盘总结是给领导看的,并不代表本人/团队真实想法

个人及团队介绍

个人简介

2010年杭电硕士毕业,10~12年在华为云计算虚拟化团队从事虚拟机控制面组件开发,12~17年在网易杭研云计算团队从事OpenStack云主机服务开发,17~18年在创业公司负责OpenStack私有云产品研发,18~23年在网易杭研云存储团队从事ceph/curve/nos等存储项目的维护开发(其中Ceph是开源引入、Curve是自研开源、NOS是自研项目)。当前职级P5-1。
优势:
  • 超13年云计算领域从业经验,技术面较宽
  • 对技术产品化有一定的经验,注重用户体验,能深挖用户需求深层次的背景并牵引用户找到更合适的解决方案
  • 5年以上中小团队管理经验
不足:
  • 存储领域技术深度不够
  • 团队管理风格偏宽松

团队介绍

当前团队剩余4人(含本人,原有18人):
  • **(P4-3):熟悉Curve块和文件存储两个项目,负责Curve项目开发及线上集群维护工作,并参与维护NOS底层NEFS存储引擎
  • **(P4-2):熟悉Ceph块和文件存储项目,负责维护Ceph项目的线上维护工作,与**互为备份;并参与了Curve文件系统项目的开发
  • **(P4-1):熟悉Curve文件存储项目,负责Curve项目开发及线上集群维护工作,与**互为备份
团队目前共负责开发维护Ceph和Curve两个核心项目(近xx个集群,文件存储xxx+台节点,块存储xxx台左右,xxPB+业务数据),以及云平台相关的存储组件(如OpenStack云盘插件、k8s csi插件等)。23年活跃的项目主要是Curve存储项目和Ceph贵州IDC新版本升级项目。
优势:
  • 技术实力强,主动性高,业务满意度较好
不足:
  • 对业务需求的挖掘还不够深入,更多的是在底层存储项目内部做工作,缺少与业务的深度拉通对齐

23年工作复盘及总结

业务(不含NOS项目)

1. Curve块存储(云硬盘)

主要完成了混闪引擎功能开发、某游戏业务云盘本地快照及性能需求开发、云原生数据库高性能存储引擎落地等工作,另外还调研并POC了raft双写导致的大IO性能优化问题解决方案。
主要成果为:
  • 达成混闪功能性能指标并上线小集群,可通过混闪云盘(NVME+3.5寸8T大盘)替换掉HDD云盘(2.5寸1.8T小盘),提升单机存储密度,降低HDD云盘成本,并预估可替换本地盘raid1方案节约成本(可达50%),目前推广阻力主要是分布式存储的爆炸半径问题以及部分极端IO性能需求无法满足。目前由于人员变动,项目已取消。
  • 某游戏团队云盘服务已完成功能开发、联调,以及达成性能指标要求,可替换当前使用的ceph块存储,优化性能提升用户体验(随机读提升2倍、随机写提升40%)。目前由于人员变动,项目已取消。
  • 大IO性能优化方案调研了多种ROI预期较高备选方案,包括接入开源存储引擎(bluestore、vitastor等)、专有存储硬件(xdp、nvdimm等)、ext4替换为xfs文件系统并使用relink特性,均未能取得全面改善,需要全新研发新的存储引擎ROI较低,项目取消。

2. Curve文件存储

Curve文件存储主要完成了AI、ES、HDFS等业务场景下的存储替换需求开发,通过将数据存储到低成本的NOS对象存储上来帮助业务降低存储、运维成本。
主要成果为:
  • 性能相比竞品有显著优势:
    • 多线程mdtest测试场景下,CurveFS元数据性能远超某FS、CephFS(含kernel客户端),并且还有进一步的优化空间
    • 在IO密集型AI训练场景的各阶段代码编译、特征提取、训练阶段效率有30%以上的提升,IO耗时占比较少的提升不明显(依赖数据集预热、缓存盘性能等因素)
  • 23年Curve文件存储已落地业务包括:
    • 生产:某ai业务a、某ai业务b、某ES业务a、某ai业务c、某tob商业化项目a、gitlab冷数据、某业务HDFS存储替换、某业务替换nas存储
    • 测试:某ai业务d、某时序数据库业务冷数据
    • 外部用户:江苏农信、清华MadSys实验室(深度共建)等
目前项目仍处于推广初期,线上集群容量仍然较少(xPB+),降本效果不显著。当前项目由于人力变动,预计后续仅投入部分重点业务场景(如HDFS替换等)。

3. 贵州机房搬迁

贵州机房搬迁相关工作主要包括Curve块存储全面替换SSD系统盘和云盘,以及Ceph新版本升级工作(含云盘及文件存储)。
主要成果为:
  • Curve系统盘及SSD云盘已上线贵州私有云,并优化了杭州机房存在的部分功能及性能问题,当前已使用xxxTB容量
  • 完成Ceph新版本升级方案及功能开发,并落地贵州机房部署了HDD云盘集群,以及完成某机器学习平台底层文件存储集群xxxTB数据迁移
后续将继续协助更多业务完成贵州机房搬迁工作。

4. 开源社区运营

23年Curve开源社区组织了2场开发者活动,共吸引了47位外部contributor(含5位committer),以及江苏农信、北京外国语、同程旅行、天翼云边缘计算团队等外部用户,同时还有zstack、清华大学madsys实验室等参与深度共建开发。
由于人力变动,后续Curve开源社区将停止运营。

团队

主要工作内容

团队管理方面23年的重点工作主要包括:
  • 团队目标管理:主要包括目标的讨论制定、目标拆分及团队人力调配、过程跟进、风险管理、验收卡点等方面
  • 业务满意度维护:主要包括存储服务的可用性及稳定性、数据可靠性、业务需求承接、存储服务降本等方面
  • 业务拓展:了解业务痛点并探索解决方案、完成开发后推进业务落地应用
  • 人才梯队建设:促进开发技能、项目经验在团队内部的共享和传递,做好人力备份和后备人力储备
  • 绩效管理:优秀员工的识别、培养,不合格员工的清退等
管理思路主要是:
  • 确立团队项目正确方向并且配合团队全力达成
  • 给每个人找到合适的工作目标,团队和个人共同发展
  • 业务满意度始终放在首位,始终把业务需求、线上问题、服务稳定性等放在个人和团队工作最高优先级

思考和复盘

个人认为团队做得好的有如下几个方面:
  • 业务方满意度较好
待改进的有:
  • Curve内外部应用落地成效不大

个人

主要工作内容

23年个人共完成40+工作任务,主要包括如下几个任务类型:
  • 业务沟通及拓展
  • 目标规划及修正
  • 业界及竞品调研
  • 需求分析及poc
  • 重点架构方案评审及实现效果review
  • Curve开源社区运营维护

思考和复盘

在23年及近两三年,我在存储团队中的角色可以通俗的描述为:架构师+产品经理+项目经理+团队leader+Curve开源社区PMC,同时承担这几个角色的工作内容。也即对外负责与业务方满意度维护、需求沟通和解决方案输出;对内负责产品设计和架构选型,给团队解释需求背景、制定设计目标;对上负责团队目标的达成;对下负责团队搭建、人力调配、激励、梯队培养等。
在这几个角色当中,我个人认为自己做得好的有如下几个方面:
  • 作为项目经理,交付时间点和组织绩效目标完成度良好
  • 作为团队leader,人力调配和梯队培养方面完成较好,通过深入了解个人发展规划和能力现状,在分配任务目标时能兼顾个人能力长处和兴趣点,更好的达成目标
  • 作为架构师,项目的架构优势、服务稳定性和降本效果显著
  • 作为产品经理,业务方对存储服务的满意度较高
待改进的有如下几个方面:
  • 作为产品经理,存储项目的商业化落地效果较差
  • 作为架构师,Curve块存储的大IO性能优化改进不达预期
  • 作为开源社区PMC,外部用户的落地应用情况较差

重点工作规划