Ceph社区跟踪(2020-09-19 ~ 2020-09-30)




本文作者: 胡 遥 ( https://my.oschina.net/u/2257799 )

youtube channel

  • Ceph Crimson/SeaStor OSD 09-23
    • 修复测试用例发现的bug,bug的场景是:一个request因为拿不到object context而被pengding,再次重新执行的时候可能乱序。
    • 完善cstore垃圾回收方面的基础开发,目前已经可以在一个随机的工作负载下一直
    • 集成了hobject的读写流程,以及对应的单元测试
  • Ceph Science Working Group 09-23
    • 讨论了ceph的一个线上问题,某一次大停电,3个数据中心,其中2个中心完全掉电。最后没有丢数据,并且通过均衡恢复了。
    • 报告了一个osd pg迁移走之后,使用率还是很高的问题。没找到问题的原因,最后通过重建解决
    • 计划将第二个s3的环境从L版本升级到N版本,并且都进行了测试,之前已经升级成功一个。比较担心region的设置从前一个版本的设置无法在下一个版本中生效
    • 讨论了s3 单bucket文件数量过大的问题,目前已经把aoto reshard功能给关闭了。问题原因是做list file操作的时候,如果shard达到512个,而每次如果list 1000条记录,则需要512个shard同时返回1000条记录,则有几十万条记录进行排序,耗时非常严重,对此进行了优化。
  • Ceph Performance Meeting 09-24
    • 讨论了2个新的pr
      • https://github.com/ceph/ceph/pull/37156
      • https://github.com/ceph/ceph/pull/36266
      • https://github.com/ceph/ceph/pull/37314
    • 分析rocksdb社区做的rocksdb基准测试,用不同工作负载的模式进行测试。有人提出rbd下的rockdb工作负载和rgw下的rocksdb工作负载差别很大,要把工作负载模型都测试到,工作量很大
    • 分析rocksdb的文档,代码以及案例。目前只熟悉了文档,还没进行代码的深入分析,并且觉得这很耗时,如果有人可以提供rocksdb代码速成的方法,会很高兴
    • 讨论了bluestore是否有更好的并行处理能力,kv-sync线程一直是瓶颈,导致当初的bluestore非常慢,现在已经大大改善了,如果想要进一步改善,需要比单线程使用更多的并行化
    • 提到删除调用pglog的相关的代码,来测试pglog的开销
  • Ceph Code Walkthrough: Patrick Donnelly – Metadata Servers 2020-09-29
    • 这个主要是代码讲解,自己看就好了
  • 邮件列表
    • https://lists.ceph.io/hyperkitty/list/dev@ceph.io/thread/M67UHRHBOBO64FGG5U3OTLH2MOR43PEX/ (报告一些代码backport到了N版本导致FreeBSD环境编译不通过)
    • https://lists.ceph.io/hyperkitty/list/dev@ceph.io/thread/JBMAEEMXZWTHF5XA4MBFJDWLDCOFH5DH/ (ceph社区实习报名)
    • https://lists.ceph.io/hyperkitty/list/dev@ceph.io/thread/DIQTY4AYHRE3RSOCA7WHEG2TE2M6C7WW/ (有人说他开发了一个性能更好的块存储,并且可以对接qemu,https://vitastor.io)
    • https://lists.ceph.io/hyperkitty/list/dev@ceph.io/thread/UJTZE3JRQ56M2CM7C3TU25Y6P2VA2OY5/ (ceph-mgr升级到15.2.4,总是需要很长时间才能得到ceph pg结果)
    • https://lists.ceph.io/hyperkitty/list/dev@ceph.io/thread/DXM3Z2BE3PBDPIZHE7XJKQOVMTJ322XM/ (ceph-fuse 多client之间存在不一致的问题)
  • master近期合入代码(0919~0930)
    • bug修复相关:
      • https://github.com/ceph/ceph/pull/37331 修复 https://tracker.ceph.com/issues/47461
      • https://github.com/ceph/ceph/pull/37334 修复mds在session连接关闭后不恢复文件caps的问题
      • https://github.com/ceph/ceph/pull/37382 降低了mds的open file table的内存使用