云平台存储运维中如何进行故障诊断?

twt社区
简单描述了分布式云存储(以Ceph为例)与传统集中式存储在运维过程中的故障诊断思路分享,实际生产环境故障问题千奇百怪。掌握其原理、做好各系统及硬件设备的应急预案才能有效、快速的处理问题、解决问题,保证业务系统的连续性。

本文来自twt企业IT社区,作者/ twt社区。

随着云计算、大数据等新兴技术体系的快速发展,云数据中心运维需求应运而生,传统的运维人员,以往接触最多的是硬件,如服务器、集中式存储、网络设备、空调、UPS等。但是在云数据中心时代,运维人员已经从面向物理设备,逐步转变为面向虚拟化、SDS(软件定义存储)、云的管理方式。

从云计算概念和实践中延伸出了一种新的存储模式——云平台存储,我们可以从两方面理解云平台存储的定义:第一,在面向用户的服务形态方面,它是一种提供按需服务的应用模式,用户可以通过公/私网络连接云端存储资源,在公/私有云端随时随地存储数据;第二,在平台云存储服务特性方面,它是通过分布式、虚拟化、智能配置等技术,实现海量、可弹性扩展、低成本、低能耗的共享存储资源。

那么云平台存储运维如何进行故障诊断呢?

首先,在传统集中式存储故障诊断过程中,我们一般按照先定位外部,后定位内部的原则。在进行系统的故障定位时,应该首先排除外部设备的问题,外部设备问题包括光纤、光缆、客户设备和断电等问题,内部问题包括硬盘、控制器、接口模块等故障问题。具体的发生故障收集信息诊断过程包括但不限于:

1)检查主机端信息。如检查多路径是否安装正确,查看物理路径状态、虚拟磁盘信息、逻辑路径状态、多路径配置是否正常。

2)收集文件系统故障信息。如收集NTFS/EXT3/EXT4/JFS2等文件系统的故障信息日志等。

3)收集卷管理故障信息。收集LVM配置及LV/PV/VG等相关信息,是否有损坏或告警。

4)收集数据库故障信息。查看存储磁盘的相关报错代码。

5)收集HBA信息。查看HBA卡的生产厂商和型号,收集HBA卡驱动的版本号信息是否存在兼容性问题。

6)收集交换机信息。查看端口、SFP信息,分析链路质量、SFP发光功率是否存在问题。

7)收集传统集中式存储信息。查看告警日志,导出Support日志,与厂商共同分析日志报错,查明原因。

传统集中式存储可以通过收集上述信息并联合存储厂商进行诊断,基本能够在短时间内快速的排除故障。由此可见传统存储呈现给用户更多的像一个黑盒子,通过自带的告警日志能够较快速的定位、解决问题,而云平台存储在故障诊断方面会略显复杂,从某种程度上讲,云平台存储故障率跟前期的规划设计存在较大关系。因此,云平台存储的故障更多会来源于前期规划的不合理及软件BUG等。下面就以Ceph开源云存储为例探讨一下故障诊断和恢复,包括但不限于如下几个方面:

1)架构问题诊断。选型初期,需严格按照Ceph(SDS存储)官方硬件兼容列表进行硬件选型,根据不同场景(IOPS优先、吞吐量优先、存储优先)配置相应性能和与分布式存储软件认证兼容的CPU、内存、硬盘,避免部分硬件配置的选型性能瓶颈、驱动兼容等导致不可预见故障,如常见的SDS集群进程DOWN、读写延时大、读写IO异常等。

2)NTP时间校准问题诊断。时间同步在众多集群系统中是非常重要的一个基础服务,集群内时间不一致很容易造成集群内节点服务异常、认证失败,建议部署私有专网或者互联网的NTP服务器。比如当Ceph集群中,有节点出现时间不一致时,将会出现OSD数据同步问题、MON选举问题、创建云主机失败或宕机问题、分布式存储数据分布不均衡或者脑裂等问题,在故障节点上重新进行NTP时间校准同步,一般就能解决上述问题。

3)性能问题诊断。在Ceph分布式存储中,整个集群的性能很大程度上取决于存储介质的有效选择,应该在选择存储介质之前了解到集群的工作负载和性能需求。从最佳实践看,首先,网络层面存储网和业务网做分离,服务器选用万兆网卡,存储流量的网卡、对应交换机开启巨型帧等。其次,磁盘介质优化。比如OSD/Journal等文件优先存放在SSD硬盘上,数据盘采用JBOD,提高元数据、日志数据、业务数据的存储效率。再次,数据存储的文件系统选择。BTRFS对于生产环境来说不是很稳定,但有能力记录Journal和并行的写入数据,相对而言XFS和EXT4效果会更好。

另外,以Ceph为代表的分布式云存储的参数调优还有非常多,依据不同使用场景,参数优化更为复杂,所以从日常运维故障诊断角度看,分布式云存储比传统集中式存储运维更复杂、更需具有整体技术架构的把握度。从扩展性角度看,传统集中式存储盒式交付,通过增加磁盘来获得容量,但性能受制于控制器;而分布式云存储完全可以由用户自行定制,容量可以横向扩展、性能也能够线性增加。

以上简单描述了分布式云存储(以Ceph为例)与传统集中式存储在运维过程中的故障诊断思路分享,实际生产环境故障问题千奇百怪。掌握其原理、做好各系统及硬件设备的应急预案才能有效、快速的处理问题、解决问题,保证业务系统的连续性。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论