一、背景:某电力公司一台S5500T存储在虚拟机侧读写数据时速度过慢,为确保客户业务正常运行和数据安全,现场检查设备性能降低的原因,并给出合理的处理建议。
二、问题、事件描述
系统性能问题定位:
服务器上的虚拟机在进行数据的读写操作时,读写性能很低;登录设备,查看业务配置,经观察发现可能影响性能的因素有:
1) LUN归属不均衡,存储设备上有2/3的业务都放在A控制器上,而另外1/3的业务部署在B控制器上。
2) 在与光纤交换机连接时,只是单路连接。
3) 光纤交换机内部划分的大zone。
4) Linux主机块设备层的队列深度划分的有32和64。
5) 设备划分了4个RAID,两个RAID为5块磁盘,两个RAID为6块磁盘,未达到最优效果。
三、分析与对策
1、影响存储设备性能的指标:
1) IOPS:I/O per second每秒钟存储可以处理的I/O数目;
2) 带宽:常以MB/S单位,即每秒存储可以处理的数据量;
3) 时延:从IO下发到IO处理完成的时间,常以ms为单位,常用指标:平均响应时间、最大响应时间;
4) 波动率:衡量方式:最大值、最小值、均方差,最为常用的方式:均方差/平均值*100%。
2、性能问题的定位思路:
系统的性能石油系统中出现短板的环节决定的。在进行性能调优时,需要在明确业务场景,性能需求的前提下,以系统IO流程为线索,确定具体哪种硬件资源成为瓶颈,是由什么原因导致的,再针对性的进行调优
大致的I/O流程:
主机应用—>内核缓冲区—>块设备层—>HBA卡驱动—>网络—>存储前端—>存储cache模块—>RAID模块—>磁盘
某电力公司存储性能不足解决方案:
1) 重新划分RAID,将24块盘划分两个RAID,每个RAID 包含11块盘时RAID组读写性能达到最优。
2) 将业务LUN均分到A、B控制器上。
3) 在与光纤交换机相连时,使用双上行负载分担的方式。
4) 在光纤交换机内划分小zone。
5) 将分条深度统一划分成128。
四、建议与讨论
神码工程师对客户网络和业务进行综合评估,大大提高了存储的性能,在实际业务系统中,导致用户产生存储设备读写性能下降感觉的原因是多方面的,可能是主机应用层面的问题、或是主机所在的网络故障,亦或是后端存储系统所致。系统的性能是由系统中出现短板的环节决定的。因此,对于性能相关的问题,应该从多个方面逐一排查,找出整个系统的性能瓶颈所在,并针对性的解决。