接到客户电话之后…… 原创

又是一个繁忙清晨,戴尔易安信存储专家周工接到客户电话:“周工,你快来看看吧,我们的数据库现在巨慢无比,出个报表都要等很久,领导都急了”。

接到客户电话之后…… 

接到客户电话之后……

又是一个繁忙清晨,戴尔易安信存储专家周工接到客户电话:

“周工,你快来看看吧,我们的数据库现在巨慢无比,出个报表都要等很久,领导都急了”。

接到客户电话之后……

这个客户是一家国内顶级电商平台,在外卖市场及到店餐饮领域的地位数一数二。现拥有用户近6亿人,合作商家达300万户,每日订单量超1000万单,移动端月度活跃用户逾1.5亿,年度活跃买家近2亿。交易量如此之高的业务平台,如果后台支撑数据库出现性能问题,后果不堪设想。想到这里,周工立刻安排,第一时间赶到了客户现场。

客户的数据库环境是Oracle RAC平台,业务进程复杂。如何量化“数据库慢”,找到拖垮性能的真正原因呢?这个,就要用到戴尔易安信的超级工具——Live Optics。

Live Optics工作负载视图

24小时定位性能瓶颈

Live Optics是一款开放的专业数据中心整体系统性能评估软件。利用它,客户可以收集、可视化IT环境及工作负载的数据,并可生成专业的分析报告。Live Optics 控制面板以单台及分组服务器,存储及备份设备的性能摘要的形式,显示客户的系统环境数据监测结果,涵盖了所有工作负载类型。因此,客户可以发现整个系统作为一个整体,在哪些方面存在性能问题,以及如何更高效地运行。只需24小时,客户就能获得工作负载数据的清晰视图。

周工即刻和客户协商,在客户的服务器上安装了最新版本的Live Optics软件,并详细告知客户如何获取结果文件以供分析解读。

在运行了24小时之后,周工手里拿到了客户数据库环境完整的运行性能数据报告。一份客户数据库平台性能数据的完整视图展现了出来。通过该视图,周工和客户快速定位到了性能问题发生的时间点、发生原因。

接到客户电话之后……

接到客户电话之后……

通过IOPS和读写延迟两个视图,可以看到系统在峰值情况下,IOPS压力高达30000以上,延迟也高达40ms以上,超过正常业务系统能接受的延迟时间。这正是客户“数据库慢”的实际数据量化显示。

接到客户电话之后……

通过查看存储Volume的性能视图,可以看到目前支撑数据库系统的存储设备,大部分时间都处于延迟较高的状态。经过Live Optics的分析,当前的存储设备由于采购时间早,配置低,已满足不了当前数据库业务高IO访问的要求,需要升级提高存储配置。

SC9000双活方案

实现6个9高可用性

周工和客户一起分析了手里的数据,客户也认可了对问题的原因分析。那么接下来就是提供一个能满足客户需求的解决方案了。如此高的IO压力,毫无疑问要考虑配置SSD。另一方面,作为客户的核心数据库,要如何保证其超高的可用性和6个9的安全性呢?

不过,这一切都难不倒经验的丰富的戴尔易安信存储专家周工。毕竟,这样的性能压力和安全性难题并第一次出现。为了尽快解决客户的难题,周工迅速拿出了一套完善的解决方案。

接到客户电话之后……

◐  本次方案配置2套戴尔易安信企业级存储性能SC9000,用于Oracle RAC数据库存储;

◐  其中每套SC9000都与Brocade 6505光纤交换机连接,同时每台Oracle RAC服务器与Brocade 6505连接;

◐  每套SC9000配置SSD硬盘,在满足高性能的同时满足客户要求的20TB可用容量。每套SC9000从控制器到前端都采用冗余架构,在单一硬件发生故障时,可以透明切换到另外一个硬件组件;

◐  每套SC9000控制器配置了512GB缓存,用于数据库缓存,并且控制器之间针对Write Cache进行了镜像,每套存储配置24块针对写优化的SSD硬盘,在满足高性能的同时满足数据存储容量需求;同时,也可以采用数据压缩和去除功能对历史时间数据进行压缩和去除,提升整体TCO;

◐  为了提升数据安全性,每套SC9000配置了CDP功能,通过CDP功能可以定时为数据库实现指定时间点的数据保护;

◐  为了保证核心数据库高可靠架构,同时配置第二套SC9000,并且与第一套SC9000组成双活方案。在一套SC9000整体发生故障时,可以通过live volume功能实现Oracle数据库从第一套SC9000切换到第二套SC9000,并保证整体切换时对前端数据库业务无任何影响。日常正常运行时,对于前端Oracle RAC系统,后端两套SC9000可以提供IO负载均衡,提升整套Oracle RAC数据库对数据的读写性能。通过这套双活解决方案,客户的数据库系统达到了6个9的高可用性。

经过和客户的交流,最终的设计方案获得了客户方领导、数据库管理员以及IT运维人员各方面的认可。最终系统得以成功上线。上线至今,运行非常顺畅。客户之前的性能压力问题,得到了彻底的解决。

接到客户电话之后……

戴尔易安信的存储解决方案又一次得到了客户严苛业务环境的考验,证明了自身的优秀能力。所有这一切的开端,都来自于那天早上的咨询电话。所以从另一个角度来看,当接到客户咨询电话时,其实是客户在寻求你的帮助。而作为IT厂商,在第一时间给予客户帮助,使他们尽快解决问题,摆脱风险,才真正体现了一个IT大厂商的能力。

来源:戴尔

0赞

好文章,需要你的鼓励

2018

07/16

17:15

分享

点赞

邮件订阅
白皮书