盘子做大后的“尴尬”

来源:戴尔    2019-12-03 18:20:39

关键字: 戴尔易安信

“新收购的第三分厂数据已于前日完成导入,但有财务、监察等部门反映,近两日报表数据获取缓慢,有时会出现客户端卡住、报错、死机等情况,严重影响销售系统正常运行……”

临近年底

各路人马磨刀霍霍

誓为报表美化

花尽最后一丝力气

偏偏这个节骨眼

突如其来一个变数

让基础架构部门主任王力

原本堪称完美的2019年

盘子做大后的“尴尬”

上午9点7分,给集团IT领导们做线上汇报时,王力声音都是颤抖的。

新收购的第三分厂数据已于前日完成导入,但有财务、监察等部门反映,近两日报表数据获取缓慢,有时会出现客户端卡住报错死机等情况,严重影响销售系统正常运行……”

有B厂、C厂、D厂、E厂完美汇报在前,王力心里越发突突,集团领导该咋想他们A厂啊,另外解决不了这个问题,不仅年终奖得缩水,只怕来年升职考核也没法过关啊。

盘子做大后的“尴尬”

“找到原因了吗?”IT部长Ivana率先发问。

“我们看了销售系统的运行日志和服务器数据库,监测两小时后发现一些查询语句运行的时候出现了死锁。”“联系软件厂商了吗?”“软件厂商下午过来,查看软件及其数据库的运行情况。”“好,请抓紧处理,有情况随时汇报!”远程会议结束后,王力轻轻抹了一把汗,先联系软件厂商工程师筹划下午的检测事宜,接下里又开了两场大会。这年头,没有什么问题是开会解决不了的,一场不够,那就再开两场。

盘子做大后的“尴尬”

会议一会议名称

关于导入第三工厂数据致使销售系统死锁原因探讨

时间

2019年12月3日16:30

地址

基础架构部门经理Deven办公室

参与者

Deven、王力、软件厂商工程师

会议内容

会议上Deven听取了软件厂商在13点至16点对软件运行开展的检测分析报告,了解到频繁出现的死锁情况是数据库的数据查询造成的,与前几日大量导入数据有关。

经工程师对数据库存储的监测,磁盘活动时间经常达到100%存储IO效能不足是本次销售系统无法正常运行的主要原因

会议二会议名称

关于解决存储IO性能不足问题的解决方案探讨

时间

2019年12月3日17:10

地址

第一工厂办公大楼4楼会议室

参与者

Deven、王力、DBA Mario

会议内容

在用存储4年间扩容5次,随着数据量增长使用该系统的部门和人数也大量增加,Kevin建议换台存储

DBA Mario认为,更换一台效能更好的存储并不能从根本上解决问题。卡顿是销售系统一直存在的问题,如今只是因为数据量剧增就出现死机,将来等更多业务、部门接入数据库时,数据量级前所未有,仅仅换一台高性能的存储远远不够,建议从硬件和软件架构着手解决

晚上8点17会议结束时,上级Deven微笑着拍拍王力的肩膀:“老王啊,硬件改造项目你来跟进吧,今天不用加班了明早把方案给我就行。”

盘子做大后的“尴尬”

关键时刻,还是老同学靠谱

走在公司楼下,迎着寒冷的风,王力晕腾腾地对着车水马龙发呆,几分钟后,他眼前隐隐浮现出老同学张烨的脸庞,张烨在戴尔易安信担任技术顾问多年架构的事找他问问吧

当晚8点半,王力在电脑微信上同张烨开始了今天的第四场会议。简单寒暄后,两人进入正题。张烨:“我大概了解了。你们销售系统性能的关键在两个地方:一是软件对外服务部分工作负载没有分离数据库中读写相互影响。这在工作负载不高的时候没什么问题,但是工作负载一大就将会给服务端造成巨大负担,大量查询的时影响写性能,写入时又锁定数据行又延缓读取,从而形成死锁第二是硬件部分你们这个系统的硬件架构单一负载集中不仅有安全风险,而且很容易达到性能瓶颈。用户需求无穷尽,则服务端负载压力无穷尽,单一的服务端结构又怎么能以无尽的资源满足无尽的需求呢?”

盘子做大后的“尴尬”

“那你看怎么改进呢?”“三步走。第一,将数据库的读取和写入业务进行分离;第二,对于读写较重的服务配置更多机器进行分担;第三,寻找合适的可按需扩展的基础架构,以满足不断增长的业务需求。”“好,我知道了。”王力一边说一边在文档里敲下关键内容。“另外,还要找可以进行相互间数据复制的存储,异步同步都行,最好是同步。当然了,这取决于你们的预算。针对你说的问题,方案就是在查询和写入方面配置多台服务器,再配以合适的存储,让存储间相互抄写同步数据分担负载,这样无论后期是查询的服务对象变多,还是写入的工作负担变大,你们都可以按需扩展。”张烨喝口水慢慢说道。

盘子做大后的“尴尬”

“所以,你有推荐的存储吗?”

“当然,也不看看我们戴尔易安信是干啥的!咱约下时间,到时候我给你们讲下具体落地方案。”

这个落地方案,稳了!

3天后王力协同戴尔易安信技术顾问张烨、软件厂商到大楼会议室向IT部长Ivana做远程汇报。“可以看到,在这个架构中,副区作为核心区域,包括主存储副存储主数据库副数据库,以及对外提供销售系统数据读写的服务器,服务器集群与数据库组成SAN网络进行通讯,可以不受外部网络的影响。”张烨指着大屏幕,洪亮的声音传遍会议室。

盘子做大后的“尴尬”

“首先是存储部分,我们的主存储与副存储保留有完全相同的数据副本这主要得益于戴尔易安信SC存储的LiveVolume技术——分别位于两个存储上的主副数据库均可对外提供业务服务,主副存储所连接的区域共同运作同一系统,单块区域的任何故障都不会影响业务的持续运行。”

“其次,存储区域外是我们的服务器集群,8台服务器连接到2台负载均衡设备,后者将会依据其内算法对请求进行分配将原先由2台服务器承担的工作分配给8台服务器来完成。同时,负载均衡设备会监控链路状态,如果8台服务器中的任何一台服务器或其链路出现故障,负载均衡设备会将业务请求交付给其他正常链路的服务器。”

盘子做大后的“尴尬”

“最后,在核心区域外,我们还设计了第三块区域。大家请看左侧,这块区域我们配置了4台服务器和1台存储,同样是戴尔易安信SC存储,位于第二区的副存储会将数据异步复制到第三区域的存储上该存储将会保留除主副数据库外的第三个数据库副本,配合前端服务器上安装的程序对外提供销售数据的只读服务及数据报表接口。”

盘子做大后的“尴尬”

“第三区域存储的数据计划多久同步一次?”Ivana问道。

“每日凌晨1点开始同步。”张烨回答道。

我有个疑问。”Ivana看着架构图,“据我所知,像你们架构图里的存储双活结构一般是需要特别设备或者网关进行这是忘记画上去了吗?”

“您也注意到了这一点。不过这并不是我们忘了,而是戴尔易安信SC存储的LiveVolume技术无需额外设备或网关即可实现双活。”张烨把目光投向王力,两人相视一笑。

盘子做大后的“尴尬”

“哦?SC存储可以实现无网关双活?”

“是的,Ivana。此外,SC存储还能用不同型号实现双活,如若单个存储效能不足,我们可以在集群中添加更多SC存储,构成联邦在线迁移,使用效能更好的SC存储承担业务负载。不仅如此,搭载英特尔®至强®处理器的SC存储可以提供必要性能和高级安全技术,有效地提高数据中心的效率和可靠性”

“这样啊……”线上的Ivana托起下巴,“真不错啊,SC存储。这个架构我看行,你们探讨一下,定个时间跟软件厂商开发人员一起测试吧。”

“好的!”

一个半小时的汇报结束后,王力与张烨走在第一分厂的林荫小道上。

“方案基本已经确定,测试没有问题后我们就会采购了。真希望通过这个采购项目戴尔易安信也能参与到我们的日常运维中来,这样我们才不会犯下之前的错误,直到效能不足时候出问题的时候才想起来进行系统改进。”王力看着张烨一脸诚恳。

张烨听完笑了笑:“老弟啊,要真有这个顾虑,建议采购时加上我们的优化服务这服务能提供一年一次的上门巡检和无限次的远程巡检,主动监测存储状态、进行存储配置优化、定期给出存储分析报告,出现效能问题或设备故障时会电话或邮件告知风险,相当于协助你们管理这些存储你们运维也能省不少心。”

盘子做大后的“尴尬”

“这敢情好啊!咱得好好聊聊!”夕阳下,王力满脸写着高兴,连日来的乌云终于一扫而光了。

    扫一扫

    分享文章到微信


    北京第二十六维信息技术有限公司(至顶网)版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号
    举报电话:13070156560 举报邮箱:jubao@zhiding.cn 安全联盟认证