又是一个繁忙清晨,戴尔易安信存储专家周工接到客户电话:
“周工,你快来看看吧,我们的数据库现在巨慢无比,出个报表都要等很久,领导都急了”。
这个客户是一家国内顶级电商平台,在外卖市场及到店餐饮领域的地位数一数二。现拥有用户近6亿人,合作商家达300万户,每日订单量超1000万单,移动端月度活跃用户逾1.5亿,年度活跃买家近2亿。交易量如此之高的业务平台,如果后台支撑数据库出现性能问题,后果不堪设想。想到这里,周工立刻安排,第一时间赶到了客户现场。
客户的数据库环境是Oracle RAC平台,业务进程复杂。如何量化“数据库慢”,找到拖垮性能的真正原因呢?这个,就要用到戴尔易安信的超级工具——Live Optics。
Live Optics工作负载视图
24小时定位性能瓶颈
Live Optics是一款开放的专业数据中心整体系统性能评估软件。利用它,客户可以收集、可视化IT环境及工作负载的数据,并可生成专业的分析报告。Live Optics 控制面板以单台及分组服务器,存储及备份设备的性能摘要的形式,显示客户的系统环境数据监测结果,涵盖了所有工作负载类型。因此,客户可以发现整个系统作为一个整体,在哪些方面存在性能问题,以及如何更高效地运行。只需24小时,客户就能获得工作负载数据的清晰视图。
周工即刻和客户协商,在客户的服务器上安装了最新版本的Live Optics软件,并详细告知客户如何获取结果文件以供分析解读。
在运行了24小时之后,周工手里拿到了客户数据库环境完整的运行性能数据报告。一份客户数据库平台性能数据的完整视图展现了出来。通过该视图,周工和客户快速定位到了性能问题发生的时间点、发生原因。
通过IOPS和读写延迟两个视图,可以看到系统在峰值情况下,IOPS压力高达30000以上,延迟也高达40ms以上,超过正常业务系统能接受的延迟时间。这正是客户“数据库慢”的实际数据量化显示。
通过查看存储Volume的性能视图,可以看到目前支撑数据库系统的存储设备,大部分时间都处于延迟较高的状态。经过Live Optics的分析,当前的存储设备由于采购时间早,配置低,已满足不了当前数据库业务高IO访问的要求,需要升级提高存储配置。
SC9000双活方案
实现6个9高可用性
周工和客户一起分析了手里的数据,客户也认可了对问题的原因分析。那么接下来就是提供一个能满足客户需求的解决方案了。如此高的IO压力,毫无疑问要考虑配置SSD。另一方面,作为客户的核心数据库,要如何保证其超高的可用性和6个9的安全性呢?
不过,这一切都难不倒经验的丰富的戴尔易安信存储专家周工。毕竟,这样的性能压力和安全性难题并第一次出现。为了尽快解决客户的难题,周工迅速拿出了一套完善的解决方案。
◐ 本次方案配置2套戴尔易安信企业级存储性能SC9000,用于Oracle RAC数据库存储;
◐ 其中每套SC9000都与Brocade 6505光纤交换机连接,同时每台Oracle RAC服务器与Brocade 6505连接;
◐ 每套SC9000配置SSD硬盘,在满足高性能的同时满足客户要求的20TB可用容量。每套SC9000从控制器到前端都采用冗余架构,在单一硬件发生故障时,可以透明切换到另外一个硬件组件;
◐ 每套SC9000控制器配置了512GB缓存,用于数据库缓存,并且控制器之间针对Write Cache进行了镜像,每套存储配置24块针对写优化的SSD硬盘,在满足高性能的同时满足数据存储容量需求;同时,也可以采用数据压缩和去除功能对历史时间数据进行压缩和去除,提升整体TCO;
◐ 为了提升数据安全性,每套SC9000配置了CDP功能,通过CDP功能可以定时为数据库实现指定时间点的数据保护;
◐ 为了保证核心数据库高可靠架构,同时配置第二套SC9000,并且与第一套SC9000组成双活方案。在一套SC9000整体发生故障时,可以通过live volume功能实现Oracle数据库从第一套SC9000切换到第二套SC9000,并保证整体切换时对前端数据库业务无任何影响。日常正常运行时,对于前端Oracle RAC系统,后端两套SC9000可以提供IO负载均衡,提升整套Oracle RAC数据库对数据的读写性能。通过这套双活解决方案,客户的数据库系统达到了6个9的高可用性。
经过和客户的交流,最终的设计方案获得了客户方领导、数据库管理员以及IT运维人员各方面的认可。最终系统得以成功上线。上线至今,运行非常顺畅。客户之前的性能压力问题,得到了彻底的解决。
戴尔易安信的存储解决方案又一次得到了客户严苛业务环境的考验,证明了自身的优秀能力。所有这一切的开端,都来自于那天早上的咨询电话。所以从另一个角度来看,当接到客户咨询电话时,其实是客户在寻求你的帮助。而作为IT厂商,在第一时间给予客户帮助,使他们尽快解决问题,摆脱风险,才真正体现了一个IT大厂商的能力。
好文章,需要你的鼓励
麻省理工学院研究团队发现大语言模型"幻觉"现象的新根源:注意力机制存在固有缺陷。研究通过理论分析和实验证明,即使在理想条件下,注意力机制在处理多步推理任务时也会出现系统性错误。这一发现挑战了仅通过扩大模型规模就能解决所有问题的观点,为未来AI架构发展指明新方向,提醒用户在复杂推理任务中谨慎使用AI工具。
继苹果和其他厂商之后,Google正在加大力度推广其在智能手机上的人工智能功能。该公司试图通过展示AI在移动设备上的实用性和创新性来吸引消费者关注,希望说服用户相信手机AI功能的价值。Google面临的挑战是如何让消费者真正体验到AI带来的便利,并将这些技术优势转化为市场竞争力。
中科院自动化所等机构联合发布MM-RLHF研究,构建了史上最大的多模态AI对齐数据集,包含12万个精细人工标注样本。研究提出批评式奖励模型和动态奖励缩放算法,显著提升多模态AI的安全性和对话能力,为构建真正符合人类价值观的AI系统提供了突破性解决方案。