据中国信通院发布的《数据库发展研究报告(2023年)》中数据显示,2022年,中国数据库市场规模约403.6亿元,占全球7.2%。
中国国产数据库起步并不算早,作为中国首款云原生数据库,阿里云PolarDB数据库则是始于阿里内部互联网业务高速发展和去“IOE”化。
在此之前,阿里是通过将传统数据库直接搬到云上来解决电商业务突发的波峰波谷峰值变动带来的挑战,然而,这种方式无法完全解决上述业务发展过程中遇到的挑战。
PolarDB的出现,也就成了必然。
自2017年开启公测以来,阿里云PolarDB数据库经历了商业化、云原生化、Serveless化,也正在经历着如今的智能化。
1月17日,在首届阿里云PolarDB开发者大会上,阿里云再次发布PolarDB“三层分离”新版本,这一基于智能决策的新版本,实现了查询性能的10倍提升,成本也节省了50%。
而智能化,也正在成为阿里云PolarDB的关键词。
数据库和“搭积木”
2017年9月21日,阿里云自研数据库PolarDB正式对外发布。
“从PolarDB诞生的那一天起,中国数据库就进入到了以云原生为核心的新的数据库发展阶段,”阿里云数据库产品事业部负责人李飞飞在大会上如是说。
之所以说云原生数据库具有开创性,是因为它为数据库带来了关键性能的提升,诸如一体化的数据处理能力、极致的稳定性和弹性、友好的用户体验,以及TCO的大幅度提升。
有了这些特性的加持,PolarDB也得以很好地完成了历年来为天猫双十一保驾护航的重任。
而天猫双十一,是全球每年最大的流量洪峰,TPS峰值纪录高达1.4亿次/秒,订单峰值高达58.3万笔/秒。
正是在经过这样淬炼后,PolarDB从支撑阿里内部电商业务开始,到支持起阿里本地生活、高德地图等越来越多的关键业务。
对外,PolarDB在2018年开始走上了商业化道路。
据阿里官方公布数据显示,目前PolarDB全网部署CPU核数已经超过100万核,在全球超过80个可用区实现了数据库实例部署,拥有超过10000家企业用户。
另一份来自IDC的统计数据显示,阿里云PolarDB已经连续4年稳居中国关系型数据库市场份额第一,其中,在公有云市场份额更是超过了40%。
在拥有如此多用户,尤其是PolarDB提供的技术、专属引擎也越来越多后,阿里云PolarDB研发团队开始思考另一个问题——如何让PolarDB的使用变得更简单、更易用。
于是,阿里云PolarDB研发团队引入了“搭积木”的说法,阿里云PolarDB MySQL产品部负责人杨辛军解释称,“我们就是要把每一个资源、每一个引擎作为一块‘积木’,这样,客户就可以像买东西一样来选他需要的‘积木’,从而适配自己的场景。”
为此,阿里云在本次大会上推出了数据库场景体验馆、训练营,并且对外发布了PolarDB“三层分离”新版本。
阿里云为什么要做三层分离架构?
杨辛军解释称,“我们原来CPU和存储是挂载在一起的,CPU和存储资源的使用往往很难做到完全平衡,因而,我们将存储单独分离出来,在PolarDB新版本中形成了三层分离架构。”
简单易用,是阿里云PolarDB基于用户思维的一个重要发展方向,而谈到技术发展方向,李飞飞称,PolarDB将会向着“四化”演讲——云原生化、平台化、一体化和智能化。
其中,尤以智能化最为关键。
数据库的智能化新趋势
“数据库和智能化结合,是接下来一个非常重要的发展方向。”李飞飞在会后接受媒体采访时如是说。
具体而言,李飞飞从三个方面解释了数据库智能化的趋势:
第一,在PolarDB已经具备的NL2SQL、NL2BI的能力上进一步延伸,就可以在数据库内部实现结合大模型的一站式使用体验。
大模型在落地过程中,进行推理时采用的是RAG框架,对于大多数企业和开发者而言,这一框架使用起来会有一定的挑战性,如何简化大模型的使用,就成了一个关键问题。
第二,基于大模型的深度AI推理会变得越来越重要。
这样的需求对数据库提出了更高的要求,如今,阿里云PolarDB与通义千问大模型的对接工作也在紧锣密鼓的展开中,我们也会更加深度地使用智能化分析能力。
第三,我们需要通过技术创新来支撑数据库智能化。
例如,我们现在有专属的向量数据库,但是我认为除了专属的向量数据库,主流数据库同样需要增加对向量数据类型的支持,我们PolarDB在支持向量数据类型,也在做CPU、GPU等异构硬件的推理优化。
第四,数据库智能化运维。
自动驾驶汽车本质上是一个实时调参的系统,这方面,数据库智能化运维和自动驾驶汽车一样。我们PolarDB在推出三层架构后,内存资源池、存储资源池、计算资源池如何根据业务负载动态进行分配,分布式数据库架构如何做好分布式的资源分配等,将会越来越多地借助AI的力量。
实际上,就在大会现场,阿里云还邀请到了一位年仅11岁的小开发者,用一句大白话就能生成专业的SQL语言,还可获得可视化的数据分析结果。
在此之前,这位小开发者并没有太多的数据库知识基础。
这也正是数据库与智能化结合后的魅力所在。
好文章,需要你的鼓励
ETH Zürich等机构研究人员提出TrustVLM框架,解决视觉-语言模型预测可信度问题。该方法利用模型中存在的"模态差距",创新性地结合图像到文本和图像到图像的相似度,实现无需重新训练即可大幅提升误分类检测性能。在17个数据集的严格测试中,TrustVLM相比现有方法在关键指标上提升显著,同时改善了零样本分类准确率。此成果为AI系统在自动驾驶、医疗等安全关键领域的可靠部署提供了重要保障。
这项研究提出了个性化安全概念,解决大语言模型对不同用户采用统一安全标准的问题。研究团队创建了PENGUIN基准测试集评估模型在处理高风险场景时的个性化安全能力,并开发了RAISE框架高效获取关键用户信息。实验表明,提供用户背景可使安全分数提高43.2%,而RAISE框架通过平均仅2.7次交互即可提高安全分数31.6%。这一创新方法将AI安全从"一刀切"转向"个性定制",为高风险领域的AI应用提供了新思路。
明尼苏达大学研究团队提出了一种创新方法,通过回合级信誉分配显著提升大语言模型(LLM)智能体的多回合推理能力。传统方法只对整个过程进行评价,而他们的MT-GRPO算法能够精确评估每个决策步骤的价值,就像为每一步提供具体反馈。在维基百科搜索工具使用场景中,该方法实现了100%的工具执行成功率和50%的答案精确匹配率,远超传统方法。这一突破不仅提高了AI在多步骤任务中的表现,也为开发更复杂的AI系统提供了重要思路。
这篇研究介绍了PISCES——一种能精确从大语言模型参数中移除特定概念知识的创新技术。与现有方法不同,PISCES通过解缠器模型识别概念相关特征,直接编辑模型参数,实现了更精准的知识移除。在Gemma和Llama模型上的测试表明,该方法不仅有效降低了目标概念的准确率(低至7.7%),还保持了模型在无关领域的高性能,并显著提高了对"重新学习"的抵抗力。这一突破为AI系统的安全部署和合规使用提供了新的可能性。