“复杂性是不可避免的,复杂性随时都会出现,你需要考虑如何管理复杂性。”这是亚马逊副总裁兼 CTO Werner Vogels 在 re:Invent 2024 大会上对当今越发复杂的 IT 世界发出的感慨与警告。

Werner Vogels 无疑是一位传奇人物。他掌舵着亚马逊云科技全球最大分布式计算机系统之一已有二十载,他对复杂性的理解无人能出其右。在他看来,亚马逊云科技是一家提供“简单”服务为宗旨的高科技公司。比如云对象存储起源于 S3 或称作“简单存储服务”、Amazon SQS 是“简单队列服务”,Amazon SES 是一种“简单电子邮件服务”,而 Amazon SWF 则为开发人员提供“简单工作流服务”。
在这些看似简单的服务背后,是极其复杂的底层技术。Werner Vogels 强调,管理复杂性的关键在于区分有意和无意的复杂性。他指出:“如果不这样做,系统很快就会从灵活变得脆弱。”
数据库领域面临着同样的挑战。随着互联网的快速发展,应用程序的用户规模和地理分布日益扩大,企业对数据库性能和延迟的要求也水涨船高。传统的数据库架构在面对这些新需求时显得力不从心,用户不得不在 Consistency(一致性)、Availability(可用性)和 Partition Tolerance(分区容错性)之间做出艰难的选择。你很容易实现任何两个条件,但是要同时具备这三个特性就变得“不可能”,这就是数据库架构著名的 CAP “不可能三角”。
打破“不可能”,Amazon 数据库的兼得之道
re:Invent 2024 大会上披露了两款数据库:关系型数据库 Amazon Aurora DSQL 和非关系型数据库 Amazon DynamoDB Global Tables。一举打破了这个“不可能三角”,成为兼顾高可用性、低延迟和强一致性的数据库。
亚马逊云科技的关系型数据库从 2009 年至今已经过了 15 年的迭代,Amazon Aurora DSQL 作为 Amazon Aurora 新一代产品,是一款速度极快的分布式 SQL 数据库。具备以下特点:跨区域强一致性和低延迟。Amazon Aurora DSQL 采用了一种全新的事务处理方式,将事务处理与存储层分离,并在所有区域同时并行进行写入操作,从而实现了跨区域的强一致性和低延迟。
Amazon Aurora DSQL 提供了五个 9 的高可用性(99.999%),确保应用程序始终在线。
采用无服务器设计,无需进行基础设施管理,可自动扩展和缩减,甚至可以缩减到零规模,并且能与 PostgreSQL 兼容,便于用户快速上手。
在性能方面也毫不逊色,根据亚马逊云科技的基准测试,在多区域配置下,Amazon Aurora DSQL 的读写速度比 Google Spanner 快 4 倍。
Amazon Aurora DSQL 之所以能够取得如此优异的特性,主要得益于两项核心创新:分布式的架构以及 Amazon Time Sync Service 技术。Werner Vogels 介绍,Amazon Aurora DSQL 将数据库分解为多个独立的构建模块,每个模块都具有高内聚性和低耦合性,可以独立扩展和定制安全性,从而实现更高的性能和灵活性。
但随之而来的是数据一致性和时钟同步等难题。如何保证分布在全球各地的数据库节点能够按照统一的时间顺序处理事务,成为横亘在技术面前的一道鸿沟。Werner Vogels 的团队为全球每个 Amazon EC2 实例中添加与原子钟同步的硬件参考时钟,实现了微秒级的精准时间同步,解决了时钟漂移问题。
同样,这种多区域、强一致性和低延迟的能力并不局限于关系型数据库,Amazon DynamoDB global tables 也将获得同样的功能。同时,Amazon DynamoDB global tables 可应用于各种用例,包括书签、观看列表和个性化推荐。
用 AI 化繁为简,赋能未来
降低复杂性的重要手段是从本质上将复杂性分解成简单的单元。将新系统的设计尽可能包含可预测性,以消除不确定性。Werner Vogels 认为,“这需要就自动化以及如何利用自主技术来降低复杂性做出决定。”
毫无疑问,只有通过 AI、机器学习,将企业存储在关系型数据库以及非关系型数据库中的数据加以利用并唤醒,才能尽可能地消除企业面临的复杂竞争环境。
为此亚马逊云科技推出了新一代 Amazon SageMaker AI,试图打造一个 “All in One” 的机器学习平台,整合大数据分析、机器学习和生成式 AI 的关键功能,降低 AI 开发门槛,加速 AI 应用落地。
Amazon SageMaker AI 的发布并非简单的功能堆砌,而是基于多年来服务数百万客户积累的经验和对机器学习发展趋势的深刻洞察,旨在唤醒企业沉淀多年的历史数据、解决机器学习领域的核心痛点,推动 AI 民主化的进程,让企业在 AI 训练上没有难题。
Amazon SageMaker HyperPod flexible training plans 灵活训练计划:告别繁琐的资源管理,让开发者专注于模型本身。通过定义计算需求和训练时间框架,HyperPod 可以自动预留容量、设置集群、创建模型训练作业,并利用高效的检查点和恢复功能,在容量动态变化的情况下自动处理实例中断,无需手动干预,将数据科学团队从繁重的资源管理工作中解放出来。
Amazon SageMaker HyperPod task governance 任务治理功能:解决计算资源有限和昂贵的问题。通过自动化优先级排序和资源管理,HyperPod 任务治理功能可以将跨项目加速计算利用率提高到 90% 以上,并通过动态资源分配和实时洞察,最大限度地降低成本,提高效率。
Amazon SageMaker 合作伙伴 AI 应用支持功能(Al apps from AWS partners now available in Amazon SageMaker):打破生态壁垒,构建开放共赢的 AI 生态系统。通过与 Comet Deep、Jax、Fiddler 和 Lakhera 等领先的 AI 合作伙伴集成,Amazon SageMaker 为客户提供了更丰富的工具和解决方案,涵盖模型训练、评估、监控、安全等各个环节,并通过无缝、完全托管的体验,简化了应用程序集成和部署流程,保障了数据安全和隐私。
数据是源泉,AI 是未来
正如亚马逊云科技 CEO Matt Garman 所言,“人工智能是一场没有终点的竞赛。”而这场竞赛中,数据是核心,企业需要围绕数据的存储、分析、洞察不断改进企业的 IT 架构。
从 Data Rady 到 AI Rady ,亚马逊云科技正扮演着“造梦者”的角色,为我们提供了强大的平台与工具,让我们可以更加“简单地”构建和部署 AI 应用,将梦想变为现实。相信在不久的将来,我们将看到更多由 AI 驱动的创新应用涌现,深刻地改变着我们的生活和世界。
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。