LY Corporation是一家日本互联网巨头,旗下业务涵盖即时通讯、电子商务和支付等领域,在亚洲多个国家占据重要地位。该公司近日披露,正计划将高度定制化的OpenStack云平台替换为更标准化的开源云架构,并在此过程中推进大规模的资源整合。
LY Corporation于2023年由雅虎日本与韩国即时通讯巨头LINE合并成立,目前正致力于将双方的基础设施整合至一个名为"Flava"的全新统一云平台,以支撑旗下各项服务的稳定运行。由于LINE即时通讯应用和雅虎门户网站的月活用户总量约达3亿,该云平台需具备相当规模的承载能力。
上周末,该公司透露:LINE的内部云平台"Verda"由运行在11,000台主机上、分布于4个OpenStack集群的130,000台虚拟机组成;雅虎日本的"YNW"云平台则运行于27,000台服务器之上,超过160,000台虚拟机分散在160多个OpenStack集群中。
根据新"Flava"云平台的建设规划,目标是实现500台以上主机、9,000余台虚拟机,并统一整合至单一OpenStack集群。此外,公司还采用了开源的Envoy代理、Linux操作系统、扩展型伯克利包过滤器(eBPF)、快速数据通道(XDP)、FRRouting(FRR)以及Ceph存储系统。
LY云基础设施部门负责人Ryuutarou Inoue表示:"旧有云平台对OpenStack进行了过多自定义修改,导致升级工作举步维艰。Flava采用的架构紧跟OpenStack上游版本,将定制补丁控制在最低限度,若确实需要功能性变更,我们会主动向上游社区贡献,争取将其合并至主项目。"
他补充道:"通过消除升级障碍,我们实现了常态化的更新节奏,使安全防护和最新特性始终保持在线。"
Inoue还表示,LY力求"避免将可用性保障的过度投入集中在基础设施层",转而以"故障随时可能发生"为前提进行设计。他介绍,Flava的设计理念围绕以下三大"支柱"展开:
在可观测性方面,LY同样高度重视。Inoue表示,其团队借助Prometheus、Grafana及内部仪表盘"持续监控云平台整体健康状况与趋势,以便及早发现异常迹象"。一旦上述工具发出预警,"我们会深入分析内核级追踪记录和数据包捕获等底层信号,精准定位根本原因"。
Inoue坦言,LY"每天都会在某处发生硬件故障",全靠人工处理根本无法实现。他写道:"目前,我们已将大部分流程自动化,从故障检测、发起现场数据中心操作请求,到将替换后的硬件重新接入集群,均已实现自动化处理。不过,仍有部分任务和非常规故障模式需要工程师亲自介入。未来,我们计划将大语言模型引入这些需要大量人工决策的工作流程,进一步提升自动化水平。"
值得关注的背景是,LY此前曾出现严重的信息安全事故,导致用户数据泄露,日本政府已就此要求该公司对技术架构进行整改,以提升安全性与隐私保护水平。
Q&A
Q1:LY Corporation的Flava云平台和原有云平台相比有哪些主要变化?
A:Flava相比原有的Verda和YNW云平台有大幅简化。原有体系共涉及超过160个OpenStack集群、约27万台虚拟机和数万台服务器;而Flava的目标是整合为单一OpenStack集群,搭载500台以上主机和9,000余台虚拟机。此外,Flava减少了对OpenStack的自定义修改,采用更贴近上游版本的标准化架构,以降低升级难度,保持安全更新的持续供给。
Q2:LY Corporation为什么要推进云平台整合?
A:主要有两方面原因。一是原有云平台对OpenStack进行了大量自定义修改,导致版本升级极为困难,安全和功能更新无法及时跟进。二是LY此前发生过严重的信息安全事故,用户数据遭到泄露,日本政府因此要求该公司对技术架构进行整改,提升安全与隐私保护能力,这也加速了Flava整合项目的推进。
Q3:LY Corporation如何处理每天发生的硬件故障?
A:LY Corporation已将硬件故障处理流程高度自动化,覆盖从故障检测、发起现场数据中心操作请求,到将替换硬件重新接入集群的全流程。同时,团队使用Prometheus、Grafana及内部仪表盘持续监控云平台健康状态,发现异常时会深入分析内核级追踪和数据包捕获信息。对于仍需人工介入的复杂故障,公司未来计划引入大语言模型辅助决策,进一步推进自动化。
好文章,需要你的鼓励
曾以羊毛鞋闻名的Allbirds,在2021年以40亿美元估值上市后持续亏损,销售额下滑近50%。公司近日宣布以3900万美元出售品牌及资产,并计划更名为NewBird AI,转型为GPU即服务(GPUaaS)云计算提供商,拟向匿名投资者融资5000万美元。消息公布后,股价最高飙升721%。沃顿商学院教授直言,这与其说是"战略转型",不如说是借助上市公司壳资源追逐AI热潮的资本游戏。
多伦多大学研究团队开发了ThinkTwice训练方法,让AI模型学会"思考两次"——先解题再自我改进。该方法仅依靠最终答案正确性信号,无需额外标注,在数学推理测试中显著提升AI性能。在AIME难题上,直接推理提升5个百分点,自我改进后提升11.5个百分点,为AI自我反思能力开辟新路径。
科技创业者Aron D'Souza接受专访,详述其新创公司Objection的核心理念:借助AI与前执法人员组成的调查团队,对公开报道进行事实核查。他引用盖洛普数据,指出美国媒体信任度50年间从70%跌至30%,认为现有新闻问责机制存在结构性缺陷。访谈中双方就匿名信源保护、亿万富翁背书、平台中立性及言论自由等议题展开激烈交锋。
这项由北京大学多个院系联合开展的研究发现,现有AI智能体在模拟人类行为时存在严重的"行为僵化"问题,而让AI进行更多推理步骤反而会加剧这种刻板化,使模拟出的人群行为越来越极端单一。研究团队提出了"情境-价值-行动"(CVA)架构,借鉴心理学S-O-R模型和施瓦茨价值观理论,通过动态价值激活和独立价值验证器,显著提升了AI行为模拟的真实性和多样性,相关成果已被ACL 2026接收。