在大数据时代,海量数据不断产生。企业数据量预计每18到24个月就会翻一番,且增速未见放缓。同时,企业数据的范围越来越广,从客户信息、财务交易、边缘计算到IT运营服务日志,各路数据汇聚成了“数据海洋”。
云计算架构的快速发展带来了更多数据处理方案。边缘、内部部署、公有云和私有云产品层出不穷,按需随选和一切即服务(as a service)解决方案也在迅速扩张。毋庸置疑,我们处在一个多云世界,数据几乎可以被存储在任何地方。从中挖掘数据价值对于企业至关重要,却也绝非易事。
在琳琅满目的云解决方案中,Cloudera的与众不同之处就在于帮助企业有效处理和管理存储在任何地方的任何数据。Cloudera 所提出的企业数据云理念正是这个全面云化时代中的沧海明珠。
在云计算发展早期,公有云似乎可以满足IT部门的所有需求。公有云所提供的简单模型,能够节省企业数据中心扩张带来的成本。然而其弊端也很快暴露出来,数据可能会被供应商锁定,导致企业无法随需应用,但转移出来成本又很高。面对这些问题,IT部门从实际经验中总结了一条真理——更多选择,绝不设限。数据和工作负载应该被放在最便于应用且能够创造价值的地方。企业的多样化部署,造就了今天的混合和多云世界,也带来了管理多个环境中数据的诸多挑战。
Cloudera的愿景是建立现代数据架构,帮助企业从数据中快速获得价值。数据管理应该从边缘处的数据创建开始,直至最终的数据处理,无论是在公有云、私有云,还是本地数据中心。这种贯穿数据整个生命周期的管理方式,支持Cloudera平台能够打通企业内部的数据孤岛,让相关业务部门能够获得其所需数据。毕竟,数据只有在对整个企业都实时可见、且被应用时,才真正能够释放价值。
业界普遍认为,非结构化数据是企业数据的主要组成部分。在下一个十年里,非结构化数据在所有数据中的占比预计将达到80%。为了管理这些数据,首先需要了解它们。企业需要对元数据进行规范化和分类,并且从经济和运营角度考虑,将数据存放在最能产生价值的地方。任务虽然艰巨,但Cloudera在这一领域独具优势。Cloudera的产品在全球范围内管理着超过40万台服务器,从5EB数据中为企业不断挖掘有价值的数据洞察。
Cloudera在借助AI和机器学习管理数据领域已经深耕多年。Cloudera认为,任何企业的数据战略都必须跨越边缘到云,数据管理必须自始至终。2019年1月Cloudera宣布与Hortonworks合并。这两家企业的强强联手,使Cloudera一跃成为全球数据管理市场的佼佼者。Cloudera的传统AI驱动数据管理与Hortonworks端到端数据管理方式相结合,创建了全球领先的下一代数据平台Cloudera Data Platform。Cloudera希望为企业提供一个本身即是多云且多功能的平台,用于管理企业数据云。通过统一的平台界面,对数据进行整个生命周期管理,并提供一致的安全和治理服务。
两家企业的合并十分顺利,短短9个月,Cloudera就推出了公有云版本的Cloudera Data Platform,其中包括Cloudera Data Warehouse和Cloudera Machine Learning服务,目前已在AWS和Microsoft Azure上商用。除了将边缘和云中数据管理整合在现有解决方案中,Cloudera目前的重点在于为CDP提供私有云功能。上述功能的测试版将于今年夏天正式推出。
Cloudera面对的是一个260亿美元的巨大市场。未来三年内,市场规模预计将会翻倍至520亿美元,这无疑是一个巨大的发展机遇。尽管市面上有很多企业数据管理产品,但是能够纵观全局、提供从边缘到云的一致性体验和全套功能的产品却很少。Cloudera将借此机会定义未来15至20年后的数据管理方式,并对新一代IT技术产生深远影响。
好文章,需要你的鼓励
三星与AI搜索引擎Perplexity合作,将其应用引入智能电视。2025年三星电视用户可立即使用,2024和2023年款设备将通过系统更新获得支持。用户可通过打字或语音提问,Perplexity还为用户提供12个月免费Pro订阅。尽管面临版权争议,这一合作仍引发关注。
浙江大学团队提出动态专家搜索方法,让AI能根据不同问题灵活调整内部专家配置。该方法在数学、编程等任务上显著提升推理准确率,且不增加计算成本。研究发现不同类型问题偏爱不同专家配置,为AI推理优化开辟新路径。
苹果M5 MacBook Pro评测显示这是一次相对较小的升级。最大变化是M5芯片,CPU性能比M4提升约9%,多核性能比M4 MacBook Air快19%,GPU性能提升37%。功耗可能有所增加但电池续航保持24小时。评测者认为该产品不适合M4用户升级,但对使用older型号用户仍是强有力选择。
清华大学研究团队提出SIRI方法,通过"压缩-扩张"交替训练策略,成功解决了大型推理模型"话多且准确率低"的问题。实验显示,该方法在数学竞赛题上将模型准确率提升43.2%的同时,输出长度减少46.9%,真正实现了效率与性能的双重优化,为AI模型训练提供了新思路。