今天周五啦~
轻松一下
小编来和大家讲个小故事
还记得当年声势浩大,被称为20世纪人类三大自然科学研究计划之一的“人类基因组计划”吗?
对,就是那个集美、中、英、法等世界多个国家之力,预计耗时15年和耗资30亿美元,旨在测定人类基因组全部DNA序列的项目。
人类基因组计划logo
不过这个项目在进行到第八年的时候,却发生了一段小插曲,正是这个小插曲,加速了人类基因组计划的完成。
今天的故事
我们就从这个小插曲展开
时间回到1998年
当时人类基因组计划正有条不紊地进行,这时突然冒出一个叫Celera的公司,竟然宣称说,他们可以用更少的资金(仅3亿美元),并在三年内完成这一项目!
? What?集世界上多个国家人力物力的项目,竟然抵不过一家私人公司?
显然,Celera公司是有备而来,他们有如此底气的原因就是采用了和人类基因组计划不同的测序策略——全基因组霰弹枪测序法。
简单来说,这项技术是将整个基因组直接切成许多小而重叠的片段,然后再统一将这些小片段直接进行“Sanger测序”,最后通过算法检测小片段之间的重叠部分来直接重构人类基因组,使得基因测序的速度更快。
此外,Celera公司还想申请对基因的专利保护,他们一开始宣称只寻求对200至300个基因的专利权保护,但随后又修改为寻求对“完全鉴定的重要结构”的总共100至300个靶基因进行知识产权保护。到1999年,Celera想要申请对6500个完整的或部分的人类基因进行初步专利保护。Celera公司的这一举动被认为会阻碍遗传学研究,而招致了批评。由此,人类基因组计划团队感受到了巨大压力,这使得他们不得不改进策略,进一步加速其工作进程。
最终,经过3年你追我赶,这个比赛有结果了。
2001年2月
双方握手言和,同时发布了完成度超过90%的人类基因组草图。这比原定计划提早了好几年,并且所有人类基因组数据为人类共同财富,不允许专利保护,且必须对所有研究者公开!
为庆祝人类基因组计划完成而发行的邮票
回过头来看,人类基因组计划对整个生命科学研究带来了深远影响,相关应用已大大超出了生命科学本身,推动了一系列相关产业的发展。想象一下,曾经需要全球数个国家花费数十年,耗资超过30亿美元的基因组测序,到今天只需几小时、几百元的成本。
不过,虽然技术在突飞猛进,但每个人身上大约31.6亿个碱基对却是始终不变,而这就带来了一个问题——数据量太大了。
基因测序的步骤是将细胞放入基因测序仪,以此启动破译流程。但人类基因组数量庞大,如果从头至尾全部测序工作量实在太大。因此,细胞中的DNA会被分解成更易于管理的很多个小片段。从本质上来说,测序仪就是拍摄所有片段的快照,并利用计算能力对快照进行初始分析,然后将分析结果按某种文件格式进行保存,以便在流程下一阶段进行处理。
在这个过程中,不仅需要强大的计算能力以快速得出分析结果,并且每一次的快照都会产生大量数据,而一个人完整的基因组测序数据文件大小约为200GB,随着近年来基因测序产业的火热,这给基因测序公司带来了巨大的IT挑战。
具体来说,海量基因数据带来的数据存储、计算、安全等多方面挑战,已成为行业进一步发展必须解决的问题:
◆ 数据存储:从最初的人类基因组开始细分扩展,目前基因测序技术已经涉及到肿瘤、遗传病检测,扩展到植物、远古生物、细菌、病毒、微生物的基因检测。因此,数据种类和数据量都异常庞大,经常以PB为单位保存。
◆ 数据计算:基因序列数目庞大,对基因进行同源性搜寻、比对、分析、遗传发育分析等需要对海量、复杂、多变的数据进行分析和挖掘。这要求海量计算资源的支持,对计算性能、内存容量、数据带宽等要求很高。
◆ 数据安全:基因数据较为隐私,但传统的基因公司IT能力较弱,安全措施不到位,防御能力很弱。
◆ 数据全球化:由于基因行业特殊性,很多样本数据需要到当地采集。如果有数据共享,就需要全球化的多数据中心支持。
应当如何应对?
戴尔易安信有办法!
在大规模样本的数据分析和挖掘方面,戴尔易安信可以提供高性能计算(HPC)、机器学习、人工智能、大数据分析等多种应用场景的解决方案。其中的生命科学HPC方案,可以根据临床要求,帮助生物信息学中心、遗传学中心经济快捷地将基因分析转为临床治疗方案。
? 在数据存储方面,戴尔易安信SC系列高端存储每个阵列可提供最大6PB原始容量,通过存储联邦技术可提供更多的存储容量,满足未来扩展需求。同时,在戴尔易安信SC存储上使用重复数据删除和数据压缩,能有效提高整个存储的利用率。
*戴尔易安信SC系列高端存储搭载英特尔®至强®可扩展处理器,可为任何企业提供未来就绪的性能、灵活性和长期价值。为SC系列高端存储提供了卓越的性能和效率,可对客户核心系统尤其是HPC系统进行支持。
? 在数据安全方面,戴尔易安信SC系列存储可以让客户以更加简单、自主可控的方式构建“双活+3DC”系统,实现真正的业务永续。同时,还提供全面的解决方案,满足复制、持续数据保护、快照、备份、归档的数据保护需求,例如DataDomain、Avamar、Networker、RecoverPoint、VPLEX、Unity、PowerMax、i2Box-Dell等等。
? 在数据共享、全球化、多数据中心方面,戴尔易安信端到端基础架构解决方案,将服务器、存储、网络和软件工具整合在一起。其优化的IT架构能够充分发挥服务器、存储、网络的高可用、高动态、高可扩展的特性,通过细粒度优化资源和以负载为核心的资源集中统一管理,提高资源利用率和管理效率,并降低新增采购成本。
同时,戴尔易安信解决方案与VMware虚拟化平台紧密整合,实现了服务器的虚拟化管理,从而为用户提供灵活的云服务。
当数据存储、计算与分析的
能力更上一层楼
基因研究等人类科学探索
也将获得更大助力
不断精进的道路上
戴尔易安信
一直都在...
尊敬的读者
数据量爆发的时代
企业需要什么样的存储设备与技术
来应对呈指数级增长的数据压力?
不同行业的企业
需要怎样的存储解决方案
来彻底释放大数据的价值?
存储作为现代化数据中心建设中关键的一环
将如何助力企业为迎接大数据挑战做好准备?
戴尔科技精品课堂
带您走进下一代存储
挖掘存储联邦技术的价值
相关内容推荐:全球IT圈票选存储领域最佳品牌企业
相关产品:Dell EMC PowerStore X 系列存储
好文章,需要你的鼓励
微软CEO纳德拉发布视频展示公司首个大规模AI系统,该系统配备超过4600台英伟达GB300机架计算机和Blackwell Ultra GPU芯片。微软承诺将在全球部署数十万块Blackwell Ultra GPU。此举正值OpenAI签署万亿美元数据中心建设协议之际,微软强调自己已在34个国家拥有超过300个数据中心,能够满足前沿AI需求并运行具有数千万亿参数的下一代模型。
UniPixel是香港理工大学与腾讯联合开发的突破性AI系统,首次实现了视频理解与精确物体标注的统一。该系统通过创新的对象记忆银行设计,让AI能够理解用户的点击、框选等自然交互,同时提供准确的视觉标注和智能问答。在多项权威测试中创下新纪录,并开创了PixelQA这一新的评测标准。该技术在教育、医疗、内容创作等领域具有广阔应用前景。
文章探讨了AI在心理健康治疗领域应用的现状和挑战。作者认为,虽然AI治疗具有可及性强、成本低廉、使用便捷等优势,但通用生成式AI并非专为心理治疗设计,存在不确定性风险。文章提出治疗师-AI-客户三方模式,建议在专业指导下合理使用AI辅助治疗。作者强调需要更多理性、深入的讨论来正确认识AI心理治疗的机遇与风险。
IIT海德拉巴研究团队开发DIWALI数据集,首次系统评估大语言模型的印度文化适应能力。该数据集包含8817个文化概念,覆盖36个地区17个类别,研究发现现有AI存在严重文化偏见和表面化适应问题,为AI文化智能发展提供重要基础数据和评估标准。