把基因组上传到云端
2014-11-11 佚名 果壳网
近日,Google正式推出了Google Genomics,这一产品可以让科学家把基因组数据存储在云端,并对DNA序列进行研究和共享。 其实从18个月前,Google就开始着手Google Genomics的建立了,包括会见科学家,以及搭建界面和应用程序接口。凭借这些,Google可以将DNA数据存储在自己的服务器集群上,并利用这些数据进行实验。其中用到的数据库技术与Google索引和用户
近日,Google正式推出了Google Genomics,这一产品可以让科学家把基因组数据存储在云端,并对DNA序列进行研究和共享。
其实从18个月前,Google就开始着手Google Genomics的建立了,包括会见科学家,以及搭建界面和应用程序接口。凭借这些,Google可以将DNA数据存储在自己的服务器集群上,并利用这些数据进行实验。其中用到的数据库技术与Google索引和用户追踪技术相同。
随着实验室不断引进速度更快的新设备来解码DNA,数据量正在经历一种爆发式的增长。例如马萨诸塞州一家研究所在10月份时,每32分钟就能解析出约等于一个人的基因组的数据,相当于200TB的原始数据。不过,这点数据量和这些互联网公司每天处理的数据相比,还是要小得多——YouTube一天的上传量就相当于该研究所2个月的数据量。
这些超出任何个人的处理能力的海量数据必须要有一个数据中心。美国国家癌症研究所就表示,将斥资1900万美元,把约2.6PB(1PB=1024TB)的癌症基因组图谱上传至Google Genomics和亚马逊的数据中心。这样做的目的在于打造一个“癌症基因组云数据库”,科学家可以借助这一平台,像使用网页搜索一样快捷便利地分享信息和进行模拟实验。
目前,Google Genomics上已经存储了至少3500个来自公共项目的基因组。在Google Genomics存储一个基因组的价格为25美元/年,如果需要对数据进行计算还将额外收取费用。一个人的基因组原始数据大小约为100GB,而经过压缩后将不到1GB,也就是说只需要25美分。
这项技术使得今后医学或将依赖于某种“全球DNA网络”,医生将可以在这个网络中搜索他需要的内容。比如对癌症患者,医生就能对他进行基因测序,然后将他正常细胞和肿瘤细胞的基因组与数据库中的5000万个基因组进行匹配,然后给出最合适的药物。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
未来是数据时代,云时代。
139