大数据处理平台Spark及其生物医学应用(3)
时间:2015-05-27 16:21 文章来源:http://www.lunwenbuluo.com 作者:范炜玮 赵东升 点击次数:
2.2医学大数据Spark应用案例
随着Spark平台不断发展完善,一些医学研究机构开始使用Spark来提高数据处理能力。
美国的霍华德·休斯医学研究所使用250个节点的Spark集群进行大脑工作机制的研究,通过统计分析、回归分析、降维和聚类分析处理1TB/min的影像数据,可在几秒钟之内对6800万条时间序列进行处理,研究大脑不同区域在处理特定方向移动时的表现,生成大脑对方向响应的高清区域图。采用SparkStreaming实时监视神经元,以此来发现神经元之间的互相影响。该研究是Spark用于处理医学大数据的成功尝试,在2013年Spark峰会上引起了强烈反响和关注。他们的研究一直持续,并在2014年Spark峰会上开源了一个寻找模式复杂、高维神经反应的库“Thunder”,采用SparkStreaming和MLLib进行流处理和机器学习算法的整合,适用于多种神经数据的处理。
基因组学大数据分析在临床医疗尤其是个性化医疗中将发挥非常关键的作用。2014年Spark峰会上,加州大学伯克利分校的研究人员介绍了他们将Spark引入到在基因组学研究中的部分成果。短读基因序列校准器是数据处理中最昂贵的步骤之一,他们研发的基于Spark的核苷酸排列程序(ScalableNucleotideAlignmentProgram,SNAP)是迄今为止最准确和最快的校准器,使此类数据的处理速度比之前快3~10倍。ADAM是一个基于Spark的高性能DNA测序数据分析流程,能够执行复杂的计算密集型任务。使用一个82个节点的Spark集群,ADAM可以用比其他系统快50~110倍的速度来执行基因学中两个最关键的步骤。他们还将Spark处理平台用于识别个体和参考标准之间的差异,提出了一种具有合适评价指标的基因组学基准SMASH。
3小结
Spark作为一个开源的大数据处理平台,以其内存计算、可伸缩及高效的容错特性,与分布式文件存储系统、分布式数据库结合使用,配合其丰富的生态系统,解决了数据增长和处理性能需求之间存在的瓶颈问题。Spark能够满足医学信息处理中以交互式查询和迭代计算为代表的统计分析、数据挖掘、图形计算等各种数据处理需求,可用于临床转化医学研究、基于海量原始数据的实时卫生统计和辅助决策、文献挖掘、流行病预警和预测,加速从发现知识到实际应用的过程,将在生物医学大数据处理分析中得到更广泛和深入的应用。
- 论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
- 论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
-
- 论文投稿客服QQ:
2863358778、
2316118108
-
- 论文投稿电话:15380085870
-
- 论文投稿邮箱:lunwenbuluo@126.com