期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

大数据处理平台Spark及其生物医学应用(2)

时间:2015-05-27 16:21 文章来源:http://www.lunwenbuluo.com 作者:范炜玮 赵东升 点击次数:


  1.2.5采样近似计算查询引擎(BlinkDB)BlinkDB(http://blinkdb.org/)是一个在海量数据上运行交互式查询的大规模并行查询引擎。它通过维护一组多维样本的自适应优化框架和动态样本选择策略,允许用户权衡数据精度来提升查询响应时间性能,而数据会被限制在误差范围以内。在2012年超大规模数据库(VeryLargeDatabase,VLDB)会议上的一个演示中,BlinkDB对17TB数据的一组查询不到2s即可完成,比Hive快200倍,而错误率在2%~10%之间。
  1.2.6分布式内存文件系统(Tachyon)Tachyon(http://tachyon-project.org/)是一个高容错的分布式文件系统,允许文件以内存的速度在计算机集群中进行可靠的读写和共享,以达到提高效率的目的。项目开发者提出了一种在存储层利用“世系信息”(lineage)的容错机制,克服了传统写操作中数据同步的瓶颈,在测试中比HDFS快110倍。
  2Spark在生物医学大数据中的应用
  2.1生物医学大数据来源及特点
  当前的生物医学大数据主要包括以下5大类,以高通量测序为代表的生命组学数据,以靶向药物研发为代表的药物研究实验产生的过程数据,以电子病历为代表的临床医疗服务数据,以居民电子健康档案为代表的个人健康监测与健康管理数据,以疾病监测和卫生监督为代表的公共卫生管理数据。这些数据与电子商务、社交媒体等互联网大数据相比,具有明显的不同。
  互联网大数据的样本量至少在亿级,例如,淘宝2014年“双十一”促销活动1天就产生了2.78亿笔交易。但其每个样本只是一次交易记录,结构化较强,样本的属性数量不会超过100个。同时,其数据分析主要是基于人群分类的广告推荐等,计算结果不需很精确。而医疗数据涉及到人的生命安全,对其进行分析研究,要求结果要很精确。
  2.1.1生命组学大数据目前的单个研究样本量不大,但每个样本的数据量很大且复杂度高,是典型的“小样本大数据”。以“国际千人基因组计划”为例,总样本量只有1200人,但每个人的全基因组测序数据量很大,根据测序深度的不同可达数十甚至数百GB,因此该项目数据总量很大,经过整理后达50TB;同时,数据结构复杂、维度很高,每个人的原始数据包含几千万短串序列,覆盖3万条基因的各种信息。因此,对其挖掘分析技术要求很高。
  2.1.2临床医疗大数据样本量较大,一家三甲医院每年可产生上百万条门诊纪录、几万份住院病历,单个样本的数据量比基因测序数据小,但描述样本的信息复杂、关联度强,因此是“大样本复杂关联数据”。以中医医院的临床信息系统为例,对每个就诊患者而言,既有门诊、住院、实验室检验等结构化和半结构化数据,也有病理分析、B超、PACS影像等大量非结构化数据;既有按照中医诊疗方法和术语规范产生的数据,也有按照现代西医标准产生的数据。此外,临床医疗数据天然地具有分布式特性,医疗机构信息系统内部及与其他卫生机构信息系统之间还存在数据标准不统一、融合性差等问题。因此,临床医疗大数据研究的重点在于如何标化整理这些数据、基于大数据的循证医学以及个性化医疗。
  2.1.3公共卫生大数据样本量很大,但每个样本的数据量较小,结构简单,需要融合不同类别的监测数据进行分析。以我国传染病监测报告为例,监测的样本量数以亿计,而每条记录仅为几十个特定的结构化字段。但为了监测和预测传染病暴发,需要同时对传染病报告数据、症状群监测数据、互联网搜索热词数据、环境气象数据进行融合分析,才能得出较准确的结果。因此,公共卫生大数据是融合大数据。
  生物医学大数据的应用场景包括医学研究、个性化医疗、卫生统计决策、流行病预警和趋势预测等,其处理分析主要集中在清洗转换、特性抽取、语义建模、分类、聚类、序列分析、关联分析和回归分析等方面,对迭代计算、交互式查询和计算精度的要求都很高。

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

相关内容

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli