资讯专栏INFORMATION COLUMN

当Hadoop遇上DNA遗传科学

xingpingz / 3213人阅读

摘要:表示公司招募了一些数据科学家,最初我认为他们可以用已有的技术配合机器学习等技术来改善算法。从开始的技术人生集群软件语言预测分析以及机器学习等技术的引入对的基础架构是一次巨大的飞跃,在此之前他们一直在使用基于规则的系统。

对于Ancestry.com(家谱网)的 技术总监Scott Sorensen来说,大数据其实并不陌生。长久以来,Sorensen和他的同事都在使用Apache Hadoop以及其他的开源工具来进行数据处理和分析。然而想要将Hadoop架构与DBA数据处理联系起来,这就极具挑战,其中之一就是团队建设。

据了解,Ancestry.com是一家家谱在线服务网站,它拥有10 PB的家族遗传数据,Sorensen和他的团队需要在海量数据集中进行信息的检索。

Sorensen透露,他们构建了自己的搜索引擎,并对算法以及记录连接软件进行了仔细的调优,该软件可以对网站的结构化数据和非结构化数据进行遍历。Ancestry.com网站包含了大量出生、死亡、人口普查以及其他相关记录,这些记录大多是非结构化数据。

随着用户以及家族数据的不断增长,Ancestry.com希望改善其信息检索的算法。对于Sorensen来说,这是他在公司12年的历史中最具挑战性的任务之一。他的团队认为,通过使用网站访问者导航可以对算法进行优化。

Sorensen表示:“公司招募了一些数据科学家,最初我认为他们可以用Ancestry.com已有的技术配合机器学习等技术来改善算法。但最终他们 并没有这样做,而是选择了使用的工具。因此我们把Hadoop、MapReduce以及R语言引入了Ancestry.com的工具集。”

 

 

不一样的代码

Ancestry.com的团队使用Hadoop架构来对搜索进行优化,同时对客户流失率进行预测建模。在一年半以前,公司开始使用Hadoop以及相关的HBase NoSQL列式数据存储来对AncestryDNA产品进行扩展。该产品使用染色体DNA测试技术来为用户提供更好的服务,甚至能够对远亲进行准确识别,从而让Ancestry.com获得用户的认可。

据Sorensen介绍,这其中涉及到大量的操作。大约有70万个DNA样本要与Ancestry.com数据库汇总已有的相同数量样本进行配对比较。这 就是Hadoop以及数据科学家要做的主要工作。Sorensen的团队对学术算法进行了改写,从而可以在Hadoop和HBase上运行并行的任务,这 样做可以大大提升海量数据处理的速度。

 

 

当科学家遇到软件工程师

让Hadoop架构以及HBase应用到DBA数据匹配上,这不是一个简单的工作,它需要团队的主管人员有灵活的头脑。Sorensen以及其他部门的主管需要创建这样一个环境,能够让科学家与IT技术人员良好协作的环境。

Sorensen认为这个任务是非常艰巨的,因为科学家和软件工程师互相认为可以有能力做对方的工作。数据科学家拥有生物信息学的博士学位,他们认为自己 可以写代码。但是他们从来没写过生产环境的代码,这需要是一致、可扩展、可维护的代码。另外一方面,软件工程师认为他们可以去做统计,可以读懂学术论文, 而且他们高中时都学过生物。所以他们觉得自己可以掌握基因学的相关知识。

这样的组合就像是博弈。数据科学家的工作可能太过学术,不太易懂;而软件工程师的代码写出来之后也不能充分利用到数据科学家的工作。于是Sorensen决定让双方真正坐下来,面对面地进行沟通。

Sorensen说:“当双方坐下来之后,我们成功的几率就大大增加了。它改善了两组人之间的知识传递。软件工程师能够理解数据科学家的需求,因此能够以他们想要的方式来编写代码,构建系统。”

 

 

从OS/2开始的技术人生

Hadoop集群软件、R语言预测分析以及机器学习等技术的引入对Ancestry.com的IT基础架构是一次巨大的飞跃,在此之前他们一直在使用基于 规则的系统。Sorensen透露,在职业生涯初期,他是一名IBM的OS/2开发者。这样的变迁他经历了不少,后来他还在WordPerfect、 Novell 以及 CoreSoft Technologies等公司担任软件开发经历的职务。

在离开CoreSoft之后,Sorensen来到了Ancestry.com。当时正值2000年技术泡沫破裂的时期,不可否认他急需接触一些新鲜的技 术。Sorensen想要在有趣的公司快节奏地工作,解决这样那样的技术挑战。在Ancestry.com公司的十年中,他一路从搜索部门VP做到电子商 务的VP,在从研发部门的SVP做到了公司的技术总监。

Sorensen表示,他的职业生涯没有什么特别的主题,而是由一系列有趣的挑战编织而成。在技术领域里,Sorensen认为自己从来没有觉得过无聊,他的兴趣在于发现新的问题,学习新的知识而最终能够解决问题。学无止境,与广大技术人共勉!

 

 

本文转载自:http://www.searchbi.com.cn/showcontent_78872.htm

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3839.html

相关文章

  • 第三代基因测序技术革新 云计算的应用

    摘要:第三代基因测序技术革新云计算的应用一位准妈妈,在怀孕周时,需要做唐氏儿的筛查,传统唐筛的方式准确率低,如果结果显示危险性高,那么准妈妈还需要做羊膜穿刺等进一步检查。未来组目前已经拥有两台第三代基因测序仪,而未来这一数字将增长至五台。 第三代基因测序技术革新 云计算的应用一位准妈妈,在怀孕12-24周时,需要做唐氏儿的筛查,传统唐筛的方式准确率低,如果结果显示危险性高,那么准妈妈还需要做...

    RaoMeng 评论0 收藏0
  • 云计算和大数据延伸至生命信息领域:生物云计算

    摘要:华为生科云解决方案,由工作流弹性计算云对象云存储线下数据寄送服务四部分组成,为客户提供端到端的解决方案,助力中国科研数据分析,演绎了生物与计算的完美结合。 随着互联网的普及和技术的发展,大数据和云计算已经渗透在人们的生活的各个方面,在金融,零售,能源,交通等领域已经得到广泛应用。而对于生物信息来说,生物的DNA、基因序列、生物芯片等无时无刻不产生新的数据;比如说,DNA测序每年能够产生大约1...

    ethernet 评论0 收藏0
  • PHP设计模式(九):原型设计模式

    摘要:原型设计模式中的构造函数使用创建新对象时,并不会触发类的构造函数。事实上,使用构造函数并不一定是一个好的设计,由于构造函数内的逻辑无法被外部控制,当需要修改一个类构造时的逻辑时,除了修改类的构造函数实现以外,别无他法,这破坏了类的封装。 原文地址:PHP设计模式(九):原型设计模式 Introduction 在PHP设计模式(八):工厂模式中我们介绍了创建设计模式(Creation p...

    warnerwu 评论0 收藏0
  • 基因遇上云计算:让疾病预防再简单一点

    摘要:简基让疾病预防提上日程人类基因组计划共国参与,花费年亿美金。正是这一案例让凌之浩对基因检测在疾病预防上的意义有了进一步的认识,从基因数据开始,对高风险疾病早关注早预防。2017年,毕业于德国马克思普朗克生态化学研究所,师从美国科学院院士Ian. T. Baldwin教授的凌之浩回国短暂停留,这一次他对国内基因发展环境有了新的感受。欧洲虽然生活安稳悠闲,但相对发展空间有限,国内基因科技领域环境...

    h9911 评论0 收藏0
  • 云计算让精准医疗走进生活

    摘要:为推进精准医疗的深化应用,去年,华大基因还和英特尔阿里云共建中国乃至亚太地区建立了首个定位精准医疗应用云平台。云到端等技术创新,加上医疗和信息产业间的分工协作,无疑将推动中国精准医疗行业的整体发展。   2016年是十三五的开局之年,也是中国医疗卫生行业的关键一年。现在看来,也会是医疗行业和以大数据为代表的信息技术相互融合发展之年。今年4月,国务院办公厅印发《深化医药卫生体制改革2016年重...

    kyanag 评论0 收藏0

发表评论

0条评论

xingpingz

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<