资讯专栏INFORMATION COLUMN

从Hadoop 说起 六个真实的大数据应用案例

NervosNetwork / 1957人阅读

摘要:每个月有万人使用,产生大量数据。真实数据达到级别,有更多属性字段。个性化广告定制根据个体用户进行不同的内容剪辑。在全球拥有个以上数据中心,管理超过万台服务器。年宣布在自己的云平台使用建立于的技术,并开源自己的云平台软件。

案例主要关注三个问题:数据从哪里来?数据如何存储?数据如何计算?

1. Last.fm

 Last.fm


1.1 背景
创建于2002年,提供网络电台和网络音乐服务的社交网络。每个月有2500万人使用Last.fm,产生大量数据。现在有了中文版http://cn.last.fm/,界面很不错!

2006年初,Last.fm开始使用Hadoop,几个月后投入实际应用。Hadoop是Last.fm基础平台的关键组件,有2个Hadoop 集群,50台计算机,300个内核,100TB的硬盘空间。在集群上,运行数百种各种日常作业,包括日志文件分析,A/B测试评测,即时处理和图表生成。

1.2 图表生成

图表生成是Hadoop在Last.fm的第一个应用。

1.3 数据从哪里来

Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫radio listen电台收听数据。

1.4 数据存储

收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid,这首 音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。

1.5 数据处理

1.5.1 Unique Listeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。
1.5.2 Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。
1.5.3 合作作业:每首歌的被多少不同用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数。
1.5.4 这些数据会被作为周排行榜等在Last.fm主站上显示出来。

 

 

 

2. Facebook

facebook

 

2.1 背景

Facebook社交网络。
开始时,试用一个小Hadoop集群,很成功。同时开始开发Hive,Hive让工程师能用SQL语言处理Hadoop集群的数据,毕竟很多人更熟悉 SQL。后来,Facbook运行了世界第二大Hadoop集群,数据超多2PB,每天加入10TB数据,2400个内核,9TB内存,大部分时间硬件满 负荷运行。

2.2 使用情况

2.2.1 在大规模数据是以天和小时为单位产生概要信息。如用户数,网页浏览次数,网站访问时间增常情况,广告活动效果数据,计算用户喜欢人和应用程序。
2.2.2 分析历史数据,以设计和改进产品,以及管理。
2.2.3 文件存档和日志查询。

2.3 广告分析

2.3.1 cpc-cost perclick点击数计费,cpm-cost per mille每千人成本。
2.3.2 个性化广告定制:根据个体用户进行不同的内容剪辑。Yahoo!的SmartAds,Facebook的Social Ads,Engagement Ad广告意见/嵌入视频交互。Facebook每天处理1TB数量级广告数据。
2.3.3 用Hive分析A/B测试的结果。
2.3.4 Hadoop和Hive分析人气网站,生物信息公司,原油勘探公司,在线广告。

 

 

 

3.Nutch搜索引擎

Nutch 搜索引擎

 

3.1 Nutch框架用户建立可扩展的crawler网络爬虫和搜索引擎。

3.2 架构

3.2.1 crawlDb网页数据库:跟踪网络crawler抓取的网页和它们的状态。
3.2.2 fetchlist爬取网页清单:crawler定期刷新web视图信息,下载新的网页。
3.2.3 page content原始网页数据:从远程网站下载,以原始的未世界的格式在本地存储成字节数组。
3.2.4 解析的网页数据:Nutch为html, pdf, open office, ms office, rss提供了解析器。
3.2.5 linkdb链接图数据库:page rank来的。
3.2.6 lucene全文检索索引:倒排索引,基于搜集到的所有网页元数据和抽取到的纯文本内容建立。

3.3 使用情况
Nutch使用Hadoop作业处理数据。

 

关于Nutch:

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

 

 

 

4 Rackspace

Rackspace

4.1 背景
Rackspace hosting为企业提供管理系统。在数百台服务器上为100万用户和几千家公司提供邮件服务。

4.2 使用情况

日志分析。发送邮件需要使用多个postfix邮件代理服务器,大部分消息穿越多个Postfix服务器,但每个服务器只知道邮件的目的地,为了给消息建立完整的历史信息,需要用Hadoop处理日志记录。

4.3 使用方式
在数据中心, syslog-ng从source机器传统日志数据到一组负载均衡的collector收集器机器。在收集器上,日志数据被汇集成一个多带带的数据流,用gzip格式进行轻量级压缩。
当压缩的日志流到达本地收集器,数据会被写入Hadoop,这一步用简单的python脚本写入即可。
Hadoop集群有15个数据节点,每个节点使用普通cpu和3个500G硬盘。

4.4 计算
每个电子邮件有一个标示符号queue-id。每个电子邮件有一个的message-id,但恶意客户端会重复发送消息,所以message-id会被伪造。
在Postfix日志,需要用queue-id查找message-id。
第一步,以queue-id为健,进行map,把日志log的每个分配给对应的queue-id,然后,执行reduce过程,根据日志消息数值判断queue-id的发送过程是否完整。
第二步,根据message-id对第一步的结果进行分组,以queue-di和message-id同时为键,以它们对应的日志行作为值,在reuce阶段,判断针对某个message-id的所有queue-id是否合理,验证消息是否离开系统。

 

关于Rackspace:

Rackspace (NYSE:RAX)全球三大云计算中心之一,1998年成立,是一家全球领先的托管服务器及云计算提供商,公司总部位于美国,在英国,澳大利亚,瑞士, 荷兰及香港设有分部。在全球拥有10个以上数据中心,管理超过10万台服务器。Rackspace的托管服务产品包括专用服务器,电子邮 件,SharePoint,云服务器,云存储,云网站等。在服务架构上提供专用托管,公有云,私有云及混合云。

2010年,Rackspace与美国航空航天局(NASA)合作创始了开源云平台OpenStack。2012年Rackspace宣布在自己的云平台使用建立于OpenStack的技术,并开源自己的云平台软件Rackspace Cloud。

 

 

 

5. Cascading

Cascading

 

5.1 背景
Cascading是一个开源的Java库,为MapReduce提供抽象层。用Java写Hadoop的MapReduce是有难度 的:cascading用简单字段名和数据元组模型代替MapReduce的key-value;cascading引入了比Map和Reduce更抽象 的层次,如Function, Fileter, Aggregator和Buffer。

5.2 使用情况
Cascading以字段名和元组的方式,把多个MapReduce的处理简化成一个管道链接起来的形式处理数据。从例子来看非常简洁,需要的代码很少。

 

 

 

6. 用Pig和Wukong探索十亿数据级别的网络图

大数据

 

6.1 图=节点+连接节点的边。

6.2 Infochimps项目,一个发现,共享,出售数据集的全球性网站。用简单的脚本语言-不超过一页,就可以处理TB级别的图数据。
6.3 在Infochimps,有twitter,faceboobk的数据集;有wiki百科数据集;线虫项目神经愿和突触的联系;高速公路地图等等。
6.4 在网络图分析上可以做出很多很好玩的有趣东东。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3858.html

相关文章

  • 不看不知道:六个超大规模Hadoop部署案例

    摘要:一个新项目准备把的元数据存储区和合并成一个新系统,名为。此举目的在于,让营销小组能够通过我们开展的各项活动,评估外界对通用电气所持的看法正面看法中立看法或负面看法。的工程师与雅虎的工程小组密切合作,把推向更高的可扩展性和性能。 虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不 想猜测这个平台未来会如何,...

    hidogs 评论0 收藏0
  • Hadoop遭遇瓶颈的七大危险信号

    摘要:以下是的为我们总结的大数据系统出现扩展问题的七大危险信号危险信号一永远进入不了生产阶段大数据应用从概念验证到生产环境是一个巨大的飞跃,系统的可扩展性将面临巨大的挑战。 大多数企业大数据应用案例尚处于实验和试点阶段,对于少数首次在生产环境部署Hadoop系统的用户来说,最常遇到的就是扩展问题,此类问题往往导致企业因噎废食,终止大数据应用项目。部署和扩展Hadoop系统是一件高度复杂的事情,如果...

    468122151 评论0 收藏0
  • 最常见的7 种 Hadoop 和 Spark 项目案例

    摘要:具体的实施可能有所不同,但根据我的经验,它们是最常见的七种项目。这通常意味着很多容器包。这些项目通常与号或号重合,但增加了各自的范围和特点。,这些几乎都是和项目。几年前我已经实施了这些项目中的部分案例,使用的是其它技术。 如果您的 Hadoop 项目将有新的突破,那么它必定与下边介绍的七种常见项目很相像。有一句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做一些不同的和创新的...

    yeyan1996 评论0 收藏0
  • 360度透视Hadoop,大数据技术、案例及相关应用

    摘要:来自社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。我们称这些为大数据。大数据性质的变化移动设备和其他技术的出现导致数据性质的根本性变化。因此,需要处理和分析大数据的新方法。 来自Wikibon社区的大数据宣言为公司提供有效的业务分析工具和技术是首席信息官的首要任务。有效的业务分析(从基本报告到高级的数据挖掘和预测分析)使得数据分析人员和业务人员都可以从数据中获得见...

    rottengeek 评论0 收藏0
  • 打赢数据安全攻坚战,Hadoop-security治理说起

    摘要:整个集群的所有数据,或者至少是公司级的敏感数据,需要加密应该有统一的密钥管理中心管理着每一类数据的访问密钥。全数据中心的所有数据都是加密的,而且密钥管理中心做到了高可用。服务器端网络不安全,被攻破,被拖库。 作者介绍汪涉洋,来自美国视频网站hulu的工程师,毕业于北京理工大学计算机专业,目前从事大数据基础架构方面的工作,个人知乎专栏大数据SRE的总结:http://dwz.cn/7ygSgc...

    CoXie 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<