资讯专栏INFORMATION COLUMN

大数据与Hadoop之间是什么关系

Michael_Lin / 877人阅读

摘要:云和大数据是两个领域。欺诈检测金融公司零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。客户流失分析企业使用和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。

大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 Hadoop等等。那么,大数据是什么、Hadoop是什么,Hadoop和大数据有什么关系呢?

大数据概念早在1980年,著名未来学家阿尔文·托夫勒提出的概念。2009年美国互联网数据中心证实大数据时代的来临。随着谷歌MapReduce和 GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。目前定义:大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具在合理时间内获取、管理、处理、并整理为帮助企业经营决策。

大数据目前分为四大块:大数据技术、大数据工程、大数据科学和大数据应用。其中云计算属于大数据技术的范畴,是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式。那么这种计算模式如何实现呢,Hadoop的来临解决了这个问题,Hadoop是Apache(阿帕切) 的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,在这个架构下组织的成员HDFS(Hadoop分布式文件系统),MapReduce、Zookeeper(一个针对大型分布式系统的可靠协调系统)、 HBase 、hive(基于Hadoop的一个数据仓库工具)等。

1.云计算属于大数据中的大数据技术范畴。

2.云计算包含大数据。

3.云和大数据是两个领域。

云计算是指利用由大量计算节点构成的可动态调整的虚拟化计算资源,通过并行化和分布式计算技术,实现业务质量的可控的大数据处理的计算技术。而作为云计算技术中的佼佼者,Hadoop以其低成本和高效率的特性赢得了市场的认可。它的项目名称来源于创立者Doung Cutting儿子的一个玩具,一头黄色的大象。

Hadoop项目的目标是建立一个可扩展开源软件框架,能够对大数据进行可靠的分布式处理。

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个变成模型和软件框架。

简单理解,Hadoop是一个开源的大数据分析软件,或者说编程模式。它是通过分布式的方式处理大数据的,因为开元的原因现在很多的企业在运用hadoop的技术来解决一些大数据的问题,在数据仓库方面hadoop是非常强大的。但在数据集市以及实时的分析展现层面,hadoop也有着明显的不足,现在一个比较好的解决方案是架设hadoop的数据仓库而数据集市以及实时分析展现层面使用永洪科技的大数据产品,能够很好地解决hadoop的分时间长以及其他的问题。

Hadoop大数据技术案例

让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。这可能会产生引出新产品的想法,或者帮助确定改善运营效率的方法。不过,也有一些已经明确的大数据用例,无论是互联网巨头如谷歌,Facebook和LinkedIn还是更多的传统企业。它们包括:

情感分析: Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分析既可以专注于宏观层面的情绪,也可以细分到个人用户的情绪。

风险建模: 财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据,以确定金融资产的风险,模拟市场行为为潜在的“假设”方案做准备,并根据风险为潜在客户打分。

欺诈检测:金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。

客户流失分析:企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。

用户体验分析:面向消费者的企业使用Hadoop和其他大数据技术将之前单一 客户互动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起, 以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户体验。

当然,上述这些都只是大数据用例的举例。事实上,在所有企业中大数据最引人注目的用例可能尚未被发现。这就是大数据的希望。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3907.html

相关文章

  • 如何使用Hadoop进入数据库时代?

    摘要:目前尚未部署任何连接器软件,但是表现出对这一技术的几大好奇,他认为可以使用这样的软件来将频繁访问的数据从一个关系型数据库转移到上面做归档。此外,还使用了开源的数据库来作为后端的支持。 Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输...

    wenshi11019 评论0 收藏0
  • Hadoop连接器软件让数据库进入数据库时代

    摘要:连接器座右铭各得其所表示目前用户将信息放到关系型数据库中,主要是因为用数据源还不能轻松地制作报表。        Hadoop有多火?从业界的一系列举动就可以看出来。包括甲骨文、微软、Sybase在内的主流数据库厂商都纷纷发布了Hadoop连接器产品,为的就是让用户可以在传统关系型数据库与开源分布式处理系统之间更轻松地传输信息。  这些厂商将Hadoop连接器软件视为大数据管 理战略的重要一...

    silencezwm 评论0 收藏0
  • 展望2012:Hadoop展拳脚 催生连接器

    摘要:似乎已经变得无处不在,戴尔甚至微软都已经开始跻身阵营。戴尔宣布与新的合作伙伴关系从而加入了日益庞大的俱乐部。混合云大行其道催生云连接器年可谓是风起云涌,整个领域都随之发生巨大变化。 2012年世界会毁灭吗?不管你有没有船票在手,明年IT领域有很多新趋势都值得关注。云、大数据的热潮已经无法阻挡,并且会持续发展下去,那么暗潮涌动下会发生怎样的毁灭与新生?   大数据快速成长 Hadoop应势崛...

    cod7ce 评论0 收藏0
  • 福布斯:Hadoop——你不得不了解的数据工具

    摘要:框架成为当今大数据处理背后的最具影响力的发动机。机器学习各类组织需求的不同导致相关的数据形形色色,对这些数据的分析也需要多样化的方法。提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?现今企业...

    jsyzchen 评论0 收藏0
  • 数据仓库Hadoop需分工合作

    摘要:大数据或者说的上升不会带来数据仓库或数据库市场的下降。事实上,随着大数据时代的到来,越来越多的传统数据仓库选择了与进行合作来满足用户的数据分析需求。       大数据热引发了人们对Hadoop的极大兴趣,同时也引来一些误解,认为既然Hadoop能帮助解决数据的处理和分析问题,它就可以替代传统的数据仓库。     数据仓库(数据库)与Hadoop(MapReduce)其实是两类有着很大区别的...

    pkwenda 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<