资讯专栏INFORMATION COLUMN

试着解释大数据

roadtogeek / 2086人阅读

摘要:所以有人也会把现在的大数据称作全数据。大数据的架构,除了要解决使用单点数据库的性能,方便业务扩展时横向扩展系统的最大性能,另一方面也要考虑数据的提出者和使用者并不是程序员,而是对技术理解欠佳的决策层和科学家。

这篇 blog 本来是在 ourcoders 的一篇回复。写完几天后,觉得还有必要总结留底,所以做了些修改,形成了这篇文章。

我做大数据其实时间并不长,对大数据的理解也还处于很粗浅的阶段,欢迎大家讨论。

大数据这事其实有两层意思:一层是单纯从业务上说,到底如何收集并有效利用数据做决策;另一层是指如何处理数据并完成决策所需要的数据支持。

业务上利用数据做决策,是算法科学家或者现在所谓的大数据科学家,甚至是管理层和客户的事情。他们首先要了解运行的业务是什么,然后找出可以量化的关键点,再通过数据来检验这些量化指标,最终得出决策,听上去和程序员 debug 差不多。

处理数据是公司的基础 it 架构,属于运维和开发的范畴,google 的 map/reduce,后来的 hadoop 都是在解决这一块的问题。

一般来说,公司小的时候数据不多,用 excel 就能很好的处理。随着数据增加,使用数据库存储数据,配合脚本计算是常用的方法。如果业务很大,需要计算的数值变化频繁和数据量的增加,单点的数据库效率会变得越来越低,直到完全没法忍受。这时候就需要考虑使用 mapreduce 的分布式解决方案。这也是 hadoop 的真正用武之地。

数据量会暴涨的一个主要原因,是互联网正在量化越来越多的行为,由此产生了越来越多的数据。以前只能通过抽样调查得到的数据(比如收视率,用户的使用习惯),现在可以通过各种方式直接拿到所有用户的数据。既然有数据了就要利用,所以现在企业用来分析的数据也不再是采样数据,而更多是全量数据。所以有人也会把现在的大数据称作全数据。

讲个牛逼的八卦:美国 80 年代有家叫尼尔森的公司,专门做收视率调查。他们做法非常牛逼,会和家庭签协议,调查这个家庭的一些背景,并放一个与有线电视网联通的盒子在电视机旁边。这个盒子可不是小米盒子,而是个录音盒,目的在根据录音判断这家人看到了哪些广告。这事到这,只能说明当年大家想要收集一些数据都很辛苦,而且收集到的数据有很大的随机性。但是这事没完。后来全世界人民都非常开心的把自己的信息主动写在一个网站上,而尼尔森公司也看到这个机会,就和这家网站合作,取得了大量用户的背景信息(当然理论上是不能反查到个人的),并利用这些信息和自己的收视率数据合并,于是尼尔森公司就能更加准确地提供收视率了。这家网站,叫 Facebook。

这事可以说是数据上,从抽样数据转向全量数据的典型。现在各大网站利用 cookie 这些浏览信息暗中串通记录用户信息也不是什么秘密了,也一直有人说个人的行为在互联网上完全没法隐藏。既然公司买卖的都是全量数据,那么拿来做分析的当然也不会再仅限于抽样数据,也进入了全量数据处理的时代。

大数据的架构,除了要解决使用单点数据库的性能,方便业务扩展时横向扩展系统的最大性能,另一方面也要考虑数据的提出者和使用者并不是程序员,而是对技术理解欠佳的决策层和科学家。从技术的发展脉络上来看,是让人家写 c++/java(传统 mapreduce),还是翻译更简单使用更广泛的 sql(hive)?而 hive 是批处理模式不适合快速查询,于是 spark 是如何引入内存加速,而 storm 又是如何引入流来加快分析周期?aws 又是如何提供 hadoop 集群来简化部署?

最后试着用一句话总结一下:如果是公司层面思考大数据,更多应该关心如何拿到全量数据,如何才能从全量数据里拿到有效决策;而如果是工程层面思考大数据,就是如何搭起一套通用灵活的架构,来满足日益增长的分析业务。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8129.html

相关文章

  • 触碰未来的知识——云计算与数据的关系

    摘要:我们也常常看到云计算的发展推动了大数据产业的发展等类似新闻,那么云计算与大数据有什么样的关系呢要了解二者的关系,首先要对他们的概念有一定认识。因此,云计算是大数据和物联网发展的基础。 当你在淘宝购物时搜索到想要的商品,同时会看到一样非同类型的商品被推荐到眼前,恰巧也是你想要或者正需要购买的,这样神奇的经历源于前几年开始火起来的一项技术——大数据。我们也常常看到云计算的发展推动了大数据产...

    Hanks10100 评论0 收藏0
  • 触碰未来的知识——云计算与数据的关系

    摘要:我们也常常看到云计算的发展推动了大数据产业的发展等类似新闻,那么云计算与大数据有什么样的关系呢什么是大数据要了解二者的关系,首先要对他们的概念有一定认识。因此,云计算是大数据和物联网发展的基础。小结以上就是关于关于云计算和大数据的关系。 当你在淘宝购物时搜索到想要的商品,同时会看到一样非同类型的商品被推荐到眼前,恰巧也是你想要或者正需要购买的,这样神奇的经历源于前几年开始火起来的一项技...

    史占广 评论0 收藏0
  • JavaScript 工作原理之二-如何在 V8 引擎中书写最优代码的 5 条小技巧(译)

    摘要:本章将会深入谷歌引擎的内部结构。一个引擎可以用标准解释程序或者即时编译器来实现,即时编译器即以某种形式把解释为字节码。引擎的由来引擎是由谷歌开源并以语言编写。注意到没有使用中间字节码来表示,这样就不需要解释器了。 原文请查阅这里,略有删减。 本系列持续更新中,Github 地址请查阅这里。 这是 JavaScript 工作原理的第二章。 本章将会深入谷歌 V8 引擎的内部结构。我们也会...

    PingCAP 评论0 收藏0
  • 胶囊网络9优势4缺陷

    摘要:链接是他们在数据集上达到了较先进的性能,并且在高度重叠的数字上表现出比卷积神经网络好得多的结果。在常规的卷积神经网络中,通常会有多个汇聚层,不幸的是,这些汇聚层的操作往往会丢失很多信息,比如目标对象的准确位置和姿态。 PPT由于笔者能力有限,本篇所有备注皆为专知内容组成员根据讲者视频和PPT内容自行补全,不代表讲者本人的立场与观点。胶囊网络Capsule Networks你好!我是Aurél...

    TesterHome 评论0 收藏0
  • 8步从Python白板到专家,从基础到深度学习

    摘要:去吧,参加一个在上正在举办的实时比赛吧试试你所学到的全部知识微软雅黑深度学习终于看到这个,兴奋吧现在,你已经学到了绝大多数关于机器学习的技术,是时候试试深度学习了。微软雅黑对于深度学习,我也是个新手,就请把这些建议当作参考吧。 如果你想做一个数据科学家,或者作为一个数据科学家你想扩展自己的工具和知识库,那么,你来对地方了。这篇文章的目的,是给刚开始使用Python进行数据分析的人,指明一条全...

    Zachary 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<