资讯专栏INFORMATION COLUMN

《大数据技术原理与应用》第一章-大数据概述

1fe1se / 1446人阅读

1.1 大数据时代

00 简要介绍

大数据真正被大家所熟知的时候也就是在2010年左右,而大数据的大背景是第三次信息化浪潮,第三次信息化浪潮就是以大数据、云计算、物联网三种新兴技术为代表的人类信息化历史上的第三次浪潮,在这之前,还有两次信息化浪潮,具体如下:

信息化浪潮发生时间标志解决问题代表企业
第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮2010年前后物联网、云计算和大数据信息爆炸将涌现出一批新的市场标杆企业

01 时代背景的支撑

大数据时代的到来是必然要有一些相关的支撑,首要的就是技术支撑,主要分为三点:
① 存储 :存储设备容量不断增加

② 计算 :CPU 处理能力大幅提升

③ 网络 :网络带宽不断增加

其次是数据产生方式的变革
① 第一阶段(上世纪七八十年代):运营式系统阶段
例如,超市购物时在数据库系统中一条一条的生成购物信息

② 第二阶段(2002年附近):用户原创内容阶段
例如,博客、微博的出现,大众每个人都是自媒体,每个人都可以在网络上发布数据

③ 第三阶段:感知式系统阶段
这一阶段是伴随着物联网的普及开始的,物联网底层是感知层,如摄像头、传感器等,这些设备无时无刻不在感知外界信息,可以说物联网的产生才真正导致了大数据的到来

由此可以简单的概括一下大数据的发展历程:

时间阶段
上世纪90年代至上世纪末期萌芽期
本世纪前十年成熟期
2010年以后大规模应用期

1.2 大数据的概念和影响

00 大数据的 4V 特性⭐

① 数据量大(Volume 大量化)

  • 大数据的摩尔定律
    • 人类在最近两年产生的数据量相当于之前产生的全部数据量,其数据产生的非常块

② 数据种类多(Variety 多样化)

  • 大数据的数据类型繁多
    • 大数据由结构化非结构化数据组成,其中结构化数据占10%左右,非结构化数据占90%左右
      • 结构化就是存储在关系型数据库中的结构化数据
      • 非结构化就是图形、图像之类的数据

③ 数据产生速度快(Velocity 快速化)

  • 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
    • 不少企业级应用都需要遵守秒级决策定律

④ Value 价值密度低

  • 数据量大,价值密度低,商业价值高
    • 举个例子:摄像头每时每刻都在产生视频数据,但这其中真正被我们用到的数据很少,如果一整年都没出事,这些一整年的视频数据就没有任何作用,只有出事的那一刻,我们才会用到出事的那一刻的视频数据,这就是数据的价值密度低

01 大数据的影响

① 科学研究的范式变化

  • 第一种范式:实验
    • 如:伽利略比萨斜塔实验等
  • 第二种范式:理论
    • 如:几何定论、牛顿三大定律等
  • 第三种范式:计算
    • 如:
  • 第四种范式:数据 (新增)
    • 以数据为驱动
      • 我们不知道问题是什么,问题在哪,完全是以数据为驱动,通过大数据分析发现问题、解决问题

② 思维方式的变化⭐

  • 全样而非抽样

在之前,数据太多,无法保存和分析,统计学采用抽样,而现在,我们可以对所有数据进行分析

  • 效率而非精确

在之前,抽样分析要求的是精确而不是效率,这是因为抽样分析只是抽取部分数据,而不是所有数据,如果抽样计算的结果有误差,放到全样上,误差会被放大;而现在全样分析的误差就是在全样上,我们不需要刻意去追求精确,这时注意的就是效率,因为一些数据是有时效性的,如果当下没有计算出来,那这个数据就失效了

  • 相关而非因果
    大数据时代,我们不关心它们之间是为什么,我们只关心它们之间相互的关联,例如,你在淘宝买了本书,它还会给你推荐其他书,它不会告诉你为什么,它只会跟你说这些书之间有相关关系

1.3 大数据的应用

大数据的应用有很多,这里仅列举一些例子:

00 影视剧的投拍

在之前,影视剧的投拍多是跟风,看见哪个剧拍了之后火了,其他人也拍这类型的剧,但是它不一定火;而现在,通过大数据分析,我们可以分析出选用哪个演员哪个导演拍什么剧会火,例如,美剧《纸牌屋》就是大数据分析的结果,没有大数据分析,没有人知道要找这个演员和找这个导演然后拍这个剧会火

01 谷歌预测流感

在之前,美国的传统流感预测方式就是各医疗机构层层上报门诊病历,然后由专家汇总分析发布报告,一般来说,这个报告会比真实情况延迟一到两周;而谷歌则是用搜索引擎实时收集各类用户查询信息,通过大数据分析预测流感趋势,这是因为现在大多数人遇到小病时,先是求助搜索引擎,其次才是去医院,这样一来,谷歌就可以根据一些关键字如感冒、发烧去分析流感趋势,其预测结果也和美国疾控中心发布的报告结果基本吻合

03 新冠疫情地区分布图

近两年的新冠疫情,我们经常可以在手机上看到疫情的实时数据更新,其中的疫情地区分布图就是大数据的一个应用

1.4 大数据的关键技术

00 大数据技术的层次

大数据技术在以下四个层次都有发展:

  • 数据采集
  • 数据存储与管理
  • 数据处理与分析
  • 数据隐私与安全

但近几年发展的大数据的最核心的技术多在数据存储与管理层和数据处理与分析层,由此可概括的两大核心技术:
分布式存储

  • 解决海量数据的存储问题
    • 一台机器无法存储,我们就借助集群进行分布式存储

分布式处理

  • 解决海量数据的处理问题
    • 一台机器无法高效完成数据处理,我们就借助集群进行分布式处理

大数据技术原理与应用这门课程的主要内容就是将讲这两大核心技术,分布式存储技术与分布式处理技术主要是以谷歌的技术为代表,这其中主要的技术就是 分布式数据库Big Table分布式文件系统GFS分布式并行处理技术MapReduce

02 大数据计算模式⭐

现在有非常多的大数据技术相关产品的存在,但是企业中不同的应用场景属于不同的计算模式,需要使用不同的大数据技术,因此我们需要学会判断计算模式并选择合适的大数据技术相关产品
① 批处理计算

  • 针对问题:
    • 大规模数据的批量处理
  • 批处理计算的代表产品:
    • MapReduce、Spark等
      • MapReduce
        • MapReduce 是批处理计算模式的典型代表,它就是把一堆数据拿过来作批量处理,它不适合用来做实时的交互式计算,无法满足时效性的要求
      • Spark
        • Spark 的实时性要比 MapReduce 好,并且解决了 MapReduce 无法高效做迭代计算的问题

② 流计算

  • 针对问题:
    • 流数据的实时计算
  • 流数据需要实时处理,给出实时相应,否则分析结果就会失去商业价值
  • 流计算的代表产品:
    • S4、Storm、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
  • 流计算可以做秒级的针对实时运算的数据

③ 图计算

  • 针对问题:
    • 大规模图结构数据的处理
  • 图计算可以高效处理图数据,如:
    • 社交网络数据就是图结构数据
  • 图计算的代表产品:
    • Google Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等

④ 查询分析计算

  • 针对问题:
    • 大规模数据的存储管理和查询分析
  • 交互式的查询计算
  • 查询分析计算的代表产品:
    -Google Dremel、Hive、Cassandra、Impala等

1.5 大数据与云计算、物联网的关系

00 云计算

  • 什么是云计算?云计算就是解决两大核心问题:分布式存储分布式处理

  • 云计算的典型特征:虚拟化多用户

  • 云计算的概念:云计算就是通过网络以服务的方式为用户提供非常廉价的IT资源

  • 云计算的优势:企业不需自建IT基础设施,可以租用云端资源

  • 云计算的三种模式:

    • 公有云
      • 面向公众
    • 私有云
      • 面向企业内部
    • 混合云
      • 部分给自己,部分给外面
  • ⭐三种云服务:

    • IaaS —— 基础设施即服务
      • 将基础设施(计算资源和存储)作为服务出租
    • Paas —— 平台即服务
      • 针对开发者,开发者开发产品时调用平台接口,将产品部署在平台上,就可以使用平台的云计算资源
    • SaaS —— 软件即服务
      • 典型案例:云财务软件
      • 不需要本地安装软件再使用,对方将整个软件以服务的形式卖给你,只要有网络,你就可以打开手机或电脑对软件进行操作
  • 云计算关键技术:虚拟化分布式存储分布式计算多租户

01 物联网

  • 物联网概念:

    • 物联网(IoT : The Internet of Things) 就是物物相连的互联网,是互联网的延伸
  • 物联网层次架构

  • 物联网的关键技术:识别技术感知技术

  • ⭐物联网、云计算与大数据三者紧密先关,相辅相成

    • 物联网可以借助于大数据实现海量数据的存储和分析

1.6 小结

至此,我们简要了解了大数据的产生和发展、大数据的特性和影响、大数据的应用和关键技术以及云计算的相关概念。

√ 圈重点:
⭐ 大数据的4V特性
⭐ 大数据的影响(科学范式、思维)
⭐ 大数据计算模式(批处理计算、流计算、图计算、查询分析计算)
⭐ 三种云服务
⭐ 大数据、云计算与物联网之间的关系

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/124042.html

相关文章

  • 超详细的计算机网络基础知识总结 一章概述

    摘要:本文基于王道计算机考研计算机网络顺便提一嘴,王道计算机网络的小姐姐声音真滴好听最近准备就业,整理一篇计算机网络的笔记,后续会继续更新相见即是有缘,如果对你有帮助,给博主一个免费的点赞以示鼓励把计算机网络概念计算机网络 ...

    不知名网友 评论0 收藏0
  • 【51单片机】☀️万物互联☀️一招搞定单片机(持续更新中......)

    目录 第一章:单片机概述 单片机的应用领域: STC89C52单片机: 单片机命名规则:  单片机内部结构图:  单片机管脚图:  单片机最小系统: 进制表: 新建一个工程:  检查单片机驱动是否安装完成: 打开Keil uVision集成开发环境 选择Atmel下的AT89C52 创建源文件   第二章:LED LED介绍:  点亮LED:   第一章:单片机概述 单片机(Micro Contr...

    idisfkj 评论0 收藏0
  • 阿里,B站小伙伴奉献的中高级数据运维学习课程规划,高薪原来需要掌握这些

    摘要:大数据运维更偏向于大数据生态的大数据应用运维。后面我们会上大数据开发课程,其实大数据开发和大数据运维课程很多跟运维课程是重叠的,只是掌握的着重点不同。因材施教,重点会针对每个小伙伴的情况,基本水平,确立职业规划,基于职业规划定制学习计划。 一.大数据运维相关答疑与概述 1.0 课程与老师介绍...

    renweihub 评论0 收藏0
  • 动力节点JavaNIO教程,轻松攻破Java NIO技术壁垒

    摘要:学习和掌握技术已经不是一个攻城狮的加分技能,而是一个必备技能。是双向的,不仅可以读取数据还能保存数据,程序不能直接读写通道,只与缓冲区交互为了让大家不被高并发与大量连接处理问题所困扰,动力节点推出了高效处理模型应用教程。 大家肯定了解Java IO, 但是对于NIO一般是陌生的,而现在使用到NIO的场景越来越多,很多技术框...

    ralap 评论0 收藏0
  • PHP程序员如何基于比特币开发各种相关功能

    摘要:课程地址比特币开发教程以太坊,主要是介绍使用进行智能合约开发交互,进行账号创建交易转账代币开发以及过滤器和事件等内容。 什么是比特币 当我们谈到比特币时,其实在不同的场景下有不同的指代。 比特币首先是一种数字加密货币,用户可以通过比特币网络进行 比特币转账或商品结算,就和传统的货币一样: showImg(https://segmentfault.com/img/remote/14600...

    Kylin_Mountain 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<