资讯专栏INFORMATION COLUMN

走进大数据的世界

lewinlee / 613人阅读

摘要:目前,大数据大多在金融电商信用评估视频等领域,并且做智能推荐的较多。一般的,处理大数据会使用以下流程数据采集首先需要从传统的分布式数据库中读取数据,进行清洗转换集成,最后加载到数据仓库。自然语言处理后能将数据进行分割成很小的单位。

在这个网络飞速发展的时代,PC、手机越来越智能,每个人连接网络世界的成本越来越低,端产生的流量就越来越庞大,如果把这些数据都存储下来利用,大数据就诞生了。我们做个简单的计算:中国7亿(15年统计)手机网民,每天浏览30分钟网页(图片、视频流量更大),大约会浏览30个网页,每个网页1KB流量,则会产生30KB流量,那么全国手机网民会产生至少20P数据流量。这么大的数据,现在个人硬盘最大也才16T吧,但是全国网民每天都要产生1000个最大硬盘的数据,对服务商来说,如此庞大的数据,就是大数据了。如果想要将这个庞大的数据利用起来,比如做个智能推荐的功能,那就涉及到下面要介绍的大数据相关的技术了。

谁会用大数据

大数据的利用价值还在不断被挖掘,就像一个巨大的宝藏库。目前,大数据大多在金融、电商、信用评估、视频等领域,并且做智能推荐的较多。比较知名的企业:

亚马逊 | 阿里巴巴 | 美团 等电商利用大数据做智能推荐和广告决策

银行 | 信贷 等征信企业会通过大数据评估个人或企业的信用等级

T-Mobile | 中国移动 等移动运营商通过大数据智能推荐消费套餐

YouTube | 搜狐 等视频网站通过大数据智能推荐视频

Starbucks 等餐饮企业通过大数据决策店面地区和位置

消费者研究公司Mintel在2015年的报告中指出43%的喝茶饮的顾客不会添加糖,星巴克便根据这份报告创造了两个不加糖的冰茶K-杯、芒果绿色冰茶桃色红茶。

大数据怎么存储

目前存储大数据一般采用NoSQL (Not Only SQL)分布式数据库。

传统的数据库如Oracle、MySql等都是关系型数据库,存储的是结构化的数据,可以通过SQL语句进行增删改查等操作。但是NoSQL是一种可以水平向扩展以及分布式计算的数据存储技术,存储半结构化的数据,并且不再使用SQL语句作为操作方式,而是使用列存储或者key-value等多种形式进行存储查询操作。

常见的NoSQL数据库分类:

列存储: HBase

文档存储: MongoDB

Key-Value存储: Redis

使用NoSQL的公司有:Google、Facebook、Adobe、Linkedin等

大数据怎么处理

由于大数据的数据量之大,传统的数据处理软件很难快速的计算出想要的结果,因此大数据的处理技术也相对较困难和复杂。一般的,处理大数据会使用以下流程:

1. 数据采集

首先需要从传统的(分布式)数据库中读取数据,进行清洗、转换、集成,最后加载到数据仓库。

2、数据存取

一般以分布式云存储为架构,存储时需要使用NoSQL数据库为主,关系数据库为辅的方式进行存储。

3、数据处理

对数据的处理一般采用自然语言处理,自然语言处理是研究人与计算机交互的语言问题的一门学科。自然语言处理后能将数据进行分割成很小的单位。

4、统计分析

统计分析时会利用多种分析技术,如logistic回归分析、聚类分析、假设检验、显著性检验、等。

5、数据挖掘

挖掘有价值的数据,采用的手段如分类、估计、预测、相关性分组或关联规则、聚类。  

6、模型预测

该阶段的目的是进行未来目标预测,通过建立预测模型、机器学习、建模仿真等手段进行计算。 

7、结果呈现

最终的处理结果会通过云计算、标签云、关系图等进行展示。

处理大数据的框架越来越多,使得处理大数据也越来越方便,但更多的是根据商业用途和业务场景进行划分,选取最合适的技术最重要。

大数据离我们远吗?

大数据好像生来就是大企业在玩儿的东西,虽然我们每个人可能都贡献了一些数据,但我们离大数据是不是很远?答案是否。最典型的,淘宝的商品推荐功能。想必每个人都有淘宝购物的经历,在准备搜索某个宝贝的时候,淘宝客户端会实时推送不同的商品,有时候用户会发现推送的商品正是自己想要购买的。但用户并没有该商品的购买记录。那淘宝是如何做到的呢?答案就是大数据+智能推荐。淘宝背后正是对千万用户的消费习惯进行分析挖掘,才能做到这样的准确推荐。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/8297.html

相关文章

  • 走进“国网云”世界 云计算让用电更加便捷

    摘要:日前,记者从国家电网公司信息通信部了解到,一体化国网云平台的顶层总体设计工作已经完成。对于国家电网公司而言,国网云到底意味着什么它又会给普通客户的用电生活带来怎样的改变下面,就让我们一起走进国网云的世界。  日前,记者从国家电网公司信息通信部了解到,一体化国网云平台的顶层总体设计工作已经完成。互联网+时代,大云物移成为了各行各业争先追逐的焦点。对于国家电网公司而言,国网云到底意味着什么?它又...

    morgan 评论0 收藏0
  • 前端修炼 の道 | 带你走进迷人 CSS 世界

    摘要:每条属性声明实现对网页元素进行某种特定格式的设置,由一个属性和一个值组成,属性和值之间使用冒号连接,不同声明之间用分号分隔,所有属性声明放到一对大括号中。 showImg(https://segmentfault.com/img/bVbkQCI?w=900&h=383); showImg(https://segmentfault.com/img/bVbkQCO?w=900&h=383)...

    shiweifu 评论0 收藏0
  • 3 分钟带你走进视觉智能新时代 | 七牛云&美图 AI 共享日精彩语录

    摘要:月日下午,七牛云美图共享日在厦门举行,来自七牛云美图厦门大学罗普特等众位大咖齐聚一堂。七牛云美图共享日精华语录计算机识别是按照具体问题具体分析,具体场景具体分析。又称小牛汇共享日,是小牛汇举办的第一个系列活动。 时间机器、穿越星际的宇宙飞船、飞行汽车,几乎每一部科幻电影作品中都能发明点新东西。超现实技术在引起人们阵阵赞叹的同时,也在激励着人们思考如何将不可能变成可能。而在我们的生活当中...

    Jonathan Shieber 评论0 收藏0
  • SaaS伙伴走进华为云后,中国公有云格局将改写吗?

    摘要:最近华为云开始发力,在全国范围内开展伙伴走进华为云活动,展示了其在公有云方面的决心。年华为杀入公有云,有的看好有的唱衰,但是无疑为中国公有云市场增加了变数。年月华为正式宣布进入公有云市场,成立华为云。2017年9月举办的全联接大会(HUAWEI CONNECT 2017)上,华为副董事长、轮值CEO郭平表示,华为已经战略投入了公有云,并承诺长期投入,华为有决心也有能力和合作伙伴打造世界上的5...

    frank_fun 评论0 收藏0
  • 走进机器学习世界之TensorFlow.js快速上手

    摘要:具体解释就是机器学习是实现人工智能的一种手段深度学习是实现机器学习的一种技术今天我们要介绍的是由的团队发布一款机器学习框架,基于已经停止更新。所以对于前端来说,是走进机器学习世界最便捷的路径了。 前言 近两年人工智能,机器学习等各种概念漫天飞舞,那人工智能,机器学习,深度学习这些名词之间是什么关系呢? 如果用三个同心圆来解释的话,人工智能是最大的圆,机器学习是中间的圆,深度学习是最小的...

    stonezhu 评论0 收藏0

发表评论

0条评论

lewinlee

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<