资讯专栏INFORMATION COLUMN

Hadoop在电信大数据业务系统中的应用

TANKING / 2265人阅读

摘要:电信大数据业务的源起联通研究院移动互联网产品开发事业部主任王志军王主任主要从四个方面介绍了大数据的应用第一方面源起,第二电信运营商有哪些大数据,第三中国联通建成的正在投入使用的大数据业务系统,第四大数据应用的展望举几个简单的例子。

       2013年11月22-23日,作为国内专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行。来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好 者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

何刚:Hadoop成为打开大数据之门金钥匙

  大会现场来自联通研究院移动互联网产品开发事业部主任王志军,为大家介绍了Hadoop和大数据在行业里的典型应用。

电信大数据业务的源起

  ▲联通研究院移动互联网产品开发事业部主任王志军

  王主任主要从四个方面介绍了大数据的应用:第一方面源起,第二、电信运营商有哪些大数据,第三、中国联通建成的正在投入使用的大数据业务系统,第四、大数据应用的展望举几个简单的例子。

  一、源起

  我们进入到移动互联网的时代,几乎每个人都有手机,现在在用手机的时候,更多的是个人的电脑,所做的工作除了做一些基本语音和短信的功能之外, 绝大部分在手机上的工作是使用数据的流量,移动通讯从语音的时代跨越到数据的时代,运营商有很大的机会,同时运营商遇到了很多流量消费争议的问题。

  目前流量消费争议已经跃升成为用户通讯服务投诉的首位。首先的问题是数据流量消费远不如语音消费清晰透明。语音消费的时候拨打一个电话,对方是谁,打了多长时间,这个时间是可以感知到的。运营商也可以语音通话的详单,如果是发短信,发了多少条短信大体是心中有数的。

  流量消费首先是计费单位是KB,流量消费有一定的不确定性。刚才用手机刷了一下微博、用了一会儿微信,到底用了多少流量,他不知道到底如何进行 计费。所以说很多用户基于这种了解,可能很多时候主观认为自己根本没有使用流量,或者是使用了比较小的流量,为什么有的时候会产生比较高额的流量的花费, 这时用户运营商来告诉我,这个流量用到哪去了?上了什么网址、用了什么应用产生了什么流量,而不是简单说这个月用了1G或者是700兆的流量,传统的方式 已经不满足现在用户的需要了。

  现在3G客户数据流量争议占3G业务投诉是10%,现在整个比例是在逐渐的上升。个别的省份已经达到了20%的比例。目前中国联通每月打到 10010客服流量上的投诉是近万起。同时很多用户也基于运营商无法提供上网记录的详单,提出了法律的诉讼。例如某iphone合约计划的用户,他是晚上 凌晨到四点睡觉期间发生了巨额的流量,智能手机可能语音的应用、有很多自动更新的应用,这些应用并不是使用了才产生流量,这种情况下用户难以理解。运营商 的计量设备无法提供了详单就提出了诉讼。运营商的计量设备就相当于家里的水表,现在是区分不出来做饭、冲马桶、洗衣服用了多少水。如果是给用户提供详单, 我们就需要做准确的计量设备做流量的区分。

  原来运营商如何提供详单的,主要是产生于网页设备,GGSN,之前产生话单的方式流量累计到一定的限度,或者是达到一定的时长,或者是现在已经 把网络关闭掉了,这时候才是产生流量的话单,这主要是运营商做计费用的,不是给用户来去说明情况的。里面包含的信息可能有手机号码、上页流量是多少,下页 流量是多少,或有话单的持续时长,但是不包含网址的信息和访问记录的信息。

  这种情况下,中国联通的移动业务,此前有个客服部门的统计数据,每万元应收收入中因无法提供上网记录详单的数据,造成的投诉和退费赔付是60块 钱。GGSN不光是中国联通在用,来自爱立信、华为、中兴、诺基亚都在使用,这种成熟的设备,出现偏差的概率是很小了,绝大部分的赔付是运营商说不清楚, 用户有投诉,为了避免争议扩大化,运营商是采用了赔付与和解的方式来处理。

  由此可见提供用户上网记录详单,成为了互联网透明健康环境的关键的因素,这是运营商希望能够做到的事情。

  上网记录是典型的大数据

  例如,每个用户,可能每月的通话记录是几百、几千条,上网的记录不是这个数量级,可能是几万,用的量大可能是几十万条上网数据。例如用手机 访问新浪网的首页大致是产生20多条记录,包括手机发起,DS的查询,包括网页中每个元素的下载,其实对网络来说都是独立的请求这样都会产生一条记录。如 果用IPAD,新浪网的首页会产生40条记录,如果看了IPAD里的新闻,过来会产生180条记录。

  例如说访问淘宝的触摸平板也会产生6条记录,此外还有大量后台推送的消息,相当于是苹果的手机有很多通知的服务,例如说微信,很多的通知的服务业在悄悄的进行。

  经过统计,中国联通用户上网记录每个月是超过了两万亿条,并且还在增长。数据量是全国目前运营商所有类型的计费话单的30倍以上,包括语音详单、短信详单、采信详单以及包括此前运营商给的流量记录详单,所有的数据量的30倍以上。

  移动互联网是快速的发展期,大约每8个月流量会翻一番,今年年底4G的牌照会发放,在LTE的时代,用户的流量的消费会越来越大,现在是两万亿,明年这个时候是五万亿条,之后也许是八万亿条,数据很巨大。

  上网数据是个典型的大叔据

  采用什么方式进行存储和检索呢是个大问题,此前运营商采用的架构方式是IUE的架构,用IBM小型机,用商用的关系型数据库,用高可靠性的 EMC的存储,构建无论是计费系统还是帐户系统,很多的系统都是这样方式构建的这个很昂贵,但是它解决不了我们的问题。存储这么大规模量的数据,以后超越 了可管理容量的上线。在做查询的时候,关系型数据库对大规模操作的时候性能是严重下降的。

  数据量达到500G延时可能是三千秒,意味着两万亿条记录的数据,分期、分表存下来,达到500G用户有个查询的请求意味着一个小时才能给用户响应,即使做过优化查询的速度也是半个小时以上,审核公司也做过实验,经常一个查询是几个小时才能查询到用户的详单。

  我们面临的问题是数据快速的写入,每月有两万亿条记录,每天有超过七百亿条记录,这么大的数据量如何快速的存储下来,那面记录在源源不断的生 成,我们必须保持足够的速度记录下来,第二我们的数据如何快速检索提供给用户,在什么时候上了什么网址用了多少流量。上网记录的数据本身是个高价值的数 据,它是目前为止可能是用户在移动互联网行为上的一个最基础、最原始的数据,这个数据如何进行高效的分析和挖掘。这么大的数据量,如何来进行低成本的存 储,都是当时面临的问题。

  Hadoop可以帮助我们解决这些问题

  Hadoop采用开源的方式,构架了普通的PC服务器之上,抛弃了高端的存储,也可以保证高可靠性,适合数据快速的写入,以及有快速检索的方 式,这样相当于有十亿的业务需求解决不了问题,Hadoop帮我们解决了,这是我们跟Hadoop脱离了实验室的概念,是真正的商用系统上第一次亲密接触。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/3843.html

相关文章

  • 数据案例分析:电信Hadoop应用分析

    摘要:以电信行业为例,在这些领域的应用情况是怎么样的呢电信业应用分析电信业应用分析昨日,联通研究院处长王志军在第七届开源中国开源世界高峰论坛上分享了在电信行业大数据应用的经验。 Hadoop伴随大数据一同火爆起来。现如今,Hadoop已经无人不知无人不晓。Hadoop从它一诞生的那天开始就与大数据深深地关联到了一起。众所周知,大数据多是出现在这些领域,包括金融、电信、保险以及一些大型互联网企业等。...

    xietao3 评论0 收藏0
  • 《福布斯》:数据带来高成本 Hadoop需继续完善

    摘要:在未来的到年,大数据已经成为私人和公共组织的战略关键。在大数据领域,的低成本和高扩展性是其关键因素。大数据带来了巨大的商业利益,但隐形成本和复杂性是现今发展的障碍。虽然大数据带来的好处显而易见,但和现在必须重新审视大数据的成本了。 现今我们已经进入了大数据时代,因为创新的数据管理技术的诞生,使得组织可以对所有的数据类型进行分析。这也使得企业每天都能够发掘出新的商业机会。随着互联网技术的发展,...

    imtianx 评论0 收藏0
  • 云计算三主流阵营的竞争与合作

    摘要:目前,云计算产业初步形成了三大主流竞争阵营,即互联网阵营阵营和电信运营商阵营。由于云计算的市场大部分被互联网阵营中的亚马逊占据着,为了从其手中抢夺份额,作为服务商的携手谷歌开展云计算方面的技术研究与业务合作。 目前,云计算产业初步形成了三大主流竞争阵营,即互联网阵营、IT阵营和电信运营商阵营。在这三大阵营中,互联网阵营主要面向公有云市场,为中小企业和独立开发者提供公有云服务。IT阵营主要面向...

    赵连江 评论0 收藏0
  • 十年回顾:Hadoop老矣,尚能饭否?

    摘要:在年于上公开了描述其分布式文件系统的论文,为提供了及时的帮助。至年,它逐渐成为一套完整而独立的软件,已经到工作的将这套大数据处理软件命名为。 Hadoop,十岁生日快乐!于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ特别策划了系列文章,为大家梳理Hadoop这十年的变化,以及技术圈...

    gyl_coder 评论0 收藏0
  • 数据控使用Hadoop的三种最常用方式

    摘要:能源公司使用大数据来分析不同地区的消费水平以便更好地预测生产水平。用来探索数据第二个最常见的用例我们称之为数据探索。在这种情况下,存储在中的数据决定了应用程序的用途。 就在几周前,Apache Hadoop 2.0正式发布,这是 Hadoop领域巨大的里程碑,因为它开启了史无前例的数据存储方式革命。Hadoop保留它典型的大数据基础技术,但它是否适合当下数据库及数据仓 库的使用方式?又是否...

    sutaking 评论0 收藏0

发表评论

0条评论

TANKING

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<