摘要:是最流行的大数据处理平台之一。的兴起也招致了很多批判,并且随着安全专家不断指出其潜在的安全漏洞及大数据的安全风险,使得一直在改进其安全性。自对安全性进行重新设计以来,的安全模型大体上没发生什么变化。
本文译者:吴海星
敏感信息的安全和保护是当今人们最关心的问题之一。进入大数据时代,很多组织都在从各种源头收集数据,进行分析,并基于对海量数据集的分析做出决 策,因此这一过程中的安全问题变得愈发重要。与此同时,HIPAA和其他隐私保护法之类的法律法规也要求组织加强对这些数据集的访问控制和隐私限制。来自 内部和外部攻击者的网络安全漏洞与日俱增,通常都要数月之后才能发现,而那些受此影响的人正在为此付出代价。没能对他们的数据做出恰当访问控制的组织将受 到起诉,出现在负面报道中,并将面临监管机构的罚款。
请想一想下面这些让人大开眼界的统计数据:
简而言之,如果没有恰当的安全控制,大数据很容易变成花费巨大的大问题。
对于处理大数据的组织来说这意味着什么?意味着你拥有的数据越多,对数据的保护就越重要。意味着不仅要安全有效地控制离开自有网络的数据,还必须做 好网络内部的数据访问控制。依据数据的敏感程度,我们可能要确保数据分析师能看到的数据是可以让他们分析的数据,并且必须明白发布这些数据及其分析结果可 能产生的后果。仅Netflix数据泄漏一个案例就足以表明,即使已经试图对数据做了“匿名化”处理,也可能会发布一些意料之外的信息——一些在差异化隐私领域标明的东西。
Apache Hadoop是最流行的大数据处理平台之一。尽管最初设计Hadoop时根本没考虑安全问题,但它的安全模型在不断地演进。Hadoop的兴起也招致了很 多批判,并且随着安全专家不断指出其潜在的安全漏洞及大数据的安全风险,使得Hadoop一直在改进其安全性。“Hadoop安全”市场曾出现过爆炸性的 增长,很多厂商都发布了“安全加强”版的Hadoop和对Hadoop的安全加以补充的解决方案。这类产品有Cloudera Sentry、 IBM InfoSphere Optim Data Masking、 英特尔的安全版Hadoop、DataStax企业版、 DataGuise for Hadoop、用于Hadoop的Protegrity大数据保护器、Revelytix Loom、Zettaset 安全数据仓库,此外还有很多,这里就不再一一列举了。与此同时,Apache也有 Apache Accumulo这样的项目,为使用Hapdoop提供了添加额外安全措施的机制。最终还出现了 Knox网关 (由HortonWorks贡献)和Rhino项目(由英特尔贡献)这样的开源项目,承诺要让Hadoop本身发生重大改变。
要让Hadoop达到安全性要求的巨大需求使得Hadoop一直在发生着变化,这也是我要在本文中重点讨论的内容。
Hadoop安全(简)史Doug Cutting和Mike Cafarella最初为Nutch项目开发Hadoop时并没有考虑安全因素,这是众所周知的事实。因为Hadoop的最初用例都是围绕着如何管理大量 的公共web数据,无需考虑保密性。按照Hadoop最初的设想,它假定集群总是处于可信的环境中,由可信用户使用的相互协作的可信计算机组成。
最初的Hadoop中并没有安全模型,它不对用户或服务进行验证,也没有数据隐私。因为Hadoop被设计成在分布式的设备集群上执行代码,任何人 都能提交代码并得到执行。尽管在较早的版本中实现了审计和授权控制(HDFS文件许可),然而这种访问控制很容易避开,因为任何用户只需要做一个命令行切 换就可以模拟成其他任何用户。这种模拟行为非常普遍,大多数用户都会这么干,所以这一已有的安全控制其实没起到什么作用。
在当时,考虑到安全问题的组织把Hadoop隔离在专有网络中,只有经过授权的用户才能访问。然而由于Hadoop内部几乎没有安全控制,在这样的 环境中也会出现很多意外和安全事故。善意的用户可能会犯错(比如用一个分布式删除在几秒内就会删除大量数据)。所有用户和程序员对集群内的所有数据都有相 同的访问权限,所有任务都能访问集群内的任何数据,并且所有用户都可能会去读取任何数据集。因为MapReduce没有认证或授权的概念,某个顽劣的用户 可能为了让自己的任务更快完成而降低其他Hadoop任务的优先级,甚至更坏,直接杀掉其他任务。
随着Hadoop在数据分析和处理平台中的地位日益凸显,安全专家们开始关心来自Hadoop集群内部的恶意用户的威胁。恶意开发人员能轻易写出假 冒其他用户Hadoop服务的代码来(比如写一个新的TaskTracker并将其注册为Hapdoop服务,或者冒充hdfs或mapred用户,把 HDFS里的东西全删掉等等)。因为DataNode没有访问控制,恶意用户可以绕过访问控制从DataNode中读取任意数据块,或将垃圾数据写到 DataNode中破坏目标分析数据的完整性。所有人都能向JobTracker提交任务,并可以任意执行。
因为这些安全问题,Hadoop社区意识到他们需要更加健壮的安全控制,因此,雅虎的一个团队决定重点解决认证问题,选择Kerberos作为Hadoop的认证机制,这在他们2009年的白皮书上有记录。
在Hadoop发布.20.20x版本时他们实现了自己的目标,该版本采用了下面这些机制:
自对安全性进行重新设计以来,Hadoop的安全模型大体上没发生什么变化。随着时间的推移,Hadoop体系中的一些组件在Hadoop之上构建了自己的安全层,比如Apache Accumulo,提供单元级的授权,而HBase提供列和族系一级的访问控制。
Hadoop当前所面临的安全挑战组织在保证Hadoop的安全性时会面临一些安全方面的挑战,在我和Boris Lublinsky 及 Alexey Yakubovich写的新书中,我们用了两章的篇幅集中讨论Hadoop的安全问题,其中一章的重点是Hadoop本身的安全能力,另外一章的重点是对 Hadoop的安全性进行补充的策略。
常见的安全问题有:
这其中很多问题都能靠Hadoop自身的能力解决,但也有很多是Hadoop所无能为力的,所以行业内涌现出了很多Hadoop安全补充工具。厂商们发布安全产品来弥补Hadoop的不足有几个原因:
如果Hadoop如今还不具备实现者所要求的安全能力,那么他们只能转而集成第三方工具,或使用某个厂商提供的安全加强版Hadoop,或采用其他有创造性的办法。
即将发生的大变化2013年开端之际,英特尔发起了一个开源项目Rhino, 以提升Hadoop及其整个体系的安全能力,并将代码贡献给了Apache。这有望显著加强Hadoop当前的贡献。这一开源项目的总体目标是要支持加密 和密钥管理,一个超越Hadoop当前提供的用户及群组ACL的通用授权框架,一个基于认证框架的通用令牌,改善HBase的安全性,改善安全审计。这些 任务都被记录在Hadoop、 MapReduce、HBase 和 Zookeeper的JIRA中,择重点摘录如下:
这些就是Hadoop的主要变化,但有望解决有这些安全需求的组织的安全问题。
结论在我们这个步履匆匆而又相互关联的世界里,大数据就是王道,在我们对海量数据进行处理和分析时,明白安全的重要性至关重要。这要从弄懂数据及相关的 安全策略开始,也要明白组织的安全策略,并知道如何强制执行。本文介绍了Hadoop的安全简史,重点讲了常见的安全问题,并介绍了Rhino项目,给出 了一个未来的快照。
关于作者凯文T.史密斯是Novetta解决方案应用任务方案分部的技术方案及推广指导,他负责向客户提供战略性的技术领导力,开发具有创新性的、数据为本并且高 度安全的解决方案。他经常在各种技术会议上演讲,发表过很多技术文章,还编写过许多技术书籍,包括即将出版的《专业Hadoop解决方案》,以及《应用 SOA:面向服务的架构及设计策略》,《语义Web:XML,Web服务及知识管理的未来发展指南》等等。可以通过KSmith@Novetta.com 联系到他。
特别感谢Stella Aquilina, Boris Lublinsky, Joe Pantella, Ralph Perko, Praveena Raavicharla, Frank Tyler 和 Brian Uri 对本文的审阅和部分内容的评论。 此外还要感谢克里斯·贝利制作了不断发展的Hadoop大象之“艾比路”这幅插图。
1 Ponemon 研究所, 2013数据泄露的成本研究:全球分析,2013年5月
2 商业内幕,PlayStation网络危机可能让索尼花费了数十亿
3 请参见“CNN/Money –5数据泄露 - 从尴尬到致命”,及维基百科上关于 AOL在匿名化记录上泄漏的研究数据的页面
4 Ponemon 研究所, “你的公司为大数据泄漏做好准备了吗?”, 2013年3月
查看英文原文:Big Data Security: The Evolution of Hadoop’s Security Model
感谢侯伯薇对本文的审校。
文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。
转载请注明本文地址:https://www.ucloud.cn/yun/3842.html
摘要:英特尔机架规模设计则能实现以机架为单位的软硬件解耦,为裸金属即服务提供容量更大的资源池,并可通过开放的和协议如和,高效发掘管理和调配这些资源。 江湖上,一直流传着得IaaS(基础设施即服务),得公有云天下的说法。想握紧IaaS这柄云端杀手锏, 大热的裸金属即服务和容器即服务,还不了解一下? 它们为什么如此受人...
摘要:大数据概念是年由首席科学家在大会上提出的。但大数据真正得到业界关注,则是其后多年的事情了。其中大数据最重要的发酵素则是年发布的和三篇论文。揭示大数据未来发展的趋势就是人工智能。 大数据(Big Data)概念是1998年由SGI首席科学家John Masey在USENIX大会上提出的。他当时发表了一篇名为Big Data and the Next Wave of Infrastress...
回顾2012,更多开放,更多协作,更多机会产生。从来没有一项服务会将几乎所有IT、互联网、通信技术整合在一起,没有合作、开放的心态就没有云计算。接下来,将从IaaS、NoSQL与NewSQL、数据中心、大数据、安全这几个方面对过去一年作出总结。IaaS——群雄追赶AWS谈到IaaS,Google和AWS是公认的业界最强。AWS是全球将IaaS这个business运营的较好的公司,除了技术领先,还要...
摘要:对于区块链和传统数据技术,我认为区块链技术的未来发展,主题是融合。同时数据库在日志中更会包括事务控制等企业级能力,是区块链数据结构所不具备的。因此,从安全策略上数据库比当前的区块链完善很多。 原文地址:https://www.admin5.com/articl... 作为一个数据库行业的老兵,我看到在区块链技术的热潮下,传统的IT技术同学们保持了十分理性,甚至是排斥的态度。其实不管是热...
阅读 3377·2023-04-25 14:20
阅读 857·2021-10-13 09:40
阅读 955·2021-09-10 10:51
阅读 1035·2019-08-30 15:53
阅读 344·2019-08-30 15:43
阅读 2174·2019-08-30 14:13
阅读 2599·2019-08-30 12:45
阅读 1100·2019-08-29 16:18