盘点Hadoop的12个技术痛点

Jonathan Shieber 发布于2019-04-25 17:17 / 722人阅读

摘要：下面是我列举的个痛点。被迫存储我所有共享库到这是的复发机制。可能是配置打印错误或者格式验证错误，统称协议错误。实际上，那是的基础，除了在中。你可以用你自己的方式配置那部分，但是它在数百个节点上仍然会报说你安装有误。

本文作者Andrew C. Oliver是一位专业的软件顾问，同时还是北卡罗来纳州达勒姆大数据咨询公司Open Software Integrators的总裁和创始人。

Hadoop是一个很神奇的创造，但它发展过快而表现出一些瑕疵。我爱大象，大象也爱我。不过这世上没什么是完美的，有的时候，即使是再好的朋友间也会起冲突。就像我和Hadoop之间的存在斗争一样。下面是我列举的12个痛点。

1. Pig vs. Hive

你在 Pig 里用不了 Hive UDFS。在 Pig 中你必须用 HCatalog 来访问 Hive 表。你在 Hive 里用不了Pig UDFS。在 Hive 中无论是多么小的额外功能，我都不会感觉像写一个 Pig 脚本或者“啊，如果是在 Hive 里我可以轻易地完成”，尤其是当我写 Pig 脚本的时候，当我在写其中之一的时候，我经常想，“要是能跳过这堵墙就好了！”。

2. 被迫存储我所有共享库到 HDFS

这是 Hadoop 的复发机制。如果你保存你的 Pig 脚本到 HDFS 上，那么它会自动假设所有的 JAR 文件都会在你那里一样。这种机制在 Oozie 和别的工具上也出现了。这通常无关紧要，但有时，必须存储一个组织的共享库版本就很痛苦了。还有，大多数时候，你安装在不同客户端的相同 JAR，那么为什么要保存两次？这在 Pig 中被修复了。别的地方呢？

3. Oozie

Debug 并不好玩，所以文档里有很多老式的例子。当你遇到错误，可能并不是你做错了什么。可能是配置打印错误或者格式验证错误，统称“协议错误”。很大程度上，Oozie 就像 Ant 或 Maven，除了分布式的，不需要工具、有点易错。

4. 错误信息

你在开玩笑，对吧？说到错误信息。我最喜欢的是任何 Hadoop 工具说的，“失败，无错误返回，”可以翻译成“发生了什么，能找到是你的运气。”

5. Kerberos 身份认证协议

如果你想要想出一种相对安全的 Hadoop，你就要用到 Kerberos。记住 Kerberos 和它是多么的老旧？所以你只要 LDAP，除了它 Hadoop 中的都没有被集成：没单点登录，无 SAML，无 OAuth，无证书传递(相反地，它会重新认证)。更有趣的是，Hadoop 是生态系统的每一个部分都写它自己的LDAP 支持，所以这就是矛盾的。

6. Knox 数据保护应用程序

因为用 Java 写一个合适的 LDAP 连接器需要做至少100次才能保证正确。哎呀，看看那代码。它并不真正地有效维护好连接池。实际上，我想 Knox 就是为 Java 或者一时的热情而创造出来的。你可以通过一个写好的 Apache config,mod_proxy,mod_rewrite 做同样的事情。实际上，那是 Knox 的基础，除了在 Java 中。对于启动，在认证之后，它不传递信息给 Hive 或 WebHDFS 或你正在访问的东西，但是会启动它。

7. Hive 不会让我制作外部表格，但也不会删除它

如果你让 Hive 来管理表格，要是你终止对表格的使用的话，它会自动将它们全部删除。如果你有一个外部表格，它就不会将它删除。为什么不能有一个“也删除外部表”的功能呢？为什么我必须在外部删除？还有，当 Hive 特别是与 RDBMS 一起应用时，为什么不能有 Update 和 Delete 功能？

8. Namenode 失败

Oozie、Knox 和 Hadoop 的其它部分都不遵循新的 Namenode HA 资料。你可以在 Hadoop 中启用HA，只要你不使用与之相关的东西。

9. 文档

抱怨都是陈词滥调了，但是还是检查一下。37行错了——更糟糕的是，网络上的所有文章都错了。这证明没有人会费心在执行前检查一下。Oozie 文档更可怕，大多数例子对它给的格式校验都无法通过。

10. Ambari 覆盖范围

我曾批评过Ambari，就我所知的 Hadoop 架构来说，Ambari 能够工作真是很神奇。那么，他们可能会抱怨，Ambari 的缺点到底在哪？例如，Ambari 不能安装，或者有些情况下不能正确安装，包括多种HA 设置，Knox 等等。我确定它会变得更好，但是“手动安装之后”或者“我们已经创建了一个备份脚本”，这些不应该出现在我的邮件和文档中。

11. 知识库管理

说到Ambari，当知识正在升级的时候，你有完成过安装吗？我有过，但是它表现的并不好。实际上，有时候它找到了最快的镜像。Ambari 并不关注它下载下来的东西是否兼容。你可以用你自己的方式配置那部分，但是它在数百个 Hadoop 节点上仍然会报说你安装有误。

12. Null 指针异常

我经常在运行过程中遇到这样的转换错误，换句话说，他们不应该在Pig、Hive 等数据查询和处理工具中被表示为 Null 指针异常。对任何相似的抱怨，都会有的答复，“欢迎补丁！”或者“嘿，我正在处理。”

Hadoop 已经出来很长时间了，它一直是我最喜欢的工具之一，但是那些令人发狂的尖锐问题也使我很生气。只是希望开发者能多用心解决这些问题。不知道你有没有相似的 Hadoop bug 可以拿出来和大家分享一下，目的是督促Hadoop能做得更好！

云服务器混合云盘点一下目前免费的云服务器 hadoop技术 hadoop技术介绍 hadoop技术入门

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/3890.html

#yyds干货盘点#Hadoop企业级生产调优手册(一)

摘要：恢复回收站数据二集群压测在企业中非常关心每天从后台拉取过来的数据，需要多久能上传到集群消费者关心多久能从上拉取需要的数据为了搞清楚的读写性能，生产环境上非常需要对集群进行压测。一、HDFS核心参数1.1 NameNode内存生产配置1. NameNode 内存计算每个文件块大概占用 150byte，一台服...

番茄西红柿 2021-11-26 11:10 评论0 收藏2637
盘点Hadoop生态圈：13个让大象飞起来的开源工具

摘要：与相同的元数据语法驱动程序和用户接口，可以直接在或上提供快速交互式查询。目前支持的组件包括及。 Hadoop是由Apache基金会开发的一个大数据分布式系统基础架构，最早版本是2003年原Yahoo! Doug Cutting根据Google发布的学术论文研究而来。用户可以在不了解分布式底层细节的情况下，轻松地在Hadoop上开发和运行处理海量数据的应用程序。低成本、高可靠、高扩展、高有...

syoya 2019-04-25 17:14 评论0 收藏0
盘点：世界前十超人气基于Hadoop的大数据初创企业

摘要：据估计，目前的生态系统市场价值大约为，，该研究公司预计，这一数字到年将迅速增加到亿美元。超人气初创公司前两名他们做什么主要为企业提供相关的大数据解决方案，并且将的袁术数据进行转换，为企业提供更智能的商业指导。这已经不再是什么秘密了，全球的数据正在以几何数字增长，借助这股数据浪潮在全球范围内迅速成长起来一大批Hadoop的初创型公司。作为Apache的一个开源分支Hadoop几乎已经成为了大...

marek 2019-04-25 17:17 评论0 收藏0
盘点SQL on Hadoop中用到的主要技术

摘要：存储层一般是，但也有可以查询，或者关系数据库的。在关系数据库中早有另一种优化方式，也就是基于代价的优化。这些都已经在关系数据库中得到了实践。考虑到系统使用的广泛程度与成熟度，在具体举例时一般会拿Hive和Impala为例，当然在调研的过程中也会涉及到一些其他系统，如Spark SQL，Presto，TAJO等。而对于HAWQ这样的商业产品和apache drill这样成熟度还不是很高的开源...

blastz 2019-04-25 17:18 评论0 收藏0
2012：云计算的春天

回顾2012，更多开放，更多协作，更多机会产生。从来没有一项服务会将几乎所有IT、互联网、通信技术整合在一起，没有合作、开放的心态就没有云计算。接下来，将从IaaS、NoSQL与NewSQL、数据中心、大数据、安全这几个方面对过去一年作出总结。IaaS——群雄追赶AWS谈到IaaS，Google和AWS是公认的业界最强。AWS是全球将IaaS这个business运营的较好的公司，除了技术领先，还要...

Vicky 2019-04-25 17:31 评论0 收藏0