资讯专栏INFORMATION COLUMN

Python开发指南 托管Hadoop集群 UHadoop

ernest.wang / 3231人阅读

摘要:开发指南开发指南开发指南如果使用进行机器学习方面的数据分析,需要在集群上安装一些依赖包。以版本为例,安装方法如下是一款专为科学和工程设计的工具包。以版本为例,安装方法如下是下,专门面向机器学习的工具包。

developer/pythondev.md

Python开发指南

如果使用pyspark进行机器学习方面的数据分析,需要在集群上安装一些python依赖包。这里将介绍常用的几个依赖包的安装方法。更多的依赖包下载及安装,可以参考PyPI网站

因为部分依赖包不支持2.6版本。所以,以下所有安装均以Python2.7为例。建议将集群上的Python升级到2.7版本。

1. NumPy

NumPy一个用python实现的科学计算包,可用来存储和处理大型矩阵,比Python自身的嵌套列表结构要高效的多。

最新版NumPy可以在PyPI网站搜索到。

以numpy-1.12.0版本为例,安装方法如下:

unzip numpy-1.12.0.zip
cd numpy-1.12.0
python setup.py install
2. SciPy

SciPy是一款专为科学和工程设计的Python工具包。

最新版SciPy可以在PyPI网站搜索到。

在安装Scipy前,需要先安装好NumPy。

以scipy-0.18.1版本为例,安装方法如下:

tar zxf scipy-0.18.1.tar.gz
cd scipy-0.18.1
python setup.py install
3. Scikit-Learn

Scikit-Learn是SciPy下,专门面向机器学习的工具包。

最新版Scikit-Learn可以在PyPI网站搜索到。

在安装Scikit-Learn前,需要先安装好NumPy和Scipy。

以scikit-learn-0.18.1版本为例,安装方法如下:

tar zxf scikit-learn-0.18.1.tar.gz
cd scikit-learn-0.18.1
python setup.py install
4. Sympy

SymPy是Python的数学符号计算库,用它可以进行数学公式的符号推导。

最新版SymPy可以在PyPI网站搜索到。

以sympy-1.0版本为例,安装方法如下:

tar zxf sympy-1.0.tar.gz
cd sympy-1.0
python setup.py install
5. Pandas

Pandas (Python Data Analysis Library)是基于NumPy的解决数据分析任务的一种工具。

最新版Pandas可以在PyPI网站搜索到。

以pandas-0.19.2版本为例,安装方法如下:

tar zxf pandas-0.19.2.tar.gz
cd pandas-0.19.2
python setup.py install
6. Matplotlib

Matplotlib是Python常用的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。

最新版Matplotlib可以在PyPI网站搜索到。

以matplotlib-2.0.0版本为例,安装方法如下:

yum install libpng-devel libpng -y
tar zxf matplotlib-2.0.0.tar.gz
cd matplotlib-2.0.0
python setup.py install
7. MySQLdb

MySQLdb是Python提供的连接MySQL的接口。

最新版MySQLdb可以在PyPI网站搜索到。

以MySQL-python-1.2.5版本为例,安装方法如下:

yum install python-pip python-devel mysql-devel zlib-devel openssl-devel -y
unzip MySQL-python-1.2.5.zip
cd MySQL-python-1.2.5
python setup.py install

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/126892.html

相关文章

  • 托管Hadoop集群 快速上手 UHadoop

    摘要:也可以将托管集群设置为快捷方式,通过左侧快捷方式菜单栏点击进入。框架集群中仅部署。用于做存储集群,有专属的节点机型。节点管理节点,负责协调整个集群服务。目前仅节点支持绑定。通过云主机内网进行登录。登录密码为集群创建时设置的密码。 快速上手本篇目录创建集群提交任务本文档将带领您如何创建UHadoop集群,并使用UHadoop集群完成数据处理任务。创建集群本章简单介绍了用户使用UHadoop服务...

    ernest.wang 评论0 收藏295
  • Python 托管Hadoop集群 UHadoop

    Python如何为Python安装新的库?1.yum安装可以使用yum search命令来查找具体的包名称 请确认ucloud源上的版本是否和预期的版本一致 2.pip安装如果本地源上面没有,yum和pip都可以通过设置代理来通过有外网权限的机器来下载参考yum设置代理和pip设置代理3.源码安装可以在PyPI网站搜索需要的依赖包。下载后解压,并执行python setup.py install来...

    ernest.wang 评论0 收藏2223
  • Hue开发指南 托管Hadoop集群 UHadoop

    摘要:创建任务创建任务选择这个标签拖动到中。页面权限控制页面权限控制页面权限控制点击管理用户组选择要修改的组名称,设置相应权限并保存 Hue开发指南本篇目录1. 配置工作流2. Hue页面权限控制Hue是面向 Hadoop 的开源用户界面,可以让您更轻松地运行和开发 Hive 查询、管理 HDFS 中的文件、运行和开发 Pig 脚本以及管理表。服务默认已经启动,用户只需要配置外网IP,在防火墙中配...

    ernest.wang 评论0 收藏1340
  • 元数据管理 托管Hadoop集群 UHadoop

    摘要:架构架构元数据管理元数据管理元数据管理创建集群时可在控制台开启元数据独立管理。若项目中已开启过元数据独立管理,则新集群开启该功能时,不再创建新的,而是将新集群的元数据存储于已有的中。 元数据管理本篇目录介绍产品架构元数据管理介绍UHadoop 支持将 Hive-Metastore 的数据库独立于 Hadoop 集群部署,也支持多个集群访问同一个 Hive 元数据库,可在控制台对其做管理。产品...

    ernest.wang 评论0 收藏2953
  • 常用操作 托管Hadoop集群 UHadoop

    摘要:查看上的历史日志查看上的历史日志任务的日志在任务运行结束之后会上传到上,当日志文件过大无法通过来查看时,可以通过将日志文件从上下载下来查看。挂载在允许的主机上执行 常用操作本篇目录应用的Web接口查看日志配置NFS挂载hdfs到本地应用的Web接口Hadoop 提供了基于 Web 的用户界面,可通过它查看您的 Hadoop 集群。Web 服务会在主节点上运行(Active NameNode或...

    ernest.wang 评论0 收藏1142

发表评论

0条评论

ernest.wang

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<