【数据科学系统学习】Python # 数据分析基本操作[一] numpy

wushuiyong 发布于2019-07-31 11:11 / 1428人阅读

摘要：提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。结构化数据，例如多维数据矩阵表格行数据，其中各列可能是不同的类型字符串数值日期等。基础数组和矢量计算高性能科学计算和数据分析的基础包。

本篇内容为整理《利用Python进行数据分析》，博主使用代码为 Python3，部分内容和书本有出入。

利用 Python 进行科学计算的实用指南。本书重点介绍了用于高效解决各种数据分析问题的 Python 语言和库，没有阐述如何利用 Python 实现具体的分析方法。

重要的Python库

NumPy
NumPy (Numerical Python)是 Python 科学计算的基础包。

pandas
pandas 提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。

结构化数据 (structured data)，例如：

    · 多维数据（矩阵）
    · 表格行数据，其中各列可能是不同的类型（字符串、数值、日期等）。
    · 通过关键列相互联系的多个表（关键列：对于 SQL 用户而言，即主键和外键）。
    · 间隔平均或不平均的时间序列。

matplotlib
matplotlib 是最流行的用于绘制数据图表的 Python 库。

SciPy
SciPy 是一组专门解决科学计算中各种标准问题域的包的集合。

Numpy基础：数组和矢量计算

NUmPy (Numerical Python)——高性能科学计算和数据分析的基础包。

NumPy 的 ndarray：一种多维数组对象

你可以用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样。创建并操作多维数组：

ndarray对象中所有元素必须是相同类型的，每个数组都有一个shape和dtype。

shape ：表示各维度大小的元组

dtype ：说明数组数据类型的对象

创建 ndarray

创建数组最简单的办法就是使用 array 函数，它接受一切序列型对象（包括其它数组），然后产生一个新的NumPy数组（含有原来的数据）。

np.array会尝试为新建的这个数组推断出一个较为合适的数据类型，这个数据类型保存在一个特殊的dtype对象中。

zeros 和 ones 也分别可以创建指定大小的全 0 或全 1 数组，empty 可以创建一个没有任何具体值的数组（它返回的都是一些未初始化的垃圾值）：

arange是 Python 内置函数range的数组版，np.arange返回间隔均匀的一些值。

ndarray 的数据类型

dtype（数据类型）是一个特殊的对象，它含有 ndarray 将一块内存解释为特定数据类型所需的信息。

需要知道你所处理的数据的大致类型是浮点数、复数、整数、布尔值、字符串，还是普通的 python 对象。当你需要控制数据在内存和磁盘中的存储方式时，就得了解如何控制存储类型。

可通过ndarray的astype方法显示地转换其dtype：

若将浮点数转换成整数，则小数部分将会被截断。

若某字符串数组表示的全是数字，可用astype将其转换为数值形式：

这里没写 np.float64 只写了 float，但是NumPy会将 Python 类型映射到等价的dtype上。

数组的dtype的另一个用法：

int_array变成了和calibers一样的浮点型数组

用简洁类型的代码表示dtype：

u4(unit32)：无符号的 32 位（4个字节）整型。

调用astype无论如何都会创建出一个新的数组（原始数据的一份拷贝）。

浮点数只能表示近似的分数值，在复杂计算中可能会积累一些浮点错误，因此比较操作只在一定小数位以内有效。

数组和标量之间的运算

数组：可对数据执行批量运算（不用编写循环即可）。这通常叫做矢量化(vectorization)。

大小相等的数组之间，它们之间任何的算术运算都会应用到元素级（每个元素都做这个运算了），数组与标量的算术运算也是。

不同大小的数组之间的运算叫做广播(broadcasting)。

基本的索引和切片

数据不会被复制，任何修改都直接改了原数组。

如果仅是要一份副本，则用 .copy()。

对二维数组单个元素的索引：

这两种方式等价。

若arr2d[2]，则输出的是一维数组[7,8,9]。

2*2*3的数组（2组2行3列）：

切片索引

布尔型索引

需要先引入：

from numpy.random import randn

或将代码改成

data = np.random.randn(7, 4)

布尔型数组的长度必须跟被索引的轴长度一致。每个名字对应 data 数组一行。

对条件进行否定的两种方式：

组合应用多个布尔条件，可使用&、|等布尔算术运算符：

通过布尔型索引选取数组中的数组，将总是创建数据的副本，即使返回一模一样的数组也是一样。

通过布尔型数组设置值：

通过一维布尔数组设置整行或列的值：

花式索引（Fancy indexing）

指利用整数数组进行索引。

np.empty((8,4))
Return a new array of given shape and type, without initializing entries.

for i in range(8):
    arr[i] = i 

Return an object that produces a sequence of integers from start (inclusive)
to stop (exclusive) by step.

为了以特定顺序选取行的子集，只需传入一个用于指定顺序的整数列表或 ndarray，使用负数索引会从末尾开始选取行（最后一行是 -1）。

一次传入多个索引组，返回一个一维数组：

取整列的两种方法，相当于给列排了顺序：

花式索引跟切片不一样，总是将数据复制到新数组中。

数组转置和轴对换

转置返回的是源数据的视图，不进行任何复制操作。数组有 transpose 方法，还有一个 T 属性来完成转置：

高维数组
Transpose 要一个轴编号：

arr是 2 组 2 行 4 列的数组，transpose的参数表示shape的形状，对于这个例子来说，即2[0]、2[1]、4[2]，transpose(1,0,2)转置后变为2[1]、2[0]、4[2]，看起来仍是 2 组 2 行 4 列的形状，但数组内的元素经过转换后索引已经改变，也要遵循（1，0，2）的顺序。如转置前的数组arr[0,1,0]索引值为 4，转置后的数组arr"[1,0,0]，索引值才为 4。其它同理。

ndarray 的 swapaxes 方法接受一对轴编号且返回源数据的视图：

转置后的数组arr.T为 4[2] 组 2[1] 行 2[0] 列数组，swapaxes(1,2)就是将第二个维度（中括号内数字）和第三个维度交换，即转换为 2 组 4 行 2 列。

通用函数：快速的元素级数组函数

通用函数（即 ufunc）是一种对ndarray中的数据执行元素级运算的函数，就是一些简单函数。

利用数组进行数据处理

用数组表达式代替循环的做法，通常被称为矢量化。NumPy 数组将多种数据处理任务表述为数组表达式。

np.meshgrid函数接受两个一维数组，并产生两个二维矩阵（对应于两个数组中所有的（x, y）对。

将条件逻辑表述为数组运算

np.wherea函数是三元表达式x if condition else y的矢量化版本。

np.where的第二个和第三个参数不必是数组，传递给where的数组大小可以不相等，甚至可以是标量值。在数据分析工作中，where通常用于根据另一个数组而产生一个新的数组。

用where表述出更复杂的逻辑：（where的嵌套）

用于布尔型数组的方法

有两个方法any和all。

排序

多维数组可以在任何一个轴向上进行排序，只需将轴编号传给sort：

顶级方法np.sort返回的数组已排序的副本，就地排序则会修改数组。

唯一化以及其他的集合逻辑

np.unique找出数组中的唯一值并返回已排序的结果。

np.in1d用于测试一个数组的值在另一个数组的情况。

随机数生成

numpy.random模块多了用于高效生产多种概率分布的样本值的函数（用来生成大量样本值）。

不足之处，欢迎指正。

GPU云服务器云服务器 numpy数组操作 numpy数据分析 python_numPy python安装numpy

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/44753.html

【数据科学系统学习】Python # 数据分析基本操作[二] pandas

摘要：中面向行和面向列的操作基本是平衡的。用层次化索引，将其表示为更高维度的数据。使用浮点值表示浮点和非浮点数组中的缺失数据。索引的的格式化输出形式选取数据子集在内层中进行选取层次化索引在数据重塑和基于分组的操作中很重要。我们在上一篇介绍了 NumPy，本篇介绍 pandas。 pandas入门 Pandas 是基于Numpy构建的，让以NumPy为中心的应用变的更加简单。 pandas...

jayzou 2019-07-31 11:11 评论0 收藏0
【数据科学系统学习】机器学习算法 # 西瓜书学习记录 [3] Logistic 回归实践

摘要：根据错误率决定是否回退到训练阶段，通过改变迭代的次数和步长等参数来得到更好的回归系数。使用回归方法进行分类所需做的是把测试集上每个特征向量乘以最优化方法得来的回归系数，再将该乘积结果求和，最后输入到函数即可。本篇内容为《机器学习实战》第 5 章 Logistic 回归程序清单。书中所用代码为 python2，下面给出的程序清单是在 python3 中实践改过的代码，希望对你有帮助。...

MSchumi 2019-07-30 17:40 评论0 收藏0
【数据科学系统学习】Python # 数据分析基本操作[三] matplotlib

摘要：有一些表示常见图形的对象称为块，完整的集合位于。中的绘图函数在中，有行标签列标签分组信息。密度图通过计算可能会产生观测数据的连续概率分布的估计而产生的。在探索式数据分析工作中，同时观察一组变量的散布图是很有意义的。我们在上一篇介绍了 pandas，本篇介绍 matplotlib。绘图和可视化一个用于创建出版质量图表的桌面绘图包。 Matplotlib API入门 Figure ...

BDEEFE 2019-07-31 11:10 评论0 收藏0
【数据科学系统学习】Python # 数据分析基本操作[四] 数据规整化和数据聚合与分组运算

摘要：数据规整化清理转换合并重塑数据聚合与分组运算数据规整化清理转换合并重塑合并数据集可根据一个或多个键将不同中的行链接起来。函数根据样本分位数对数据进行面元划分。字典或，给出待分组轴上的值与分组名之间的对应关系。本篇内容为整理《利用Python进行数据分析》，博主使用代码为 Python3，部分内容和书本有出入。在前几篇中我们介绍了 NumPy、pandas、matplotlib 三个...

The question 2019-07-31 11:11 评论0 收藏0