转自:/fu6543210/article/details/80508182
《Python数据分析常用手册》NumPy和Pandas
1.NumPy
NumPy是高性能科学计算和数据分析的基础包。部分功能如下:
ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函数(无需编写循环)。用于读写磁盘数据的工具以及用于操作内存映射文件的工具。线性代数、随机数生成以及傅里叶变换功能。用于集成C、C++、Fortran等语言编写的代码的工具。
首先要导入numpy库:import numpy as np
A NumPy函数和属性:
表2.1.A.1 NumPy类型
表2.1.A.2 np常用函数
B NumPy.ndarray函数和属性:
表2.1.B.1 ndarray属性
表2.1.B.2 ndarray函数
表2.1.B.3 ndarray索引/切片方式
C NumPy.random函数和属性:
2.1.C.1 random常用函数
D NumPy.linalg函数和属性:
2.1.D.1 linalg常用函数
2.Pandas
pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
>>> from pandas import Series, DataFrame
>>> import pandas as pd
A.pandas
2.2.A.1 pandas常用函数
B.Series
Series可以运用ndarray或字典的几乎所有索引操作和函数,融合了字典和ndarray的优点。
2.2.B.1 Series常用属性
2.2.B.2 Series常用函数
reindex的method选项:
ffill, bfill向前填充/向后填充
pad, backfill向前搬运,向后搬运
rank的method选项
'average'在相等分组中,为各个值分配平均排名
'max','min'使用整个分组中的最小排名
'first'按值在原始数据中出现的顺序排名
C.DataFrame
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
DataFrame可以通过类似字典的方式或者.columnname的方式将列获取为一个Series。行也可以通过位置或名称的方式进行获取。
为不存在的列赋值会创建新列。
>>> del frame['xxx']# 删除列
2.2.C.1 DataFrame常用属性
2.2.C.2 Dataframe常用函数
2.2.C.3 Dataframe常用索引方式
运算:
默认情况下,Dataframe和Series之间的算术运算会将Series的索引匹配到的Dataframe的列,沿着列一直向下传播。若索引找不到,则会重新索引产生并集。
D.Index
pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。Index对象不可修改,从而在多个数据结构之间安全共享。
2.2.D.1 主要的Index属性