700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > python 绘制箱型图_Python数据可视化:Seaborn 绘制箱形图

python 绘制箱型图_Python数据可视化:Seaborn 绘制箱形图

时间:2019-01-03 07:48:13

相关推荐

python 绘制箱型图_Python数据可视化:Seaborn 绘制箱形图

课程总览:

Seaborn是Python中使用最广泛的数据可视化库之一,作为Matplotlib的扩展。它提供了一个简单、直观、但高度可定制的数据可视化应用程序接口(API)。

在本教程中,我们将看看如何在 Seaborn 中绘制一个箱形图。

箱形图(Box-plot),是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比 较。箱线图的绘制方法是:先找出一组数据的上边缘、下边缘、中位数和两个四分位数;然后, 连接两个四分位数画出箱体;再将上边缘和下边缘与箱体相连接,中位数在箱体中间。

导入数据

我们需要选择具有连续特征的数据集来创建箱线图,因为箱线图显示连续变量的汇总统计数据——数据集的中位数和范围。我们将使用森林火灾数据集:,数据连接如下:

先导入我们需要使用的模块:

我们使用Pandas来读取CSV文件,并通过打印其前面几行数据来检查数据包含项。另外,我们要检查数据集是否包含任何缺失的值:

第二个print语句返回False,这意味着没有任何丢失的数据。如果有,我们就必须处理丢失的值。

在我们检查数据集的一致性之后,我们想要选择我们想要可视化的连续特征。为了方便起见,我们将它们保存为自己的变量:

用 Seaborn 绘制箱形图

现在我们已经加载了数据并选择了我们想要可视化的变量,我们可以创建箱形图了!

我们可以通过使用 Seaborn 的 boxplot 函数来创建箱形图。我们传入数据集以及我们想要可视化的变量:

运行上面程序,绘制如下图:

如果我们想看分类型的数据分布,如每周不同天数的DMC的分布,可以采用如下方式:

运行上面程序,绘制如下图:

如果我们想同时可视化多个列,我们应该为x和y参数提供什么呢?

我们可以创建一个新的数据集,这个数据集值包含我们想要可视化的变量,并使用 melt() 方法传到 data 的参数中,提供诸如 x='variable' 和 y='value' 这样的标签:

运行上面程序,绘制如下图:

自定义箱形图

更改颜色

Seaborn会自动将不同的颜色分配给不同的变量,这样我们就可以很容易地从视觉上区分它们。不过,如果我们想要指定它们,我们也可以提供要使用的颜色列表。

在选择了一个带有十六进制值的颜色列表后,我们可以将它们传递到 palette 参数:

运行上面程序,绘制如下图:

定制轴标签

我们可以使用Seaborn轻松地调整x轴和y轴标签,如更改字体大小,更改标签,或旋转它们使标记更容易阅读:

运行上面程序,绘制如下图:

排序

如果我们想要以特定的顺序查看这些变量,我们可以使用order参数,并按照你想要的顺序提供列名:

运行上面程序,绘制如下图:

包含子图

如果我们想要将各个特性的图分离到它们自己的子图中,我们可以通过使用Matplotlib中的subplot函数创建图形和轴来实现这一点。然后,我们使用axis对象并通过它们的索引访问它们。boxplot()函数接受一个ax参数,指定它应该绘制在哪个坐标轴上:

运行上面程序,绘制如下图:

带有数据点的箱形图

我们甚至可以将数据点覆盖到箱形图上,以便看到包含该分布的点的分布和样本,以及更多细节。

运行上面程序,绘制如下图:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。