700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 如何用计算机算分组数据方差 分组数据计算方差

如何用计算机算分组数据方差 分组数据计算方差

时间:2019-08-10 02:31:41

相关推荐

如何用计算机算分组数据方差 分组数据计算方差

是否有一种有效的方法来计算PySpark2中的GroupedData对象上的方差?

这里是我将如何计算平均值的示例代码,最小值和最大值一个GroupedData对象上,但我不知道如何计算方差:

from pyspark.sql import *

from pyspark.sql.session import SparkSession

spark = SparkSession.builder.getOrCreate()

columns = ['a', 'b']

vals = [('x', 3), ('x', 5), ('y', 1), ('y', 8), ('y', 4), ('z', 5), ('z', 7), ('z', 4), ('z', 9)]

df = spark.createDataFrame(vals, columns)

df.groupBy('a').agg(avg('b'), min('b'), max('b')).show()

数据帧df是这样的:

+---+---+

| a| b|

+---+---+

| x| 3|

| x| 5|

| y| 1|

| y| 8|

| y| 4|

| z| 5|

| z| 7|

| z| 4|

| z| 9|

+---+---+

我想创建一个类似于下面的一个新的数据框,显示方差:

+---+--------+

| a| b_var|

+---+--------+

| x| 1.0000|

| y| 8.2222|

| z| 3.6875|

+---+--------+

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。