700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 实现回归预测美国波士顿地区房价过程中出现的问题

实现回归预测美国波士顿地区房价过程中出现的问题

时间:2021-09-23 14:39:48

相关推荐

实现回归预测美国波士顿地区房价过程中出现的问题

我是参考“python学习及实践——从零开始通往Kaggle竞赛之路”来练习回归预测算法的,并采用三种回归评价机制(MAE, MSE, R-squared)来评价回归性能。

一、读取波士顿房价数据

#导入波士顿房价数据读取器from sklearn.datasets import load_boston#读取房价数据boston = load_boston()#输出数据描述print(boston.DESCR)

输出大致如下:

二、美国波士顿地区房价数据分割

#导入数据分割器from sklearn.model_selection import train_test_splitimport numpy as npX = boston.datay = boston.target#随机采样25%的数据作为测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 33)#分析回归目标值的差异print("The max target value is", np.max(boston.target))print("The min target value is", np.min(boston.target))print("The average target value is", np.mean(boston.target))

大致输出如下:

三、训练与测试数据的标准化处理

由于各房子的房价之间差异较大,所以需要对特征及目标值进行标准化处理。

from sklearn.preprocessing import StandardScaler#分别初始化对特征和目标值的标准化器ss_X = StandardScaler()ss_y = StandardScaler()#分别对训练和测试数据的特征以及目标值进行标准化处理X_train = ss_X.fit_transform(X_train)X_test = ss_X.transform(X_test)y_train = ss_y.fit_transform(y_train)y_test = ss_y.fit_transform(y_test)

结果报错并提示我们:

ValueError: Expected 2D array, got 1D array instead:

Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

要求我们:如果说我们的数据只有单个特征,就需要使用array.reshape(-1, 1)来转换我们的数据;如果数据包含单个实例,就要使用array.reshape(1, -1)来转换数据。

array.reshape(-1, 1)的意思是我们只想将数据变成一列而不管转换后到底有多少行。

所以代码修改如下:

from sklearn.preprocessing import StandardScaler#分别初始化对特征和目标值的标准化器ss_X = StandardScaler()ss_y = StandardScaler()#为数据增加一个维度y_train = y_train.reshape(-1, 1)y_test = y_test.reshape(-1, 1)#分别对训练和测试数据的特征以及目标值进行标准化处理X_train = ss_X.fit_transform(X_train)X_test = ss_X.transform(X_test)y_train = ss_y.fit_transform(y_train)y_test = ss_y.fit_transform(y_test)

四.使用线性回归模型LinearRegression和SGDRegressor分别对美国波士顿地区的房价进行预测

from sklearn.linear_model import LinearRegression#使用默认配置初始化线性回归器LinearRegressionlr = LinearRegression()#使用训练数据进行参数估计lr.fit(X_train, y_train)#对测试数据进行回归预测lr_y_pred = lr.predict(X_test)from sklearn.linear_model import SGDRegressor#使用默认配置初始化线性回归器sgdr = SGDRegressor()#使用训练数据进行参数估计sgdr.fit(X_train, y_train)#回归预测sgdr_y_pred = sgdr.predict(X_test)

五、使用三种回归评价机制以及两种调用R-squared评价模块的方法,対本节模型的回归性能作出评价

#使用LinearRegression模型自带的评估模块,并输出评估结果print ('The value of default measurement of LinearRegression is', lr.score(X_test, y_test))#依次导入r2_score,mean_squared_error以及mean_absoluate_error用于回归性能的评估from sklearn.metrics import r2_score, mean_squared_error, mean_absolute_error#使用r2_score模块,输出评估结果print ("The value of R-squared of LinearRegression is", r2_score(y_test, lr_y_pred))#使用mean_squared_error模块,输出评估结果print ("The value of mean_squared_error of LinearRegression is", mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lr_y_pred)))#使用mean_absolute_error模块,输出评估结果print ("The value of mean_absolute_error of LinearRegression is", mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(lr_y_pred)))#使用SGDRegressor模型自带的评估模块,输出评估结果print('The value of default measurement of SGDRegression is', sgdr.score(X_test, y_test))#使用r2_score模块,输出评估结果print('The value of R-squared of SGDRegression is', r2_score(y_test, sgdr_y_pred))#使用mean_squared_error模块,输出评估结果print("The value of mean squared error of SGDRegression is", mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(sgdr_y_pred)))#使用mean_absolute_error模块,输出评估结果print("The value of mean absolute error of SGDRegression is", mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(sgdr_y_pred)))

运行结果如下:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。