一、问题背景
现实生活中,在一系列时间点上观测数据是司空见惯的活动,在农业、商业、气象军事和医疗等研究领域都包含大量的时间序列数据。时间序列的预测指的是基于序列的历史数据,以及可能对结果产生影响的其他相关序列,对序列未来的可能取值做出预测。现实生活中的时间序列数据预测问题有很多,包括语音分析、噪声消除以及股票期货市场的分析等,其本质主要是根据前T个时刻的观测数据推算出T+1时刻的时间序列的值。
那么面对时间序列的预测问题,我们可以用传统的ARIMA模型,也可以用基于时间序列分解的STL模型或者Facebook开源的Prophet模型。在机器学习或者人工智能大热的现在,深度学习等机器学习方法也可以用于时间序列的预测。今天介绍的就是如何基于Keras和Python,实现时间序列的LSTM模型预测。
二、LSTM模型介绍
长短时记忆网络(Long Short Term Memory,简称LSTM)模型,本质上是一种特定形式的循环神经网络(Recurrent Neural Network,简称RNN)。LSTM模型在RNN模型的基础上通过增加门限(Gates)来解决RNN短期记忆的问题,使得循环神经网络能够真正有效地利用长距离的时序信息。LSTM在RNN的基础结构上增加了输入门限(Input Gate)、输出门限(Output Gate)、遗忘门限(Forget Gate)3个逻辑控制单元,且各自连接到了一个乘法元件上(见图1),通过设定神经网络的记忆单元与其他部分连接的边缘处的权值控制信息流的输入、输出以及细胞单元(Memory cell)的状态。其具体结构如下图所示。
图1:LSTM概念图
上图中相关部件的描述如下:
Input Gate:控制信息是否流入Memory cell中,记为。
Forget Gate:控制上一时刻Memory cell中的信息是否积累到当前时刻Memory cell中,记为。
Output Gate:控制当前时刻Memory cell中的信息是否流入当前隐藏状态中,记为。
cell:记忆单元,表示神经元状态的记忆,使得LSTM单元有保存、读取、重置和更新长距离历史信息的能力,记为。
在t时刻,LSTM神经网络定义的公式如下:
除了前文提及的、、和,分别代表其相应门限的递归连接权重,sigmoid和tanh为两种激活函数。
隐藏层cell结构图如图2所示。在LSTM神经网络的训练过程中,首先将t时刻的数据特征输入至输入层,经过激励函数输出结果。将输出结果、t-1时刻的隐藏层输出和t-1时刻cell单元存储的信息输入LSTM结构的节点中,通过Input Gate,Output Gate,Forget Gate和cell单元的处理,输出数据到下一隐藏层或输出层,输出LSTM结构节点的结果到输出层神经元,计算反向传播误差,更新各个权值。
图2:LSTM细节图
三、LSTM模型准备
3.1 加载需要的包
fromnumpyimportconcatenate frommatplotlibimportpyplot frompandasimportread_csv frompandasimportDataFrame frompandasimportconcat fromsklearn.preprocessingimportMinMaxScaler fromsklearn.preprocessingimportLabelEncoder fromsklearn.metricsimportmean_squared_error fromkeras.modelsimportSequential fromkeras.layersimportDense fromkeras.layersimportLSTM importpandasaspd importnumpyasnpfrommathimportsqrt
3.2 定义将时间序列预测问题转化为监督学习问题的函数
前文已经提及,时间序列预测的本质主要是根据前T个时刻的观测数据推算出T+1时刻的时间序列的值。这就转化为机器学习中的监督学习问题,输入值为历史值,输出值为预测值。因此,利用LSTM模型进行时间序列预测的第一步便是将数据集整理成监督学习中常见的数据类型,一行为一个样本,行数为样本数,列数为变量总数。这里利用的是pandas库中dataframe的shift函数。
n_vars=1iftype(data)islistelsedata.shape[1] df=DataFrame(data) cols,names=[],[] #i:n_in,n_in-1,...,1,为滞后期数 #分别代表t-n_in,...,t-1期 foriinrange(n_in,0,-1): cols.append(df.shift(i)) names+=[('var%d(t-%d)'%(j+1,i))forjinrange(n_vars)] #i:0,1,...,n_out-1,为超前预测的期数 #分别代表t,t+1,...,t+n_out-1期 foriinrange(0,n_out): cols.append(df.shift(-i)) ifi==0: names+=[('var%d(t)'%(j+1))forjinrange(n_vars)] else: names+=[('var%d(t+%d)'%(j+1,i))forjinrange(n_vars)] agg=concat(cols,axis=1) agg.columns=names ifdropnan: agg.dropna(inplace=True) returnaggdefseries_to_supervised(data,n_in=1,n_out=1,dropnan=True):
3.3 定义准备数据的函数
#读取数据集 dataset=read_csv(filepath,encoding='utf-8') #设置时间戳索引 dataset['日期']=pd.to_datetime(dataset['日期']) dataset.set_index("日期",inplace=True) values=dataset.values #保证所有数据都是float32类型 values=values.astype('float32') #变量归一化 scaler=MinMaxScaler(feature_range=(0,1)) scaled=scaler.fit_transform(values) #将时间序列问题转化为监督学习问题 reframed=series_to_supervised(scaled,n_in,n_out) #取出保留的变量 contain_vars=[] foriinrange(1,n_in+1): contain_vars+=[('var%d(t-%d)'%(j,i))forjinrange(1,n_vars+1)] data=reframed[contain_vars+['var1(t)']+[('var1(t+%d)'%(j))forjinrange(1,n_out)]] #修改列名 col_names=['Y','X1','X2','X3'] contain_vars=[] foriinrange(n_vars): contain_vars+=[('%s(t-%d)'%(col_names[i],j))forjinrange(1,n_in+1)] data.columns=contain_vars+['Y(t)']+[('Y(t+%d)'%(j))forjinrange(1,n_out)] #分隔数据集,分为训练集和测试集 values=data.values n_train=round(data.shape[0]*train_proportion) train=values[:n_train,:] test=values[n_train:,:] #分隔输入X和输出y train_X,train_y=train[:,:n_in*n_vars],train[:,n_in*n_vars:] test_X,test_y=test[:,:n_in*n_vars],test[:,n_in*n_vars:] #将输入X改造为LSTM的输入格式,即[samples,timesteps,features] train_X=train_X.reshape((train_X.shape[0],n_in,n_vars)) test_X=test_X.reshape((test_X.shape[0],n_in,n_vars)) returnscaler,data,train_X,train_y,test_X,test_y,datasetdefprepare_data(filepath,n_in,n_out=30,n_vars=4,train_proportion=0.8):
3.4 定义拟合LSTM模型的函数
train_X=data_prepare[2] train_y=data_prepare[3] test_X=data_prepare[4] test_y=data_prepare[5] model_list=[] foriinrange(repeats): #设计神经网络 model=Sequential() model.add(LSTM(n_neurons,input_shape=(train_X.shape[1],train_X.shape[2]))) model.add(Dense(train_y.shape[1])) pile(loss=loss,optimizer=optimizer) #拟合神经网络 history=model.fit(train_X,train_y,epochs=n_epoch,batch_size=n_batch,validation_data=(test_X,test_y),verbose=0,shuffle=False) #画出学习过程 p1=pyplot.plot(history.history['loss'],color='blue',label='train') p2=pyplot.plot(history.history['val_loss'],color='yellow',label='test') #保存model model_list.append(model) pyplot.legend(["train","test"]) pyplot.show() returnmodel_listdeffit_lstm(data_prepare,n_neurons=50,n_batch=72,n_epoch=100,loss='mae',optimizer='adam',repeats=1):
3.5 定义预测的函数
scaler=data_prepare[0] test_X=data_prepare[4] test_y=data_prepare[5] #做出预测 yhat=model.predict(test_X) #将测试集上的预测值还原为原来的数据维度 scale_new=MinMaxScaler() scale_new.min_,scale_new.scale_=scaler.min_[0],scaler.scale_[0] inv_yhat=scale_new.inverse_transform(yhat) #将测试集上的实际值还原为原来的数据维度 inv_y=scale_new.inverse_transform(test_y) returninv_yhat,inv_ydeflstm_predict(model,data_prepare):
3.6 定义预测评价的函数(RMSE)
defevaluate_forecasts(test,forecasts,n_out): rmse_dic={} foriinrange(n_out): actual=[float(row[i])forrowintest] predicted=[float(forecast[i])forforecastinforecasts] rmse=sqrt(mean_squared_error(actual,predicted)) rmse_dic['t+'+str(i+1)+'RMSE']=rmse returnrmse_dic#计算每一步预测的RMSE
3.7 定义将预测可视化的函数
defplot_forecasts(series,forecasts): #用蓝色画出原始数据集 pyplot.plot(series.values) n_seq=len(forecasts[0]) #用红色画出预测值 foriinrange(1,len(forecasts)+1): xaxis=[xforxinrange(i,i+n_seq+1)] yaxis=[float(series.iloc[i-1,0])]+list(forecasts[i-1]) pyplot.plot(xaxis,yaxis,color='red') #展示图像 pyplot.show()#以原始数据为背景画出预测数据
四、建立LSTM模型
4.1 建立模型(n_in = 15,n_neuron = 5,n_batch = 16,n_epoch = 200)
为了减少随机性,重复建立五次模型,取五次结果的平均作为最后的预测。
filepath=r'C:\Users\87689\Desktop\国贸实习\Premium\导出文件.csv' n_in=15 n_out=30 n_vars=4 n_neuron=5 n_batch=16 n_epoch=200 repeats=5 inv_yhat_list=[] inv_y_list=[] data_prepare=prepare_data(filepath,n_in,n_out) scaler,data,train_X,train_y,test_X,test_y,dataset=data_prepare model_list=fit_lstm(data_prepare,n_neuron,n_batch,n_epoch,repeats=repeats) foriinrange(len(model_list)): model=model_list[i] inv_yhat=lstm_predict(model,data_prepare)[0] inv_y=lstm_predict(model,data_prepare)[1] inv_yhat_list.append(inv_yhat) inv_y_list.append(inv_y)#定义需要的变量
图3:模型训练结果
求出平均预测结果。
foriinrange(repeats): inv_yhat_ave+=inv_yhat_list[i] inv_yhat_ave=inv_yhat_ave/repeatsinv_yhat_ave=np.zeros(inv_y.shape)
4.2 模型评价
求出五次预测结果inv_yhat及最终平均预测结果inv_yhat_ave的每步预测RMSE。
foriinrange(len(model_list)): inv_yhat=inv_yhat_list[i] inv_y=inv_y_list[i] rmse_dic=evaluate_forecasts(inv_y,inv_yhat,n_out) rmse_dic_list.append(rmse_dic) rmse_dic_list.append(evaluate_forecasts(inv_y,inv_yhat_ave,n_out)) df_dic={} foriinrange(len(rmse_dic_list)-1): df_dic['第'+str(i+1)+'次']=pd.Series(rmse_dic_list[i]) df_dic['平均']=pd.Series(rmse_dic_list[i+1]) rmse_df=DataFrame(df_dic) rmse_dfrmse_dic_list=[]
表1:预测RMSE结果表
下面求最终平均预测结果inv_yhat_ave的每步预测错误率的平均,平均来看,预测结果会比真实结果偏高。
erro_rate=np.zeros(s) foriinrange(len(inv_y)): erro_rate+=inv_yhat_ave[i]/inv_y[i]-1 erro_rate_ave=erro_rate/len(inv_y) err_df=DataFrame(pd.Series(erro_rate_ave)) err_df.columns=['平均预测错误率'] err_df.index=['超前%d步预测'%(i+1)foriinrange(n_out)] err_dfs=inv_yhat_ave[0].shape
表2:按步平均预测错误率结果表
4.3 预测结果可视化
测试集的前十个样本
test_X=data_prepare[4] n_real=len(dataset)-len(test_X)-len(inv_yhat_ave[0]) #多画一个 y_real=DataFrame(dataset['Y'][n_real:n_real+10+30]) plot_forecasts(y_real,inv_yhat_ave[0:10])dataset=data_prepare[6]
图4:预测结果可视化1
整个测试集
#多画一个 y_real=DataFrame(dataset['Y'][n_real:]) plot_forecasts(y_real,inv_yhat_ave)n_real=len(dataset)-len(test_X)-len(inv_yhat[0])
图4:预测结果可视化2
4.4 结果导出
Yhat
#时间戳处理,让它只显示到日 date_index=dataset.index[n_in-1+len(train_X)-1:n_in-1+len(train_X)+len(test_X)-1] pydate_array=date_index.to_pydatetime() date_only_array=np.vectorize(lambdas:s.strftime('%Y-%m-%d'))(pydate_array) date_only_series=pd.Series(date_only_array) pre_df=pre_df.set_index(date_only_series) names_columns=['未来%d期'%(i+1)foriinrange(n_out)] pre_df.columns=names_columns pre_df=pre_df.round(decimals=2)#小数点pre_df=DataFrame(inv_yhat_ave)
Y
names_columns=['未来%d期'%(i+1)foriinrange(n_out)] actual_df.columns=names_columns actual_df=actual_df.set_index(date_only_series) actual_df=actual_df.round(decimals=2)actual_df=DataFrame(inv_y)
导出xlsx
pre_df.to_excel(writer,"Yhat") actual_df.to_excel(writer,"Y") writer.save()writer=pd.ExcelWriter('Y-结果导出.xlsx')
参考资料:
/multivariate-time-series-forecasting-lstms-keras/
/multi-step-time-series-forecasting-long-short-term-memory-networks-python/
/qq_28031525/article/details/79046718
/developer/article/1645547
/update-lstm-networks-training-time-series-forecasting/