机器学习笔记-LSTM(长短时记忆网络)
itomcoil 2024-12-22 18:53 28 浏览
一 简介
LSTM网络,即长短期记忆网络,是循环神经网络(RNN)的一种高级形式,擅长捕捉数据中的长期依赖关系。
二 实现
(1)数据集:
百度网盘链接:https://pan.baidu.com/s/1oHPLWcs3XnFqJnJfKcLStQ
提取码:clyz
(2)环境:pytorch、sklearn、pandas、matplotlib、numpy
(3)导入包:
import pandas as pd
from matplotlib import pyplot as plt # 结果可视化
from torch import nn
import time
import matplotlib.pyplot as plt
import numpy as np
from typing import Tuple
from sklearn.preprocessing import MinMaxScaler
import torch
(4)设置显示中文:
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
(5)定义网络:
class LSTM_Regression(nn.Module):
"""
使用LSTM进行回归
参数:
- input_size: 输入维度
- hidden_size: 隐藏层维度
- output_size: 输出维度
- num_layers: cell的层数
- dropout: 遗忘率
- learning_rate: 学习率
- batch_size: 批大小
"""
def __init__(self, input_size, hidden_size, output_size=1, num_layers=2, dropout=0.2, learning_rate=0.001, batch_size=32):
super().__init__()
self.lstm = nn.LSTM(input_size, hidden_size, num_layers) # LSTM层
self.fc = nn.Linear(hidden_size, output_size) # 全连接层
def forward(self, _x):
x, _ = self.lstm(_x) # 输入数据和隐藏层输出
s, b, h = x.shape # 输入数据的形状
x = x.view(s * b, h) # 展开输入数据
x = self.fc(x) # 全连接层
x = x.view(s, b, -1) # 还原输入数据的形状
return x
(6)定义数据集:
def create_dataset(data, days_for_train=5) -> Tuple[np.array, np.array]:
"""
根据给定的序列data,生成数据集
数据集分为输入和输出,每一个输入的长度为days_for_train,每一个输出的长度为1。
也就是说用days_for_train天的数据,对应下一天的数据。
若给定序列的长度为d,将输出长度为(d-days_for_train+1)个输入/输出对
"""
dataset_x, dataset_y = [], []
for i in range(len(data) - days_for_train):
_x = data[i:(i + days_for_train)]
dataset_x.append(_x)
dataset_y.append(data[i + days_for_train])
return (np.array(dataset_x), np.array(dataset_y))
(7)读取并查看数据:
# 读取数据
data = pd.read_csv('D:/myfile/myWorkSpace/参与的项目/备品备件-07.05/0708预处理/0718_datas/02/电力负荷.csv')
# 转换为时间格式
data['出库日期'] = pd.to_datetime(data['出库日期'])
# print(data.head())
df = data.rename(columns={'出库日期': 'ds', '数量和': 'y'})
plt.plot(df['y'])
plt.show()
(8)MinMaxScaler数据归一化
# 创建一个MinMaxScaler实例
scaler = MinMaxScaler()
# 使用fit_transform方法来拟合数据并进行转换
df_normalized = scaler.fit_transform(df['y'].values.reshape(-1, 1))
plt.plot(df_normalized)
plt.show()
(9)获取并打印数据集:
dataset_x, dataset_y = create_dataset(df_normalized, DAYS_FOR_TRAIN)
print(dataset_x.shape, dataset_y.shape)
(10)数据集准备:
train_size = int(len(dataset_x) * 0.8)
train_x = dataset_x[:train_size]
train_y = dataset_y[:train_size]
# 将数据改变形状,RNN 读入的数据维度是 (seq_size, batch_size, feature_size)
train_x = train_x.reshape(-1, 1, DAYS_FOR_TRAIN)
train_y = train_y.reshape(-1, 1, 1)
# 转为pytorch的tensor对象
train_x = torch.from_numpy(train_x).to(torch.float32)
train_y = torch.from_numpy(train_y).to(torch.float32)
(11)使用模型:
model = LSTM_Regression(DAYS_FOR_TRAIN, 60, output_size=1, num_layers=2, dropout=0.2, learning_rate=0.001, batch_size=32)
(12)开始训练:
train_loss = []
loss_function = nn.MSELoss()
optimizer = torch.optim.Adam(model.parameters(), lr=1e-2, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)
for i in range(200):
out = model(train_x)
loss = loss_function(out, train_y)
loss.backward()
optimizer.step()
optimizer.zero_grad()
train_loss.append(loss.item())
(13)绘制损失曲线:
# loss曲线
plt.figure()
plt.plot(train_loss, 'b', label='loss')
plt.title("Train_Loss_Curve")
plt.ylabel('train_loss')
plt.xlabel('epoch_num')
plt.legend()
plt.show()
(14)模型评估:
model = model.eval() # 转换成评估模式
# 注意这里用的是全集 模型的输出长度会比原数据少DAYS_FOR_TRAIN 需要填充使长度相等
dataset_x = dataset_x.reshape(-1, 1, DAYS_FOR_TRAIN)
dataset_x = torch.from_numpy(dataset_x).to(torch.float32) # 转为pytorch的tensor对象
pred_test = model(dataset_x) # 全量训练集
pred_test = pred_test.view(-1).data.numpy()
pred_test = np.concatenate((np.zeros(DAYS_FOR_TRAIN), pred_test)) # 填充0 使长度相同
(15)逆变换预测结果:
# 逆变换预测结果
preds = scaler.inverse_transform(pred_test.reshape(-1, 1))
reals = scaler.inverse_transform(df_normalized.reshape(-1, 1))
(16)绘图(预测值-实际值):
(17)计算准确率:
# 计算准确率
errors = abs(preds - reals)
errors_01 = [e < t * 0.01 for e, t in zip(errors, reals)]
errors_03 = [e < t * 0.03 for e, t in zip(errors, reals)]
errors_05 = [e < t * 0.05 for e, t in zip(errors, reals)]
errors_10 = [e < t * 0.10 for e, t in zip(errors, reals)]
errors_15 = [e < t * 0.15 for e, t in zip(errors, reals)]
count_01 = np.mean(errors_01)
count_03 = np.mean(errors_03)
count_05 = np.mean(errors_05)
count_10 = np.mean(errors_10)
count_15 = np.mean(errors_15)
print("误差 1%: ", count_01)
print("误差 3%: ", count_03)
print("误差 5%: ", count_05)
print("误差 10%: ", count_10)
print("误差 15%: ", count_15)
三 小结
模型没有进行任何处理,直接预测的结果较好,如果想进一步提高模型的精度,需要进行参数调整:
- 隐藏状态维度(hidden size/dimension):定义LSTMLSTM记忆细胞的容量。较大的隐藏尺寸可以捕获更复杂的信息,但也会增加计算成本和过拟合的风险。
- 层数(num_layers):LSTM层的数量。增加层数可以学习更深层次的特征表示,但也可能带来梯度消失/爆炸问题,并增加训练时间和计算资源需求。
- 学习率(learning rate):这是优化器在梯度下降过程中更新权重的步长。选择合适的学习率很关键,过高可能导致训练不稳定,过低则收敛速度慢。常见的初始学习率范围为10e-2至10e?4,并可能在训练过程中动态调整。
- 批量大小(batch size):每次迭代时处理的数据样本数量。较大的批量可以加速计算,但可能会导致泛化能力降低和内存需求增加。较小的批量提供了更好的泛化能力,但训练速度较慢。
- 激活函数:虽然不是直接的超参数,但选择不同的激活函数(如tanh、ReLU或softsign)会影响模型的训练动态和性能。
- 优化器(optimizer):如Adam、RMSprop、SGD等,不同的优化器有不同的更新规则,影响学习效率和最终性能。
- dropout比例:在训练过程中随机“丢弃”一部分神经元以减少过拟合,常见的dropout比例为0.2至0.5。
- 序列长度(sequence length):对于时间序列数据,决定输入序列的长度,可能影响模型理解和捕捉长期依赖的能力。
相关推荐
- selenium(WEB自动化工具)
-
定义解释Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaF...
- 开发利器丨如何使用ELK设计微服务中的日志收集方案?
-
【摘要】微服务各个组件的相关实践会涉及到工具,本文将会介绍微服务日常开发的一些利器,这些工具帮助我们构建更加健壮的微服务系统,并帮助排查解决微服务系统中的问题与性能瓶颈等。我们将重点介绍微服务架构中...
- 高并发系统设计:应对每秒数万QPS的架构策略
-
当面试官问及"如何应对每秒几万QPS(QueriesPerSecond)"时,大概率是想知道你对高并发系统设计的理解有多少。本文将深入探讨从基础设施到应用层面的解决方案。01、理解...
- 2025 年每个 JavaScript 开发者都应该了解的功能
-
大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.Iteratorhelpers开发者...
- JavaScript Array 对象
-
Array对象Array对象用于在变量中存储多个值:varcars=["Saab","Volvo","BMW"];第一个数组元素的索引值为0,第二个索引值为1,以此类推。更多有...
- Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战
-
刚刚,Gemini2.5Pro编程登顶,6美元性价比碾压Claude3.7Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。谷歌,彻底打了一场漂亮的翻...
- 动力节点最新JavaScript教程(高级篇),深入学习JavaScript
-
JavaScript是一种运行在浏览器中的解释型编程语言,它的解释器被称为JavaScript引擎,是浏览器的一部分,JavaScript广泛用于浏览器客户端编程,通常JavaScript脚本是通过嵌...
- 一文看懂Kiro,其 Spec工作流秒杀Cursor,可移植至Claude Code
-
当Cursor的“即兴编程”开始拖累项目质量,AWS新晋IDEKiro以Spec工作流打出“先规范后编码”的系统工程思维:需求-设计-任务三件套一次生成,文档与代码同步落地,复杂项目不...
- 「晚安·好梦」努力只能及格,拼命才能优秀
-
欢迎光临,浏览之前点击上面的音乐放松一下心情吧!喜欢的话给小编一个关注呀!Effortscanonlypass,anddesperatelycanbeexcellent.努力只能及格...
- JavaScript 中 some 与 every 方法的区别是什么?
-
大家好,很高兴又见面了,我是姜茶的编程笔记,我们一起学习前端相关领域技术,共同进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力在JavaScript中,Array.protot...
- 10个高效的Python爬虫框架,你用过几个?
-
小型爬虫需求,requests库+bs4库就能解决;大型爬虫数据,尤其涉及异步抓取、内容管理及后续扩展等功能时,就需要用到爬虫框架了。下面介绍了10个爬虫框架,大家可以学习使用!1.Scrapysc...
- 12个高效的Python爬虫框架,你用过几个?
-
实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实...
- pip3 install pyspider报错问题解决
-
运行如下命令报错:>>>pip3installpyspider观察上面的报错问题,需要安装pycurl。是到这个网址:http://www.lfd.uci.edu/~gohlke...
- PySpider框架的使用
-
PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...
- 「机器学习」神经网络的激活函数、并通过python实现激活函数
-
神经网络的激活函数、并通过python实现whatis激活函数感知机的网络结构如下:左图中,偏置b没有被画出来,如果要表示出b,可以像右图那样做。用数学式来表示感知机:上面这个数学式子可以被改写:...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)