百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一篇文章搞定人工智能之深度学习创建训练数据集的方法

itomcoil 2025-07-24 18:47 5 浏览

基础数据准备

训练所需要的数据集合都存储在数据库中,还有部分文本文件
首先对数据进行分类结构化存储[因为涉及到的是多分类问题]

整理并存储原始数据集

使用numpy将所有需要数据读取出来

splitlines() ==> 按照\r \n 或者\r\n分割

import numpy as np
import pandas as pd
values1 = np.array(open(r'text1.txt', 'r', encoding='utf-8').read().splitlines())
values2 = np.random.choice(open(r'text2.txt', 'r', encoding='utf-8').read().splitlines(),100000) 

设计标识符

label_map = {
    1: 'values1',
    2: 'values2',
}

将所有数据进行拼接

data = np.concatenate([values1,values2])

生产相应数量的标识

lable = np.concatenate([np.array([4]*len(values1)),np.array([5]*len(values2))])

生成DataFrame数据结构

df = pd.DataFrame({"data":data,"lable":lable})

提取数据结构中多余的字符

df.replace('\r|\n|!', '', inplace=True, regex=True)

将整合后的原始数据存储为csv文件

df.to_csv("dataset.csv",sep="!",index=False,header=False)

使数据集向量化

from keras.preprocessing.sequence import pad_sequences  # 对序列进行预处理生成长度相同的序列
from keras.utils.np_utils import to_categorical  # 将标签转换为 one-hot 编码

对每个字符进行old操作

def process(s: str):
    s = str(s).lower()
    return [ord(c) for c in s]
data = df['data'].apply(process).values

将序列处理成相同长度的数组

MAX_SEQUENCE_LENGTH = 30
data = pad_sequences(data, maxlen=MAX_SEQUENCE_LENGTH,dtype='int',padding='post',truncating='post')

去除数组内重复数字并进行排序之后输出

palette = np.unique(data)

获取每个字符在palette中的位置

data = np.digitize(data, palette, right=True)

将标签转化为 one-hot 编码

labels = to_categorical(df['lable'].values)

划分训练子集与测试子集

from sklearn.model_selection import train_test_split
train_data, val_data, train_label, val_label = train_test_split(data, labels, test_size=0.2, random_state=42)
print('train data shape: ', train_data.shape, '   train label shape: ', train_label.shape)
print('val data shape: ', val_data.shape, '   val label shape: ', val_label.shape)

#人工智能##深度学习##AI科技#




相关推荐

Python高效数据处理——从基础方法到性能优化

数据处理是数据分析的核心环节,高效的数据处理方法能显著提升代码性能。本文将深入介绍Pandas中的各种数据处理技术,并分析它们的性能特点。使用apply方法应用自定义函数apply是Pandas中最灵...

正态分布-置信区间计算(正态90%置信区间)

统计学有两大主要分支,分别是描述性统计学和推断统计学。描述性统计学用于描述和概括数据的特征以及绘制各类统计图表。总体数据,往往因为数据量太大而难以被获取,所以就有了通过较小的样本数据推测总体特性的推断...

一篇文章搞定人工智能之深度学习创建训练数据集的方法

基础数据准备训练所需要的数据集合都存储在数据库中,还有部分文本文件首先对数据进行分类结构化存储[因为涉及到的是多分类问题]整理并存储原始数据集使用numpy将所有需要数据读取出来splitlines(...

向量搜索之 k-means 算法(annoy向量检索)

一直好奇向量数据库的索引是如何实现的,我们可以推断向量搜索的简单实现:把数据存入向量数据库时,会计算每个分段文档的向量(文档向量),然后把分段文档和文档向量同时存入向量数据库。从向量数据库中搜索文档时...

融合贝叶斯生存模型与Transformer注意力的客户重参与策略优化

本文提出了一个集成三种核心技术的下一代智能优惠券分发系统:基于贝叶斯生存模型的重购概率预测、采用注意力机制的Transformer利润预测模型,以及用于策略持续优化的Dyna-Q强化学习代理。该系统构...

用Deepseek编写代码计算今天大乐透开奖号码

以下是一个基于Python的示例代码,用于分析大乐透历史数据并生成可能的号码组合。请务必注意:这仅是统计学模拟,无法真正预测开奖结果,所有结果均为随机性参考。代码实现步骤1.数据准备(模拟数据)假设...

拆解特斯拉L2家用充电桩:技术细节太多了

本文是对第三代特斯拉家用充电桩(L2级)的拆解分析报告。深入探究该充电桩的内部结构、设计特点、性能参数等内容。产品概述设备为第三代特斯拉家用充电桩,属于Level2充电器,是特斯拉推出的家用充电设备...

《光环5》2月更新“战锤风暴”正式推送“枪林弹雨”模式即将到来

今天(2月25日)微软和343工作室正式向Xboxone玩家推送了《光环5》的2月更新补丁“战锤风暴HammerStorm”。本次更新包括了1张全新Arena竞技场地图Torque;3个全新游戏模式...

Spring Boot(十一)Redis集成从Docker安装到分布式Session共享

一、简介Redis是一个开源的使用ANSIC语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API,Redis也是技术领域使用最为广泛的存储中间件,它是「...

Mac 基于HTTP方式访问下载共享文件,配置共享服务器

方法一:使用Python的SimpleHTTPServer进行局域网文件共享Mac自带Python,所以不需要安装其他软件,一条命令即可1):进入需要共享的文件夹,如Public文件夹cd/Us...

移动端性能专项测试之 CPU(移动端cpu天梯图2020百度贴吧)

指标背景很多场景下我们去使用App,可能会碰到手机会出现发热发烫的现象。这是因为CPU使用率过高、CPU过于繁忙,会使得整个系统无法响应用户,整体性能降低,用户体验变得相当差,也容易引起AN...

如何三天学会Phyton?这篇文章教你快速编程入门

Phyton作为一门常用的语言在很多领域都有很应用,很多人都想学习这门语言,那么我们就开始从头学习这门语言吧!首先你需要在官网下载你的Phyton的编程工具,也就是下载你的解释器!登录Phyton官网...

学习Python第一天 ---Hello World

引言人生苦短,请用Python(3.+)越来越多的情况下使用Python语言进行"代码粘合"和"数据分析"变得非常方便,而且Python在"爬虫"...

mysql的MVCC多版本并发控制机制(mysql并发情况下怎么解决)

认识MVCCMVCC是英文Multi-VersionConcurrencyControl多版本并发控制的首字母简拼。在上文MYSQL事务隔离级别中,我们已经知道,在可重复读的级别下,不管其他事...

爆炸,MySQL9.0大版本发布,我严重怀疑,它是不...

MySQL在本月发布了9.0大版本,作为MySQL的忠实粉丝,简单说下这次大版本更新。1.企业版,支持JS存储程序(JavaScriptstoredprograms)了。例如,可以像这样定一个函...