百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

使用BERT进行中文情感分析教程(bert 教程)

itomcoil 2025-05-08 18:59 18 浏览

以下是使用BERT进行中文情感分析的步骤详解和示例代码:

1. 环境准备

安装所需库:

bash

pip install transformers torch pandas sklearn

2. 数据准备

准备CSV数据文件(示例格式):

csv

text,label

"这部电影太精彩了!",1

"糟糕的观影体验,不推荐。",0

...

3. 实现代码

python

import torch

from torch.utils.data import Dataset, DataLoader

from transformers import BertTokenizer, BertForSequenceClassification, AdamW

from sklearn.model_selection import train_test_split

import pandas as pd


# 参数设置

MAX_LEN = 128

BATCH_SIZE = 16

EPOCHS = 3

LEARNING_RATE = 2e-5

MODEL_NAME = 'bert-base-chinese' # 使用中文预训练模型


# 加载数据

df = pd.read_csv('sentiment_data.csv')

texts = df.text.values

labels = df.label.values


# 划分数据集

train_texts, val_texts, train_labels, val_labels = train_test_split(

texts, labels, test_size=0.2, random_state=42)


# 初始化tokenizer

tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)


# 数据集类

class SentimentDataset(Dataset):

def __init__(self, texts, labels, tokenizer, max_len):

self.texts = texts

self.labels = labels

self.tokenizer = tokenizer

self.max_len = max_len


def __len__(self):

return len(self.texts)


def __getitem__(self, idx):

text = str(self.texts[idx])

label = self.labels[idx]


encoding = tokenizer.encode_plus(

text,

add_special_tokens=True,

max_length=self.max_len,

padding='max_length',

truncation=True,

return_attention_mask=True,

return_tensors='pt',

)


return {

'input_ids': encoding['input_ids'].flatten(),

'attention_mask': encoding['attention_mask'].flatten(),

'labels': torch.tensor(label, dtype=torch.long)

}


# 创建数据加载器

train_dataset = SentimentDataset(train_texts, train_labels, tokenizer, MAX_LEN)

val_dataset = SentimentDataset(val_texts, val_labels, tokenizer, MAX_LEN)


train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)

val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE)


# 加载模型

model = BertForSequenceClassification.from_pretrained(

MODEL_NAME,

num_labels=2 # 根据你的情感类别数量修改

)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model = model.to(device)


# 优化器

optimizer = AdamW(model.parameters(), lr=LEARNING_RATE)


# 训练循环

for epoch in range(EPOCHS):

model.train()

total_loss = 0


for batch in train_loader:

optimizer.zero_grad()


input_ids = batch['input_ids'].to(device)

attention_mask = batch['attention_mask'].to(device)

labels = batch['labels'].to(device)


outputs = model(

input_ids=input_ids,

attention_mask=attention_mask,

labels=labels

)


loss = outputs.loss

total_loss += loss.item()

loss.backward()

optimizer.step()


avg_train_loss = total_loss / len(train_loader)

print(f'Epoch {epoch+1}/{EPOCHS}')

print(f'Train loss: {avg_train_loss:.4f}')


# 评估

model.eval()

correct = 0

total = 0


with torch.no_grad():

for batch in val_loader:

input_ids = batch['input_ids'].to(device)

attention_mask = batch['attention_mask'].to(device)

labels = batch['labels'].to(device)


outputs = model(

input_ids=input_ids,

attention_mask=attention_mask

)


_, preds = torch.max(outputs.logits, dim=1)

correct += (preds == labels).sum().item()

total += labels.size(0)


accuracy = correct / total

print(f'Validation Accuracy: {accuracy:.4f}')


# 保存模型

torch.save(model.state_dict(), 'bert_chinese_sentiment.pth')


# 使用模型进行预测

def predict_sentiment(text):

encoding = tokenizer.encode_plus(

text,

add_special_tokens=True,

max_length=MAX_LEN,

padding='max_length',

truncation=True,

return_tensors='pt'

)


input_ids = encoding['input_ids'].to(device)

attention_mask = encoding['attention_mask'].to(device)


with torch.no_grad():

outputs = model(input_ids=input_ids, attention_mask=attention_mask)


probabilities = torch.softmax(outputs.logits, dim=1)

predicted_label = torch.argmax(probabilities, dim=1).item()


return predicted_label, probabilities


# 示例预测

text = "这个产品物超所值,非常满意!"

label, probs = predict_sentiment(text)

print(f"Text: {text}")

print(f"Predicted label: {'Positive' if label == 1 else 'Negative'}")

print(f"Probabilities: {probs.cpu().numpy()}")

4. 关键说明

  1. 模型选择

O bert-base-chinese 是官方中文BERT基础版

O 可选其他中文模型:

  1. hfl/chinese-bert-wwm-ext(哈工大版)
  2. hfl/chinese-roberta-wwm-ext
  3. 数据处理

O 中文BERT使用字级别分词,无需额外分词

O 注意处理特殊符号和空格

O 最大长度根据数据分布调整(一般128-512)

  1. 训练优化

O 使用GPU加速训练(推荐Colab或配备NVIDIA GPU的环境)

O 可添加早停机制(Early Stopping)

O 学习率建议2e-5到5e-5之间

O 增加梯度裁剪(
torch.nn.utils.clip_grad_norm_)

  1. 扩展功能

O 支持多分类(修改num_labels参数)

O 添加混淆矩阵评估

O 实现F1-score等其他评估指标

O 加入学习率调度器

5. 常见问题处理

  1. 内存不足

O 减小batch size

O 使用混合精度训练

O 尝试更小的模型(如BERT Tiny)

  1. 过拟合

O 增加dropout概率

O 添加L2正则化

O 使用数据增强(同义词替换等)

  1. 训练效果提升

O 尝试不同预训练模型

O 调整学习率和训练轮次

O 清洗和扩增训练数据

建议从少量数据开始测试流程,再逐步扩展到完整数据集。实际应用中需要根据具体业务需求调整分类策略和评估指标。

相关推荐

第十章:优化设计与自动化工作流(优化设计是)

以下重点讲解优化设计、自动化脚本编写以及与其他工具(如Python、优化算法库)的集成,提升CFD仿真的工程应用效率。目标:掌握参数化扫描、优化算法集成和批量任务管理,实现从单次模拟到自动化设计探索的...

安装python语言,运行你的第一行代码

#01安装Python访问Python官方(https://www.python.org/),下载并安装最新版本的Python。确保安装过程中勾选“Addpython.exetoPAT...

Python安装(python安装的库在哪个文件夹)

Windows系统1.安装python1.1下载Python安装包打开官方网站:https://www.python.org/downloads/点击"DownloadPython3.1...

比pip快100倍的Python包安装工具(python2.7.5安装pip)

简介uv是一款开源的Python包安装工具,GitHubstar高达56k,以性能极快著称,具有以下特性(官方英文原文):Asingletooltoreplacepip,pip-tool...

【跟着豆包AI学Python】Python环境的安装,编写第一个程序

最近几年,人工智能越来越走进人们的日常生活,国内各大公司都推出了自己的AI助手,例如:阿里旗下的通义千问、百度旗下的文心一言、腾讯的腾讯元宝、深度求索的deepseek等,元宝就是字节跳动公司推出的A...

Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌...

Python3+变量命名规则与约定详解一、官方命名规则(必须遵守)1.合法字符集变量名只能包含:大小写字母(a-z,A-Z)数字(0-9)下划线(_)2.禁止数字开头合法:user_age,...

Python程序打包为EXE的全面指南:从入门到精通

引言在Python开发中,将程序打包成可执行文件(EXE)是分发应用程序的重要环节。通过打包,我们可以创建独立的可执行文件,让没有安装Python环境的用户也能运行我们的程序。本篇文章将详细介绍如何使...

别再纸上谈兵了!手把手教你安装GraalVM,让你的代码瞬间起飞!

各位老铁们,是不是每次看到我吹嘘GraalVM的各种神迹,心里都痒痒的?想让自己的Java程序秒启动?想让Python脚本跑得比平时快好几倍?想体验一把多语言无缝协作的快感?但一想到要下载、配置、敲命...

纠结坏了!从 Python 3.8 升级到 3.14 真有必要吗?

点赞、收藏、加关注,下次找我不迷路"我电脑里装的Python3.8,现在都出3.14了,要不要赶紧升级啊?会不会像手机系统更新一样,越升级越卡?"相信很多刚入门的朋友都有类...

win10下python3.13.3最新版本解释器的下载与安装

一、python3.13.3下载官方下载地址:https://www.python.org/1.浏览器访问https://www.python.org/这个地址,进入python的网站,点击【Dowl...

Python简介与开发环境搭建详细教程

1.1Python简介与开发环境搭建详细教程一、Python语言简介1.Python的核心特点2.Python的应用领域表1.1Python主要应用领域领域典型应用常用库Web开发网站后端D...

python开发小游戏案例(python游戏开发入门经典教程)

#头条创作挑战赛#假设你正在开发一个小型游戏,需要实现角色移动、障碍物生成、碰撞检测等功能。你可以使用Python和Pygame库来开发这个游戏。输入以下命令来安装Pygame:pipinstall...

Python编程:从入门到实践 第十一、二 章 武装飞船

假设我们有一个名为AnonymousSurvey的类,用于收集匿名调查的答案。该类包含以下方法:classAnonymousSurvey:def__init__(self,questi...

「Python系列」python几个重要模块的安装(二)

一、python的pygame的安装:安装地址:https://www.cnblogs.com/charliedaifu/p/9938542.htmlpyagme包下载地址:https://down...

python如何绘制消消乐小游戏(python字母消消乐)

要开发一款消消乐的小游戏界面,我们可以使用Python的pygame库。首先需要安装pygame库,然后创建一个窗口,加载游戏素材,处理游戏逻辑,以及绘制游戏界面。以下是一个简单的消消乐游戏界面实现:...