百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

使用BERT进行中文情感分析教程(bert 教程)

itomcoil 2025-05-08 18:59 5 浏览

以下是使用BERT进行中文情感分析的步骤详解和示例代码:

1. 环境准备

安装所需库:

bash

pip install transformers torch pandas sklearn

2. 数据准备

准备CSV数据文件(示例格式):

csv

text,label

"这部电影太精彩了!",1

"糟糕的观影体验,不推荐。",0

...

3. 实现代码

python

import torch

from torch.utils.data import Dataset, DataLoader

from transformers import BertTokenizer, BertForSequenceClassification, AdamW

from sklearn.model_selection import train_test_split

import pandas as pd


# 参数设置

MAX_LEN = 128

BATCH_SIZE = 16

EPOCHS = 3

LEARNING_RATE = 2e-5

MODEL_NAME = 'bert-base-chinese' # 使用中文预训练模型


# 加载数据

df = pd.read_csv('sentiment_data.csv')

texts = df.text.values

labels = df.label.values


# 划分数据集

train_texts, val_texts, train_labels, val_labels = train_test_split(

texts, labels, test_size=0.2, random_state=42)


# 初始化tokenizer

tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)


# 数据集类

class SentimentDataset(Dataset):

def __init__(self, texts, labels, tokenizer, max_len):

self.texts = texts

self.labels = labels

self.tokenizer = tokenizer

self.max_len = max_len


def __len__(self):

return len(self.texts)


def __getitem__(self, idx):

text = str(self.texts[idx])

label = self.labels[idx]


encoding = tokenizer.encode_plus(

text,

add_special_tokens=True,

max_length=self.max_len,

padding='max_length',

truncation=True,

return_attention_mask=True,

return_tensors='pt',

)


return {

'input_ids': encoding['input_ids'].flatten(),

'attention_mask': encoding['attention_mask'].flatten(),

'labels': torch.tensor(label, dtype=torch.long)

}


# 创建数据加载器

train_dataset = SentimentDataset(train_texts, train_labels, tokenizer, MAX_LEN)

val_dataset = SentimentDataset(val_texts, val_labels, tokenizer, MAX_LEN)


train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)

val_loader = DataLoader(val_dataset, batch_size=BATCH_SIZE)


# 加载模型

model = BertForSequenceClassification.from_pretrained(

MODEL_NAME,

num_labels=2 # 根据你的情感类别数量修改

)

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

model = model.to(device)


# 优化器

optimizer = AdamW(model.parameters(), lr=LEARNING_RATE)


# 训练循环

for epoch in range(EPOCHS):

model.train()

total_loss = 0


for batch in train_loader:

optimizer.zero_grad()


input_ids = batch['input_ids'].to(device)

attention_mask = batch['attention_mask'].to(device)

labels = batch['labels'].to(device)


outputs = model(

input_ids=input_ids,

attention_mask=attention_mask,

labels=labels

)


loss = outputs.loss

total_loss += loss.item()

loss.backward()

optimizer.step()


avg_train_loss = total_loss / len(train_loader)

print(f'Epoch {epoch+1}/{EPOCHS}')

print(f'Train loss: {avg_train_loss:.4f}')


# 评估

model.eval()

correct = 0

total = 0


with torch.no_grad():

for batch in val_loader:

input_ids = batch['input_ids'].to(device)

attention_mask = batch['attention_mask'].to(device)

labels = batch['labels'].to(device)


outputs = model(

input_ids=input_ids,

attention_mask=attention_mask

)


_, preds = torch.max(outputs.logits, dim=1)

correct += (preds == labels).sum().item()

total += labels.size(0)


accuracy = correct / total

print(f'Validation Accuracy: {accuracy:.4f}')


# 保存模型

torch.save(model.state_dict(), 'bert_chinese_sentiment.pth')


# 使用模型进行预测

def predict_sentiment(text):

encoding = tokenizer.encode_plus(

text,

add_special_tokens=True,

max_length=MAX_LEN,

padding='max_length',

truncation=True,

return_tensors='pt'

)


input_ids = encoding['input_ids'].to(device)

attention_mask = encoding['attention_mask'].to(device)


with torch.no_grad():

outputs = model(input_ids=input_ids, attention_mask=attention_mask)


probabilities = torch.softmax(outputs.logits, dim=1)

predicted_label = torch.argmax(probabilities, dim=1).item()


return predicted_label, probabilities


# 示例预测

text = "这个产品物超所值,非常满意!"

label, probs = predict_sentiment(text)

print(f"Text: {text}")

print(f"Predicted label: {'Positive' if label == 1 else 'Negative'}")

print(f"Probabilities: {probs.cpu().numpy()}")

4. 关键说明

  1. 模型选择

O bert-base-chinese 是官方中文BERT基础版

O 可选其他中文模型:

  1. hfl/chinese-bert-wwm-ext(哈工大版)
  2. hfl/chinese-roberta-wwm-ext
  3. 数据处理

O 中文BERT使用字级别分词,无需额外分词

O 注意处理特殊符号和空格

O 最大长度根据数据分布调整(一般128-512)

  1. 训练优化

O 使用GPU加速训练(推荐Colab或配备NVIDIA GPU的环境)

O 可添加早停机制(Early Stopping)

O 学习率建议2e-5到5e-5之间

O 增加梯度裁剪(
torch.nn.utils.clip_grad_norm_)

  1. 扩展功能

O 支持多分类(修改num_labels参数)

O 添加混淆矩阵评估

O 实现F1-score等其他评估指标

O 加入学习率调度器

5. 常见问题处理

  1. 内存不足

O 减小batch size

O 使用混合精度训练

O 尝试更小的模型(如BERT Tiny)

  1. 过拟合

O 增加dropout概率

O 添加L2正则化

O 使用数据增强(同义词替换等)

  1. 训练效果提升

O 尝试不同预训练模型

O 调整学习率和训练轮次

O 清洗和扩增训练数据

建议从少量数据开始测试流程,再逐步扩展到完整数据集。实际应用中需要根据具体业务需求调整分类策略和评估指标。

相关推荐

Excel新函数TEXTSPLIT太强大了,轻松搞定数据拆分!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!最近我把WPS软件升级到了版本号:12.1.0.15990的最新版本,最版本已经支持文本拆分函数TEXTSPLIT了,并...

Excel超强数据拆分函数TEXTSPLIT,从入门到精通!

我是【桃大喵学习记】,欢迎大家关注哟~,每天为你分享职场办公软件使用技巧干货!今天跟大家分享的是Excel超强数据拆分函数TEXTSPLIT,带你从入门到精通!TEXTSPLIT函数真是太强大了,轻松...

看完就会用的C++17特性总结(c++11常用新特性)

作者:taoklin,腾讯WXG后台开发一、简单特性1.namespace嵌套C++17使我们可以更加简洁使用命名空间:2.std::variant升级版的C语言Union在C++17之前,通...

plsql字符串分割浅谈(plsql字符集设置)

工作之中遇到的小问题,在此抛出问题,并给出解决方法。一方面是为了给自己留下深刻印象,另一方面给遇到相似问题的同学一个解决思路。如若其中有写的不好或者不对的地方也请不加不吝赐教,集思广益,共同进步。遇到...

javascript如何分割字符串(javascript切割字符串)

javascript如何分割字符串在JavaScript中,您可以使用字符串的`split()`方法来将一个字符串分割成一个数组。`split()`方法接收一个参数,这个参数指定了分割字符串的方式。如...

TextSplit函数的使用方法(入门+进阶+高级共八种用法10个公式)

在Excel和WPS新增的几十个函数中,如果按实用性+功能性排名,textsplit排第二,无函数敢排第一。因为它不仅使用简单,而且解决了以前用超复杂公式才能搞定的难题。今天小编用10个公式,让你彻底...

Python字符串split()方法使用技巧

在Python中,字符串操作可谓是基础且关键的技能,而今天咱们要重点攻克的“堡垒”——split()方法,它能将看似浑然一体的字符串,按照我们的需求进行拆分,极大地便利了数据处理与文本解析工作。基本语...

go语言中字符串常用的系统函数(golang 字符串)

最近由于工作比较忙,视频有段时间没有更新了,在这里跟大家说声抱歉了,我尽快抽些时间整理下视频今天就发一篇关于go语言的基础知识吧!我这我工作中用到的一些常用函数,汇总出来分享给大家,希望对...

无规律文本拆分,这些函数你得会(没有分隔符没规律数据拆分)

今天文章来源于表格学员训练营群内答疑,混合文本拆分。其实拆分不难,只要规则明确就好办。就怕规则不清晰,或者规则太多。那真是,Oh,mygod.如上图所示进行拆分,文字表达实在是有点难,所以小熊变身灵...

Python之文本解析:字符串格式化的逆操作?

引言前面的文章中,提到了关于Python中字符串中的相关操作,更多地涉及到了字符串的格式化,有些地方也称为字符串插值操作,本质上,就是把多个字符串拼接在一起,以固定的格式呈现。关于字符串的操作,其实还...

忘记【分列】吧,TEXTSPLIT拆分文本好用100倍

函数TEXTSPLIT的作用是:按分隔符将字符串拆分为行或列。仅ExcelM365版本可用。基本应用将A2单元格内容按逗号拆分。=TEXTSPLIT(A2,",")第二参数设置为逗号...

Excel365版本新函数TEXTSPLIT,专攻文本拆分

Excel中字符串的处理,拆分和合并是比较常见的需求。合并,当前最好用的函数非TEXTJOIN不可。拆分,Office365于2022年3月更新了一个专业函数:TEXTSPLIT语法参数:【...

站长在线Python精讲使用正则表达式的split()方法分割字符串详解

欢迎你来到站长在线的站长学堂学习Python知识,本文学习的是《在Python中使用正则表达式的split()方法分割字符串详解》。使用正则表达式分割字符串在Python中使用正则表达式的split(...

Java中字符串分割的方法(java字符串切割方法)

技术背景在Java编程中,经常需要对字符串进行分割操作,例如将一个包含多个信息的字符串按照特定的分隔符拆分成多个子字符串。常见的应用场景包括解析CSV文件、处理网络请求参数等。实现步骤1.使用Str...

因为一个函数strtok踩坑,我被老工程师无情嘲笑了

在用C/C++实现字符串切割中,strtok函数经常用到,其主要作用是按照给定的字符集分隔字符串,并返回各子字符串。但是实际上,可不止有strtok(),还有strtok、strtok_s、strto...