决策树算法原理与Python实现_决策树算法分析
itomcoil 2025-09-13 01:13 1 浏览
决策树作为机器学习中基础且应用广泛的分类算法,以其直观的树形结构和强大的解释性备受青睐。本文将从理论基础出发,结合Python代码实现,深入剖析决策树的核心原理与实战应用。
决策树基础概念
决策树是一种树形结构的分类模型,由内部节点和叶节点组成:
- 内部节点表示特征判断
- 叶节点表示分类结果
其工作原理类似"二十个问题"游戏,通过层层特征筛选缩小分类范围,最终得到实例的类别归属。在邮件分类场景中,决策树会先判断发件域名,再根据内容关键词进一步分类,展现出清晰的层级决策逻辑。
决策树核心数学原理
信息熵与信息增益
决策树构建算法
决策树通过递归方式构建,核心逻辑如下:
def createBranch():
''' 决策树递归构建逻辑 '''
if 所有数据分类标签相同:
return 类标签
else:
选择信息增益最大的特征
划分数据集
为每个划分子集递归创建分支
return 分支节点
决策树核心代码实现
基础函数实现
计算香农熵
def calcShannonEnt(dataSet):
"""计算数据集的香农熵"""
numEntries = len(dataSet)
labelCounts = {}
# 统计各类标签出现次数
for featVec in dataSet:
currentLabel = featVec[-1]
if currentLabel not in labelCounts:
labelCounts[currentLabel] = 0
labelCounts[currentLabel] += 1
# 计算香农熵
shannonEnt = 0.0
for key in labelCounts:
prob = float(labelCounts[key]) / numEntries
shannonEnt -= prob * math.log(prob, 2)
return shannonEnt
数据集划分函数
def splitDataSet(dataSet, index, value):
"""根据特征和值划分数据集"""
retDataSet = []
for featVec in dataSet:
if featVec[index] == value:
# 提取划分后的数据(排除当前特征列)
reducedFeatVec = featVec[:index]
reducedFeatVec.extend(featVec[index+1:])
retDataSet.append(reducedFeatVec)
return retDataSet
最优特征选择
def chooseBestFeatureToSplit(dataSet):
"""选择信息增益最大的特征"""
numFeatures = len(dataSet[0]) - 1 # 特征数量
baseEntropy = calcShannonEnt(dataSet)
bestInfoGain, bestFeature = 0.0, -1
# 遍历所有特征计算信息增益
for i in range(numFeatures):
featList = [example[i] for example in dataSet]
uniqueVals = set(featList)
newEntropy = 0.0
# 计算当前特征划分后的熵
for value in uniqueVals:
subDataSet = splitDataSet(dataSet, i, value)
prob = len(subDataSet) / float(len(dataSet))
newEntropy += prob * calcShannonEnt(subDataSet)
# 计算信息增益并更新最优特征
infoGain = baseEntropy - newEntropy
if infoGain > bestInfoGain:
bestInfoGain = infoGain
bestFeature = i
return bestFeature
决策树构建与分类
递归创建决策树
def createTree(dataSet, labels):
"""递归构建决策树"""
classList = [example[-1] for example in dataSet]
# 停止条件1:所有标签相同
if classList.count(classList[0]) == len(classList):
return classList[0]
# 停止条件2:所有特征使用完毕
if len(dataSet[0]) == 1:
return majorityCnt(classList)
# 选择最优特征并构建树
bestFeat = chooseBestFeatureToSplit(dataSet)
bestFeatLabel = labels[bestFeat]
myTree = {bestFeatLabel: {}}
# 递归处理每个划分子集
del(labels[bestFeat])
featValues = [example[bestFeat] for example in dataSet]
uniqueVals = set(featValues)
for value in uniqueVals:
subLabels = labels[:]
myTree[bestFeatLabel][value] = createTree(
splitDataSet(dataSet, bestFeat, value), subLabels)
return myTree
使用决策树进行分类
def classify(inputTree, featLabels, testVec):
"""使用决策树对测试数据分类"""
firstStr = list(inputTree.keys())[0]
secondDict = inputTree[firstStr]
featIndex = featLabels.index(firstStr)
# 递归遍历决策树
key = testVec[featIndex]
valueOfFeat = secondDict[key]
if isinstance(valueOfFeat, dict):
classLabel = classify(valueOfFeat, featLabels, testVec)
else:
classLabel = valueOfFeat
return classLabel
决策树项目实战
案例1:鱼类与非鱼类分类
数据准备
def createDataSet():
"""创建鱼类分类数据集"""
dataSet = [[1, 1, 'yes'],
[1, 1, 'yes'],
[1, 0, 'no'],
[0, 1, 'no'],
[0, 1, 'no']]
labels = ['no surfacing', 'flippers']
return dataSet, labels
构建与测试流程
- 收集数据:使用createDataSet()生成样本
- 准备数据:由于数据已离散化,无需额外处理
- 训练模型:调用createTree构建决策树
- 测试模型:使用classify对新数据分类
案例2:隐形眼镜类型预测
数据解析
# 解析文本文件数据
lenses = [inst.strip().split('\t') for inst in fr.readlines()]
lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']
决策树存储与加载
def storeTree(inputTree, filename):
"""存储决策树到文件"""
import pickle
fw = open(filename, 'wb')
pickle.dump(inputTree, fw)
fw.close()
def grabTree(filename):
"""从文件加载决策树"""
import pickle
fr = open(filename, 'rb')
return pickle.load(fr)
决策树算法特点
优点
- 计算复杂度低,适合大规模数据
- 分类结果直观易懂,具有天然可解释性
- 支持处理缺失值和不相关特征
缺点
- 容易产生过拟合,需通过剪枝优化
- 对高度非线性数据分类效果有限
适用场景
- 标称型数据(分类数据)和离散化的数值型数据
- 需要解释分类逻辑的场景
- 数据预处理要求较低的快速建模场景
通过以上代码实现和项目案例,我们可以清晰理解决策树从理论到实践的完整流程。作为基础分类算法,决策树不仅是机器学习入门的重要内容,也是理解集成学习算法(如随机森林)的基础,在数据挖掘领域具有不可替代的地位。
相关推荐
- python数据分析中你必须知道的陷阱和技巧
-
数据分析是一门既有趣又有挑战的技能,它可以帮助我们从海量的数据中提取有价值的信息,为决策提供支持。但是,数据分析也不是一件轻松的事情,它需要我们掌握一定的编程、统计、可视化等知识,同时也要注意避免一些...
- python常见五大坑及避坑指南_python解决什么问题
-
python是一门非常流行和强大的编程语言,但是也有一些容易让初学者或者不熟悉的人掉入的坑。这里列举了一些python常见五大坑,以及如何避免或者解决它们。缩进问题。python使用缩进来表示代码块,...
- 收藏!2022年国家职业资格考试时间表公布
-
人社部14日公布2022年度专业技术人员职业资格考试工作计划,包括中小学生教师资格、会计师、精算师、建造师等各项考试日期。其中,证券期货基金业从业人员资格各次考试地点不同,具体安排以相关行业协会考试公...
- 苹果mac系统必须安装python3_macbook安装python3.7
-
苹果mac系统必须安装python3苹果mac系统口碑很好,但不能像linux系统一样同时提供python2和python3环境,对程序员来说是非常不友善的。资深程序员都知道,Python3才是P...
- 通过python实现猴子吃桃问题_python小猴子吃桃的问题
-
1、问题描述:猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾,又多吃了一个,第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃了前一天剩下的一半零一个。到第10天早上想再吃时,就只剩...
- python 中的第一个 hello world 程序输出
-
程序运行:print("helloworld")我使用的是Python程序3.7.0版本介绍下print概念print字面意思打印,将文本输出内容打印出来输入:print(&...
- 持久化 Python 会话:实现数据持久化和可重用性
-
Midjourney生成R语言会话持久化熟悉或常用R语言进行数据分析/数据挖掘/数据建模的数据工作者可能对R语言的会话保存和会话恢复印象比较深刻,它可以将当前session会话持久化保存,以便分...
- 如何将Python算法模型注册成Spark UDF函数实现全景模型部署
-
背景Background对于算法业务团队来说,将训练好的模型部署成服务的业务场景是非常常见的。通常会应用于三个场景:部署到流式程序里,比如风控需要通过流式处理来实时监控。部署到批任务中部署成API服...
- Python 字典l转换成 JSON_python转化字典
-
本文需要5分钟。如果对您有用可以点赞评论关注.Python字典到JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它基于ECMAScrip...
- [python] 基于PyOD库实现数据异常检测
-
PyOD是一个全面且易于使用的Python库,专门用于检测多变量数据中的异常点或离群点。异常点是指那些与大多数数据点显著不同的数据,它们可能表示错误、噪声或潜在的有趣现象。无论是处理小规模项目还是大型...
- 总结90条写Python程序的建议_python写程序的步骤
-
1.首先 建议1、理解Pythonic概念—-详见Python中的《Python之禅》 建议2、编写Pythonic代码 (1)避免不规范代码,比如只用大小写区分变量、使用容易...
- ptrade系列第六天:持久化处理2_持久化的三种状态
-
前一次跟大家分享了利用pickle进行策略数据的持久化。但是这种方式有个问题,就是保存下来的数据无法很直观的看到,比较不方便,所以今天给大家带来另一种方式,将数据通过json保存。importjso...
- Python数据持久化:JSON_python的json用法
-
编程派微信号:codingpy上周更新的《ThinkPython2e》第14章讲述了几种数据持久化的方式,包括dbm、pickle等,但是考虑到篇幅和读者等因素,并没有将各种方式都列全。本文将介绍...
- 干货 | 如何利用Python处理JSON格式的数据,建议收藏
-
作者:俊欣来源:关于数据分析与可视化JSON数据格式在我们的日常工作中经常会接触到,无论是做爬虫开发还是一般的数据分析处理,今天,小编就来分享一下当数据接口是JSON格式时,如何进行数据处理进行详...
- Python中Pyyaml模块的使用_python模块介绍
-
一、YAML是什么YAML是专门用来写配置文件的语言,远比JSON格式方便。YAML语言的设计目标,就是方便人类读写。YAML是一种比XML和JSON更轻的文件格式,也更简单更强大,它可以通过缩进来表...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)