百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

决策树算法原理与Python实现_决策树算法分析

itomcoil 2025-09-13 01:13 1 浏览

决策树作为机器学习中基础且应用广泛的分类算法,以其直观的树形结构和强大的解释性备受青睐。本文将从理论基础出发,结合Python代码实现,深入剖析决策树的核心原理与实战应用。

决策树基础概念

决策树是一种树形结构的分类模型,由内部节点和叶节点组成:

  • 内部节点表示特征判断
  • 叶节点表示分类结果

其工作原理类似"二十个问题"游戏,通过层层特征筛选缩小分类范围,最终得到实例的类别归属。在邮件分类场景中,决策树会先判断发件域名,再根据内容关键词进一步分类,展现出清晰的层级决策逻辑。

决策树核心数学原理

信息熵与信息增益




决策树构建算法

决策树通过递归方式构建,核心逻辑如下:

def createBranch():
    ''' 决策树递归构建逻辑 '''
    if 所有数据分类标签相同:
        return 类标签
    else:
        选择信息增益最大的特征
        划分数据集
        为每个划分子集递归创建分支
        return 分支节点

决策树核心代码实现

基础函数实现

计算香农熵

def calcShannonEnt(dataSet):
    """计算数据集的香农熵"""
    numEntries = len(dataSet)
    labelCounts = {}
    
    # 统计各类标签出现次数
    for featVec in dataSet:
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts:
            labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    
    # 计算香农熵
    shannonEnt = 0.0
    for key in labelCounts:
        prob = float(labelCounts[key]) / numEntries
        shannonEnt -= prob * math.log(prob, 2)
    return shannonEnt

数据集划分函数

def splitDataSet(dataSet, index, value):
    """根据特征和值划分数据集"""
    retDataSet = []
    for featVec in dataSet:
        if featVec[index] == value:
            # 提取划分后的数据(排除当前特征列)
            reducedFeatVec = featVec[:index]
            reducedFeatVec.extend(featVec[index+1:])
            retDataSet.append(reducedFeatVec)
    return retDataSet

最优特征选择

def chooseBestFeatureToSplit(dataSet):
    """选择信息增益最大的特征"""
    numFeatures = len(dataSet[0]) - 1  # 特征数量
    baseEntropy = calcShannonEnt(dataSet)
    bestInfoGain, bestFeature = 0.0, -1
    
    # 遍历所有特征计算信息增益
    for i in range(numFeatures):
        featList = [example[i] for example in dataSet]
        uniqueVals = set(featList)
        newEntropy = 0.0
        
        # 计算当前特征划分后的熵
        for value in uniqueVals:
            subDataSet = splitDataSet(dataSet, i, value)
            prob = len(subDataSet) / float(len(dataSet))
            newEntropy += prob * calcShannonEnt(subDataSet)
            
        # 计算信息增益并更新最优特征
        infoGain = baseEntropy - newEntropy
        if infoGain > bestInfoGain:
            bestInfoGain = infoGain
            bestFeature = i
    return bestFeature

决策树构建与分类

递归创建决策树

def createTree(dataSet, labels):
    """递归构建决策树"""
    classList = [example[-1] for example in dataSet]
    
    # 停止条件1:所有标签相同
    if classList.count(classList[0]) == len(classList):
        return classList[0]
    
    # 停止条件2:所有特征使用完毕
    if len(dataSet[0]) == 1:
        return majorityCnt(classList)
    
    # 选择最优特征并构建树
    bestFeat = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    myTree = {bestFeatLabel: {}}
    
    # 递归处理每个划分子集
    del(labels[bestFeat])
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = set(featValues)
    for value in uniqueVals:
        subLabels = labels[:]
        myTree[bestFeatLabel][value] = createTree(
            splitDataSet(dataSet, bestFeat, value), subLabels)
    return myTree

使用决策树进行分类

def classify(inputTree, featLabels, testVec):
    """使用决策树对测试数据分类"""
    firstStr = list(inputTree.keys())[0]
    secondDict = inputTree[firstStr]
    featIndex = featLabels.index(firstStr)
    
    # 递归遍历决策树
    key = testVec[featIndex]
    valueOfFeat = secondDict[key]
    if isinstance(valueOfFeat, dict):
        classLabel = classify(valueOfFeat, featLabels, testVec)
    else:
        classLabel = valueOfFeat
    return classLabel

决策树项目实战

案例1:鱼类与非鱼类分类

数据准备

def createDataSet():
    """创建鱼类分类数据集"""
    dataSet = [[1, 1, 'yes'],
               [1, 1, 'yes'],
               [1, 0, 'no'],
               [0, 1, 'no'],
               [0, 1, 'no']]
    labels = ['no surfacing', 'flippers']
    return dataSet, labels

构建与测试流程

  1. 收集数据:使用createDataSet()生成样本
  2. 准备数据:由于数据已离散化,无需额外处理
  3. 训练模型:调用createTree构建决策树
  4. 测试模型:使用classify对新数据分类

案例2:隐形眼镜类型预测

数据解析

# 解析文本文件数据
lenses = [inst.strip().split('\t') for inst in fr.readlines()]
lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']

决策树存储与加载

def storeTree(inputTree, filename):
    """存储决策树到文件"""
    import pickle
    fw = open(filename, 'wb')
    pickle.dump(inputTree, fw)
    fw.close()

def grabTree(filename):
    """从文件加载决策树"""
    import pickle
    fr = open(filename, 'rb')
    return pickle.load(fr)

决策树算法特点

优点

  • 计算复杂度低,适合大规模数据
  • 分类结果直观易懂,具有天然可解释性
  • 支持处理缺失值和不相关特征

缺点

  • 容易产生过拟合,需通过剪枝优化
  • 对高度非线性数据分类效果有限

适用场景

  • 标称型数据(分类数据)和离散化的数值型数据
  • 需要解释分类逻辑的场景
  • 数据预处理要求较低的快速建模场景

通过以上代码实现和项目案例,我们可以清晰理解决策树从理论到实践的完整流程。作为基础分类算法,决策树不仅是机器学习入门的重要内容,也是理解集成学习算法(如随机森林)的基础,在数据挖掘领域具有不可替代的地位。

相关推荐

python数据分析中你必须知道的陷阱和技巧

数据分析是一门既有趣又有挑战的技能,它可以帮助我们从海量的数据中提取有价值的信息,为决策提供支持。但是,数据分析也不是一件轻松的事情,它需要我们掌握一定的编程、统计、可视化等知识,同时也要注意避免一些...

python常见五大坑及避坑指南_python解决什么问题

python是一门非常流行和强大的编程语言,但是也有一些容易让初学者或者不熟悉的人掉入的坑。这里列举了一些python常见五大坑,以及如何避免或者解决它们。缩进问题。python使用缩进来表示代码块,...

收藏!2022年国家职业资格考试时间表公布

人社部14日公布2022年度专业技术人员职业资格考试工作计划,包括中小学生教师资格、会计师、精算师、建造师等各项考试日期。其中,证券期货基金业从业人员资格各次考试地点不同,具体安排以相关行业协会考试公...

苹果mac系统必须安装python3_macbook安装python3.7

苹果mac系统必须安装python3苹果mac系统口碑很好,但不能像linux系统一样同时提供python2和python3环境,对程序员来说是非常不友善的。资深程序员都知道,Python3才是P...

通过python实现猴子吃桃问题_python小猴子吃桃的问题

1、问题描述:猴子第一天摘下若干个桃子,当即吃了一半,还不过瘾,又多吃了一个,第二天早上又将剩下的桃子吃掉一半,又多吃了一个。以后每天早上都吃了前一天剩下的一半零一个。到第10天早上想再吃时,就只剩...

python 中的第一个 hello world 程序输出

程序运行:print("helloworld")我使用的是Python程序3.7.0版本介绍下print概念print字面意思打印,将文本输出内容打印出来输入:print(&...

持久化 Python 会话:实现数据持久化和可重用性

Midjourney生成R语言会话持久化熟悉或常用R语言进行数据分析/数据挖掘/数据建模的数据工作者可能对R语言的会话保存和会话恢复印象比较深刻,它可以将当前session会话持久化保存,以便分...

如何将Python算法模型注册成Spark UDF函数实现全景模型部署

背景Background对于算法业务团队来说,将训练好的模型部署成服务的业务场景是非常常见的。通常会应用于三个场景:部署到流式程序里,比如风控需要通过流式处理来实时监控。部署到批任务中部署成API服...

Python 字典l转换成 JSON_python转化字典

本文需要5分钟。如果对您有用可以点赞评论关注.Python字典到JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式,它基于ECMAScrip...

[python] 基于PyOD库实现数据异常检测

PyOD是一个全面且易于使用的Python库,专门用于检测多变量数据中的异常点或离群点。异常点是指那些与大多数数据点显著不同的数据,它们可能表示错误、噪声或潜在的有趣现象。无论是处理小规模项目还是大型...

总结90条写Python程序的建议_python写程序的步骤

  1.首先  建议1、理解Pythonic概念—-详见Python中的《Python之禅》  建议2、编写Pythonic代码  (1)避免不规范代码,比如只用大小写区分变量、使用容易...

ptrade系列第六天:持久化处理2_持久化的三种状态

前一次跟大家分享了利用pickle进行策略数据的持久化。但是这种方式有个问题,就是保存下来的数据无法很直观的看到,比较不方便,所以今天给大家带来另一种方式,将数据通过json保存。importjso...

Python数据持久化:JSON_python的json用法

编程派微信号:codingpy上周更新的《ThinkPython2e》第14章讲述了几种数据持久化的方式,包括dbm、pickle等,但是考虑到篇幅和读者等因素,并没有将各种方式都列全。本文将介绍...

干货 | 如何利用Python处理JSON格式的数据,建议收藏

作者:俊欣来源:关于数据分析与可视化JSON数据格式在我们的日常工作中经常会接触到,无论是做爬虫开发还是一般的数据分析处理,今天,小编就来分享一下当数据接口是JSON格式时,如何进行数据处理进行详...

Python中Pyyaml模块的使用_python模块介绍

一、YAML是什么YAML是专门用来写配置文件的语言,远比JSON格式方便。YAML语言的设计目标,就是方便人类读写。YAML是一种比XML和JSON更轻的文件格式,也更简单更强大,它可以通过缩进来表...