pandas 之 groupby pandas是什么意思
itomcoil 2024-12-28 13:34 28 浏览
groupby 的 MutilIndex
df.reset_index()
df.index.get_level_values('abc') / df.index.get_level_values(0)
准备
这个博客是用 Jupyter Notebook 写的, 如果你没有用过也不影响阅读哦. 这里只要电脑装了python和pandas就好, 我们会先读入一个数据集.
# 读入一个数据集, 我使用了美国警方击毙数据集.
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
plt.style.use('ggplot')
path = 'https://raw.githubusercontent.com/HoijanLai/dataset/master/PoliceKillingsUS.csv'
data = pd.read_csv(path, encoding ='latin1')
data.sample(3)
name date race age signs_of_mental_illness flee 683 Tyrone Holman 09/09/15 B 37.0 True Not fleeing 1941 Michael Alan Altice 25/12/16 W 61.0 True Not fleeing 652 Manuel Soriano 27/08/15 H 29.0 False Not fleeing
什么是group by
groupby就是按xx分组, 它也确实是用来实现这样功能的. 比如, 将一个数据集按A进行分组, 效果是这样
我们尝试使用groupby来尝试实现这样的功能, 不过我们不用A列, 我们将用我们数据集里面的"种族"尝试分组:
data.groupby('race')
<pandas.core.groupby.DataFrameGroupBy object at 0x104fa2208>
这里我们得到了一个叫DataFrameGroupBy的东西, 虽然 pandas 不让我们直接看它长啥样, 但是你将它想象成上面那幅分组后的图(我手绘的)是完全没有问题的.
这篇稿主要介绍如何鼓捣这个DataFrameGroupBy, 这个DataFrameGroupBy主要的功能能是允许你在不额外写循环的情况下, 快速对每一组数据进行操作
基本操作
最基本的就是组内计数, 求和, 求均值, 求方差, 求blablabla... 比如, 要求被不同种族内被击毙人员年龄的均值:
data.groupby('race')['age'].mean()
race A 36.605263 B 31.635468 H 32.995157 N 30.451613 O 33.071429 W 40.046980 Name: age, dtype: float64
上面我们求得了各个种族中被击毙的人员的平均年龄, 得到的是一个Series, 每一行对应了每一组的mean, 除此之外你还可以换成std, median, min, max这些基本的统计数据
上面age是连续属性, 我们还可以操作离散属性, 比如对不同取值的计数: .value_counts() 以下尝试求不同种族内, 是否有精神异常迹象的分别有多少人
data.groupby('race')['signs_of_mental_illness'].value_counts()
race signs_of_mental_illness A False 29 True 10 B False 523 True 95 H False 338 True 85 N False 23 True 8 O False 21 True 7 W False 819 True 382 Name: signs_of_mental_illness, dtype: int64
注: 这时, 组内操作的结果不是单个值, 是一个序列, 我们可以用.unstack()将它展开
data.groupby('race')['signs_of_mental_illness'].value_counts().unstack()
signs_of_mental_illness False True race A 29 10 B 523 95 H 338 85 N 23 8 O 21 7 W 819 382
方法总结
首先通过groupby得到DataFrameGroupBy对象, 比如data.groupby('race') 然后选择需要研究的列, 比如['age'], 这样我们就得到了一个SeriesGroupby, 它代表每一个组都有一个Series 对SeriesGroupby进行操作, 比如.mean(), 相当于对每个组的Series求均值
注: 如果不选列, 那么第三步的操作会遍历所有列, pandas会对能成功操作的列进行操作, 最后返回的一个由操作成功的列组成的DataFrame
更多基本操作
选择一个组 不细讲啦, 我自己觉得跟筛选数据差不多
可视化
这是我非常喜欢Groupby的一个地方, 它能够帮你很轻松地分组画图, 免去手写每个组的遍历的烦恼, 还能为你每个组分好颜色.
场景一: 不同种族中, 逃逸方式分别是如何分布的?
(属性A的不同分组中, 离散属性B的情况是怎么样的 )
- 一种传统做法是: 遍历每个组 然后筛选不同组的数据 逐个子集画条形图 (或者其他表示)
races = np.sort(data['race'].dropna().unique())
fig, axes = plt.subplots(1, len(races), figsize=(24, 4), sharey=True)
for ax, race in zip(axes, races):
data[data['race']==race]['flee'].value_counts().sort_index().plot(kind='bar', ax=ax, title=race)
还不错, 但是使用Groupby能让我们直接免去循环, 而且不需要烦人的筛选, 一行就完美搞定
data.groupby('race')['flee'].value_counts().unstack().plot(kind='bar', figsize=(20, 4))
方法总结
首先, 得到分组操作后的结果data.groupby('race')['flee'].value_counts() 这里有一个之前介绍的.unstack操作, 这会让你得到一个DateFrame, 然后调用条形图, pandas就会遍历每一个组(unstack后为每一行), 然后作各组的条形图
场景二: 按不同逃逸类型分组, 组内的年龄分布是如何的?
(属性A的不同分组中, 连续属性B的情况是怎么样的)
data.groupby('flee')['age'].plot(kind='kde', legend=True, figsize=(20, 5))
方法总结
这里data.groupby('flee')['age']是一个SeriesGroupby对象, 顾名思义, 就是每一个组都有一个Series. 因为划分了不同逃逸类型的组, 每一组包含了组内的年龄数据, 所以直接plot相当于遍历了每一个逃逸类型, 然后分别画分布图.
pandas 会为不同组的作图分配颜色, 非常方便
高级操作
场景三: 有时我们需要对组内不同列采取不同的操作
比如说, 我们按flee分组, 但是我们需要对每一组中的年龄求中位数, 对是否有精神问题求占比
这时我们可以这样做
data.groupby('race').agg({'age': np.median, 'signs_of_mental_illness': np.mean})
age signs_of_mental_illness race A 35.0 0.256410 B 30.0 0.153722 H 31.0 0.200946 N 29.0 0.258065 O 29.5 0.250000 W 38.0 0.318068
方法总结 这里我们操作的data.groupby('race')是一个DataFrameGroupby, 也就是说, 每一组都有一个DataFrame
我们把对这些DataFrame的操作计划写成了了一个字典{'age': np.median, 'signs_of_mental_illness': np.mean}, 然后进行agg, (aggragate, 合计)
然后我们得到了一个DataFrame, 每行对应一个组, 没列对应各组DataFrame的合计信息, 比如第二行第一列表示, 黑人被击毙者中, 年龄的中位数是30, 第二行第二列表示, 黑人被击毙者中, 有精神疾病表现的占15%
场景四: 我们需要同时求不同组内, 年龄的均值, 中位数, 方差
data.groupby('flee')['age'].agg([np.mean, np.median, np.std])
mean median std flee Car 33.911765 33.0 11.174234 Foot 30.972222 30.0 10.193900 Not fleeing 38.334753 36.0 13.527702 Other 33.239130 33.0 9.932043
方法总结
现在我们对一个SeriesGroupby同时进行了多种操作. 相当于同时得到了这三行的结果:
data.groupby('flee')['age'].mean()
data.groupby('flee')['age'].median()
data.groupby('flee')['age'].std()
所以这其实是基本操作部分的进阶
场景五: 结合场景三和场景四可以吗?
答案是肯定的, 请看
data.groupby('flee').agg({'age': [np.median, np.mean], 'signs_of_mental_illness': np.mean})
age signs_of_mental_illness_mean flee median mean mean Car 33.0 33.911765 0.114286 Foot 30.0 30.972222 0.115646 Not fleeing 36.0 38.334753 0.319174 Other 33.0 33.239130 0.072917
但是这里有一个问题, 这个列名分了很多层级, 我们可以进行重命名:
agg_df = data.groupby('flee').agg({'age': [np.median, np.mean], 'signs_of_mental_illness': np.mean})
agg_df.columns = ['_'.join(col).strip() for col in agg_df.columns.values]
agg_df
age_median age_mean signs_of_mental_illness_mean flee Car 33.0 33.911765 0.114286 Foot 30.0 30.972222 0.115646 Not fleeing 36.0 38.334753 0.319174 Other 33.0 33.239130 0.072917
方法总结 注意这里agg接受的不一定是np.mean这些函数, 你还可以进行自定义函数哦
总结
Groupby 可以简单总结为 split, apply, combine, 也就是说:
- split : 先将数据按一个属性分组 (得到 DataFrameGroupby / SeriesGroupby )
- apply : 对每一组数据进行操作 (取平均 取中值 取方差 或 自定义函数)
- combine: 将操作后的结果结合起来 (得到一个DataFrame 或 Series 或可视化图像)
希望看完本文你已经对groupby的使用有清晰的印象, 并充满信心, 如果你需要更细致的微操作, 多属性Groupby等, 可以进一步阅读文档
https://www.jianshu.com/p/42f1d2909bb6
https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html
相关推荐
- 第十章:优化设计与自动化工作流(优化设计是)
-
以下重点讲解优化设计、自动化脚本编写以及与其他工具(如Python、优化算法库)的集成,提升CFD仿真的工程应用效率。目标:掌握参数化扫描、优化算法集成和批量任务管理,实现从单次模拟到自动化设计探索的...
- 安装python语言,运行你的第一行代码
-
#01安装Python访问Python官方(https://www.python.org/),下载并安装最新版本的Python。确保安装过程中勾选“Addpython.exetoPAT...
- Python安装(python安装的库在哪个文件夹)
-
Windows系统1.安装python1.1下载Python安装包打开官方网站:https://www.python.org/downloads/点击"DownloadPython3.1...
- 比pip快100倍的Python包安装工具(python2.7.5安装pip)
-
简介uv是一款开源的Python包安装工具,GitHubstar高达56k,以性能极快著称,具有以下特性(官方英文原文):Asingletooltoreplacepip,pip-tool...
- 【跟着豆包AI学Python】Python环境的安装,编写第一个程序
-
最近几年,人工智能越来越走进人们的日常生活,国内各大公司都推出了自己的AI助手,例如:阿里旗下的通义千问、百度旗下的文心一言、腾讯的腾讯元宝、深度求索的deepseek等,元宝就是字节跳动公司推出的A...
- Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌...
-
Python3+变量命名规则与约定详解一、官方命名规则(必须遵守)1.合法字符集变量名只能包含:大小写字母(a-z,A-Z)数字(0-9)下划线(_)2.禁止数字开头合法:user_age,...
- Python程序打包为EXE的全面指南:从入门到精通
-
引言在Python开发中,将程序打包成可执行文件(EXE)是分发应用程序的重要环节。通过打包,我们可以创建独立的可执行文件,让没有安装Python环境的用户也能运行我们的程序。本篇文章将详细介绍如何使...
- 别再纸上谈兵了!手把手教你安装GraalVM,让你的代码瞬间起飞!
-
各位老铁们,是不是每次看到我吹嘘GraalVM的各种神迹,心里都痒痒的?想让自己的Java程序秒启动?想让Python脚本跑得比平时快好几倍?想体验一把多语言无缝协作的快感?但一想到要下载、配置、敲命...
- 纠结坏了!从 Python 3.8 升级到 3.14 真有必要吗?
-
点赞、收藏、加关注,下次找我不迷路"我电脑里装的Python3.8,现在都出3.14了,要不要赶紧升级啊?会不会像手机系统更新一样,越升级越卡?"相信很多刚入门的朋友都有类...
- win10下python3.13.3最新版本解释器的下载与安装
-
一、python3.13.3下载官方下载地址:https://www.python.org/1.浏览器访问https://www.python.org/这个地址,进入python的网站,点击【Dowl...
- Python简介与开发环境搭建详细教程
-
1.1Python简介与开发环境搭建详细教程一、Python语言简介1.Python的核心特点2.Python的应用领域表1.1Python主要应用领域领域典型应用常用库Web开发网站后端D...
- python开发小游戏案例(python游戏开发入门经典教程)
-
#头条创作挑战赛#假设你正在开发一个小型游戏,需要实现角色移动、障碍物生成、碰撞检测等功能。你可以使用Python和Pygame库来开发这个游戏。输入以下命令来安装Pygame:pipinstall...
- Python编程:从入门到实践 第十一、二 章 武装飞船
-
假设我们有一个名为AnonymousSurvey的类,用于收集匿名调查的答案。该类包含以下方法:classAnonymousSurvey:def__init__(self,questi...
- 「Python系列」python几个重要模块的安装(二)
-
一、python的pygame的安装:安装地址:https://www.cnblogs.com/charliedaifu/p/9938542.htmlpyagme包下载地址:https://down...
- python如何绘制消消乐小游戏(python字母消消乐)
-
要开发一款消消乐的小游戏界面,我们可以使用Python的pygame库。首先需要安装pygame库,然后创建一个窗口,加载游戏素材,处理游戏逻辑,以及绘制游戏界面。以下是一个简单的消消乐游戏界面实现:...
- 一周热门
- 最近发表
-
- 第十章:优化设计与自动化工作流(优化设计是)
- 安装python语言,运行你的第一行代码
- Python安装(python安装的库在哪个文件夹)
- 比pip快100倍的Python包安装工具(python2.7.5安装pip)
- 【跟着豆包AI学Python】Python环境的安装,编写第一个程序
- Python3+ 变量命名全攻略:PEP8 规范 + 官方禁忌...
- Python程序打包为EXE的全面指南:从入门到精通
- 别再纸上谈兵了!手把手教你安装GraalVM,让你的代码瞬间起飞!
- 纠结坏了!从 Python 3.8 升级到 3.14 真有必要吗?
- win10下python3.13.3最新版本解释器的下载与安装
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)