Python数据分析笔记#8.1 层次化索引
itomcoil 2025-09-18 01:23 2 浏览
「目录」
数据规整:聚合、合并和重塑
Data Wrangling: Join, Combine, and Reshape
- 8.1 => 层次化索引
- 8.2 => 合并数据集
- 8.3 => 重塑和轴向旋转
第七章终于结束了,来到了第八章,干杯!
我把原书第七章剩下一点正则化的部分跳过去了,因为正则化的东西其实有很多,但是原书只讲了一点,并没有着重去讲,因为作者认为不是数据分析的重点,那我也偷懒跳过去吧!
本篇笔记主要讲了层次化索引,涉及了下面几个新出现的方法:
- DataFrame.swaplevel()
- DataFrame.sum()
- DataFrame.sort_index()
- DataFrame.reset_index()
层次化索引
层次化索引(hierarchical indexing)是pandas的一项重要功能,它使我们能在一个轴上拥有多个索引级别。
先来看一下层次化索引长什么样子吧:
In [1]: import pandas as pd
In [2]: import numpy as np
In [3]: data = pd.Series(np.random.randn(9), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 3, 1, 2, 2, 3]])
In [4]: data
Out[4]:
a 1 0.740915
2 -1.604666
3 1.236358
b 1 0.307977
3 1.856143
c 1 -0.243549
2 -0.924816
d 2 -0.183851
3 -0.104385
dtype: float64
查看一下data的index属性,它会告诉你这是一个MultiIndex多重索引,levels里第一个是一级索引,第二个是二级索引,codes里的你观察看看。
In [5]: data.index
Out[5]:
MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
codes=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])
选取索引为'b'的子集:
In [6]: data['b']
Out[6]:
1 0.307977
3 1.856143
dtype: float64
选取索引从'b'到'c'的这部分子集:
In [7]: data['b':'c']
Out[7]:
b 1 0.307977
3 1.856143
c 1 -0.243549
2 -0.924816
dtype: float64
选取索引为'b'和'd'的子集:
In [8]: data.loc[['b', 'd']]
Out[8]:
b 1 0.307977
3 1.856143
d 2 -0.183851
3 -0.104385
dtype: float64
还可以这么选,选取第二级索引为'2'的子集:
In [9]: data.loc[:, 2]
Out[9]:
a -1.604666
c -0.924816
d -0.183851
dtype: float64
如果对切片熟悉的话,上面那些选取子集的方法应该都不难理解。
对于DataFrame,每条轴都可以有分层索引:
In [13]: frame = pd.DataFrame(np.arange(12).reshape((4,3)), index=[['a','a','b','b'],[1,2,1,2]],columns=[['Ohio','Ohio','Colorado'],['Green','Red','Green']])
In [14]: frame
Out[14]:
Ohio Colorado
Green Red Green
a 1 0 1 2
2 3 4 5
b 1 6 7 8
2 9 10 11
我们可以给每一层都设置名字:
In [15]: frame.index.names = ['key1', 'key2']
In [16]: frame.columns.names = ['state', 'color']
In [17]: frame
Out[17]:
state Ohio Colorado
color Green Red Green
key1 key2
a 1 0 1 2
2 3 4 5
b 1 6 7 8
2 9 10 11
选取子集(分组)和以前没多少区别:
In [18]: frame['Ohio']
Out[18]:
color Green Red
key1 key2
a 1 0 1
2 3 4
b 1 6 7
2 9 10
In [19]: frame['Ohio']['Red']
Out[19]:
key1 key2
a 1 1
2 4
b 1 7
2 10
Name: Red, dtype: int32
In [22]: frame['Ohio']['Red']['a']
Out[22]:
key2
1 1
2 4
Name: Red, dtype: int32
In [23]: frame['Ohio']['Red']['a'][1]
Out[23]: 1
用loc函数来选取:
In [24]: frame.loc['a', 'Ohio']
Out[24]:
color Green Red
key2
1 0 1
2 3 4
In [25]: frame.loc['a', ['Ohio', 'Colorado']]
Out[25]:
state Ohio Colorado
color Green Red Green
key2
1 0 1 2
2 3 4 5
swaplevel
有时我们需要重新调整某条轴上各级别的顺序,或根据指定级别上的值对数据进行排序。
swaplevel接受两个level级别编号或名称,并返回一个级别互换的新对象,但数据不会发生变化:
In [24]: frame.swaplevel('key1', 'key2')
Out[24]:
state Ohio Colorado
color Green Red Green
key2 key1
1 a 0 1 2
2 a 3 4 5
1 b 6 7 8
2 b 9 10 11
sort_index会根据单个level级别的值对数据进行排序,比如下面对'key2'level下的数据进行排序:
In [25]: frame.sort_index(level=1)
Out[25]:
state Ohio Colorado
color Green Red Green
key1 key2
a 1 0 1 2
b 1 6 7 8
a 2 3 4 5
b 2 9 10 11
swaplevel可以和sort_index一起用,这样就可以在交换顺序后,在指定level下排序了:
In [26]: frame.swaplevel(0, 1).sort_index(level=0)
Out[26]:
state Ohio Colorado
color Green Red Green
key2 key1
1 a 0 1 2
b 6 7 8
2 a 3 4 5
b 9 10 11
sum汇总统计
之前的笔记中已经写过sum方法了,sum中还有一个level选项,用于指定对某条轴上的哪一个级别求和。
In [27]: frame
Out[27]:
state Ohio Colorado
color Green Red Green
key1 key2
a 1 0 1 2
2 3 4 5
b 1 6 7 8
2 9 10 11
In [28]: frame.sum(level='key2')
Out[28]:
state Ohio Colorado
color Green Red Green
key2
1 6 8 10
2 12 14 16
在axis=1轴上,在level='color'这一级别上求和:
In [29]: frame.sum(level='color', axis=1)
Out[29]:
color Green Red
key1 key2
a 1 2 1
2 8 4
b 1 14 7
2 20 10
使用DataFrame的列进行索引
我们还可以把DataFrame的列当作行索引用。
先随便创一个DataFrame:
In [30]: frame = pd.DataFrame({'a':range(7), 'b':range(7, 0, -1), 'c':['one', 'one', 'one', 'two', 'two', 'two', 'two'], 'd':[0,1,2,0,1,2,3]})
In [31]: frame
Out[31]:
a b c d
0 0 7 one 0
1 1 6 one 1
2 2 5 one 2
3 3 4 two 0
4 4 3 two 1
5 5 2 two 2
6 6 1 two 3
DataFrame的set_index函数会将其一个或多个列转换为行索引,并创建一个新的DataFrame:
In [32]: frame2 = frame.set_index(['c', 'd'])
In [33]: frame2
Out[33]:
a b
c d
one 0 0 7
1 1 6
2 2 5
two 0 3 4
1 4 3
2 5 2
3 6 1
默认情况,被转换为行索引的列会被移除,但通过drop=False可以将其保留下来:
In [34]: frame.set_index(['c', 'd'], drop=False)
Out[34]:
a b c d
c d
one 0 0 7 one 0
1 1 6 one 1
2 2 5 one 2
two 0 3 4 two 0
1 4 3 two 1
2 5 2 two 2
3 6 1 two 3
reset_index的功能跟set_index相反:
In [35]: frame2.reset_index()
Out[35]:
c d a b
0 one 0 0 7
1 one 1 1 6
2 one 2 2 5
3 two 0 3 4
4 two 1 4 3
5 two 2 5 2
6 two 3 6 1
好啦,这篇结束了。
BYE-BYE,下期见!!!
-END-
相关推荐
- Python GUI 编程入门教程 第11章:数据库操作与文件管理
-
11.1数据库操作:与SQLite结合在许多应用中,数据的存储和管理是必不可少的部分。Tkinter本身并不自带数据库支持,但你可以通过Python的sqlite3模块来将数据库功能集成到Tkint...
- Python GUI 编程入门教程 第12章:图形绘制与用户交互
-
12.1图形绘制:Canvas控件Tkinter提供了一个非常强大的控件Canvas,可以用来绘制各种图形,如线条、矩形、圆形等。通过Canvas控件,用户可以在GUI中添加绘图、图像和其他复杂的内...
- Python GUI 编程入门教程 第16章:图形绘制与动画效果
-
16.1使用Canvas绘制图形Tkinter的Canvas控件是一个非常强大的绘图工具,可以用来绘制各种基本图形,如线条、矩形、圆形、文本等。Canvas允许你通过编程创建和修改图形元素,非常适合...
- Python GUI 编程入门教程 第10章:高级布局与界面美化
-
10.1高级布局管理:使用grid和placeTkinter提供了三种常用的布局管理方式:pack、grid和place。在本章中,我们重点介绍grid和place,这两种布局方式相较于pack更加...
- 手机Python编程神器——AidLearning
-
【下载和安装】1、让我们一起来看下吧,直接上图。第一眼看到是不是觉得很高逼格,暗黑画风,这很大佬。其实它就是------AidLearning。一个运行在安卓平台的linux系统,而且还包含了许多非常...
- Python GUI开发:从零开始创建桌面应用
-
在数字化时代,桌面应用依然是我们日常生活中不可或缺的一部分。无论是办公软件、游戏还是各种工具,它们都依赖于图形用户界面(GUI)来提供直观的操作体验。Python的wxPython库为我们提供了一个强...
- Python界面(GUI)编程PyQt5窗体小部件
-
一、简介在Qt(和大多数用户界面)中,“小部件”是用户可以与之交互的UI组件的名称。用户界面由布置在窗口内的多个小部件组成。Qt带有大量可用的小部件,也允许您创建自己的自定义和自定义小部件。二、小部件...
- 自学Python的8个正确顺序仅供参考
-
今天决定写一个Python新人的自学指南,好多人搞不清楚自学的顺序及路线,今天提供给大家参考一下,其实自学编程真的没有难。1【Python基础】安装并配置Python环境和编译软件Pycharm,这...
- Python | Python交互式编程神器_python交互运行
-
很多Pythoner不怎么喜欢用Python交互式界面编程,例如使用Jupyter工具。感觉交互式编程没有把代码敲完再debug舒服。但是在对一些模块/功能进行调试的时候还是非常香的。例如我在写爬虫程...
- Python GUI 编程入门教程 第14章:构建复杂图形界面
-
14.1界面布局管理在Tkinter中,界面控件的排列是通过布局管理器来实现的。Tkinter提供了三种布局管理器:pack、grid和place,每种布局管理器都有其独特的用途和优势。14.1.1...
- Python数据库编程教程:第 1 章 数据库基础与 Python 连接入门
-
1.1数据库的核心概念在开始Python数据库编程之前,我们需要先理解几个核心概念。数据库(Database)是按照数据结构来组织、存储和管理数据的仓库,它就像一个电子化的文件柜,能让我们高效...
- Python GUI 编程入门教程 第1章:Tkinter入门
-
1.1什么是Tkinter?Tkinter是Python的标准GUI库,它是Python语言的内置模块,无需额外安装。在Tkinter中,我们可以创建窗口、按钮、标签、文本框等常见的GUI元素。1....
- 用Python做个简单的登录页面_python怎么编写一个登录界面
-
我们上网时候,很多网站让你登录,没有账号注册会员,不能复制、粘贴都不让你操作。那我们怎么去实现这个窗口呢?很多语言都可以实现,根据你的需求去确定用哪个,这里我们学习python,就用tkinter测...
- Python入门学习教程:第 16 章 图形用户界面(GUI)编程
-
16.1什么是GUI编程?图形用户界面(GraphicalUserInterface,简称GUI)是指通过窗口、按钮、菜单、文本框等可视化元素与用户交互的界面。与命令行界面(CLI)相比,...
- 推荐系统实例_推荐系统有哪三个部分组成
-
协同过滤算法:#第14课:推荐系统实践-完整的协同过滤推荐系统示例#1.导入必要的库importpandasaspdfromsklearn.metrics.pairwise...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)