喜欢的条友记得关注、点赞、转发、收藏,你们的支持就是我最大的动力源泉。
首先,你需要先安装Python程序和开发环境:
「Python3.11.0」手把手教你安装最新版Python运行环境
Python启航:30天编程速成之旅(第2天)-IDE安装
【Python教程】JupyterLab 开发环境安装
pandas 是 Python 编程语言中一个快速、强大、灵活且易于使用的开源数据分析和操作工具。
目前最新版本为:2.2.2
安装和更新方法:
# 安装:
pip install pandas
# 更新:
pip install -U pandas
常用导入方式:
import pandas as pd
pandas 中的基本数据结构
Pandas 提供了两种类型的类来处理数据:
- Series:包含任何类型的数据的一维标记数组
such as integers, strings, Python objects etc.例如整数、字符串、Python 对象等。
- DataFrame:一种二维数据结构,用于保存数据,如二维数组或具有行和列的表。
对象创建
通过传递值列表来创建 Series,让 pandas 创建默认的 RangeIndex。
import pandas as pd
data = pd.Series([10, 20, 30, 40, 50])
data
运行结果:
通过使用 date_range() 和标记列传递带有日期时间索引的数组来创建 DataFrame:
import pandas as pd
# 使用date_range方法创建连续的日期
my_date = pd.date_range("20241001", periods=7)
my_date
运行结果:
通过使用 date_range() 传递带有日期时间索引的 NumPy 数组来创建 DataFrame:
import pandas as pd
import numpy as np
# 使用date_range方法创建连续的日期
my_date = pd.date_range("20241001", periods=7)
# 传递带有日期时间索引的 NumPy 数组来创建 DataFrame
df = pd.DataFrame(np.random.randn(7, 4), index=my_date, columns=['第一次', '第二次', '第三次', '第四次'])
df
运行结果:
通过传递对象字典来创建 DataFrame。
import pandas as pd
import numpy as np
df2 = pd.DataFrame(
{
"第一次": 100,
"第二次": pd.Timestamp("20241001"),
"第三次": pd.Series(50, index=list(range(4)), dtype="float64"),
"第四次": np.array('a' * 4, dtype="str"),
"第五次": pd.Categorical(["测试", "预测", "测试", "预测"]),
"第六次": ["真", "假", "真", "假"]
}
)
df2
运行结果:
DataFrame 的每个列都有不用的类型:
df2.dtypes
运行结果:
查看数据
使用 DataFrame.head() 和 DataFrame.tail() 分别查看数据的前5行和后5行。
查看前5行:
import pandas as pd
import numpy as np
# 使用date_range方法创建连续的日期
my_date = pd.date_range("20241001", periods=10)
# 传递带有日期时间索引的 NumPy 数组来创建 DataFrame
df = pd.DataFrame(np.random.randn(10, 4), index=my_date, columns=['第一次', '第二次', '第三次', '第四次'])
# 查看前5行
df.head()
运行结果:
查看后5行:
import pandas as pd
import numpy as np
# 使用date_range方法创建连续的日期
my_date = pd.date_range("20241001", periods=10)
# 传递带有日期时间索引的 NumPy 数组来创建 DataFrame
df = pd.DataFrame(np.random.randn(10, 4), index=my_date, columns=['第一次', '第二次', '第三次', '第四次'])
# 查看后5行
df.tail()
运行结果:
显示索引和列标签:
# 查看数据索引
df.index
# 查看列标签
df.columns
运行结果:
使用 DataFrame.to_numpy() 返回Numpy格式的数据,不包含索引或列标签:
df.to_numpy()
运行结果:
describe() 显示数据的快速统计数据摘要:
df.describe()
运行结果:
转置数据:
df.T
运行结果:
按轴排序:
df.sort_index(axis=1, ascending=False)
运行结果:
按值排序:
df.sort_values(by="第一次")
运行结果:
喜欢的条友记得关注、点赞、转发、收藏,你们的支持就是我最大的动力源泉。