毋庸置疑,pandas是Python数据分析最常用的包,其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱,极大提高了数据处理的效率,作为京东的经营分析人员,也经常使用pandas进行数据分析。
下面我将带领大家速学pandas数据分析,内容包含安装pandas、数据导入、数据预览、数据排序、分组聚合、数据可视化、数据导出,使用案例教大家pandas如何实现数据分析,熟练掌握后可深入学习其他知识点,下面一起学习~
安装pandas
使用pandas的功能,需要下载pandas包,Anaconda中打开jupyterNotebook,在代码行中输入如下命令进行下载。
#下载包
!pip install pandas
如网络慢,无法下载,可指定国内源快速下载安装,就是在下载包的命令后加-i,然后添加具体的镜像网址。
#添加镜像网址下载
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
安装pands包以后,引入pandas包,起一个别名叫pd,同时查看pandas包的版本,打印结果是1.1.5版本。
# 引入 Pandas库,按惯例起别名pd
import pandas as pd
#打印版本号
pd.__version__
数据导入
如何使用Python导入.xlsx文件,导入.xlsx文件的参数如下所示,关于read_excel参数比较多,只需要掌握常用的几个参数即可。
pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,usecols=None,
squeeze=False,dtype=None,engine=None,converters=None,true_values=None,
false_values=None,skiprows=None,nrows=None,na_values=None,parse_dates=False,
date_parser=None,thousands=None, comment=None, skipfooter=0,
convert_float=True, **kwds)
使用read_excel命令导入数据,写入路径即可导入数据,数据包含日期、订单号、区域、省份等数据字段。
import pandas as pd
df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\电商销售数据-23年8月.xlsx',parse_dates=['日期'])
df
数据预览
拿到一组数据以后,我们首先对数据做个预览,看看数据的基本特征,df.head()可以预览前5行数据,df.tail()可以预览后5行数据。
#预览前五行数据
df.head()
#预览后五行数据
df.tail()
使用df.shape命令查看数据包含的行数和列数,打印结果为(7409, 13),表示数据有7409行,13列。
df.shape
(7409, 13)
可以使用df.columns命令对数据字段进行预览
df.columns
使用df.dtypes命令查看数据类型,其中,日期是日期型,区域为字符型,销售数为数值型。
df.dtypes
使用df.info()命令查看查看索引、数据类型和内存信息。
df.info()
对数据做基本的描述统计可以有以下特征:
- 数据包含7409行数据,客户平均年龄为42岁,最小年龄22岁,最大年龄62岁;
- 平均进货价格12427元,平均销售数7单,平均销售额81022元,平均利润16857元;
- 销售数中位数为7单,销售额中位数为61850元,利润销售额为8560元。
df.describe().round(0)
数据筛选
拿到一组数据,并不是所有的数据都能符合自己的数据分析需要,就要对数据做个筛选,比如筛选出客户年龄为22岁的包括“销售数”,“销售额”,“利润”三个字段数据,可以使用[ ]进行筛选。
df_age_22=df[df['客户年龄']==22][['客户年龄','销售数','销售额','利润']]
df_age_22
如果要添加多条件进行筛选,可以使用&符号添加多个筛选条件,比如这里同时筛选客户年龄为22岁且利润大于10万的所有客户数据,就可以分别作为筛选条件,然后使用&符号连接起来。
df_age_22_sale=df[(df['客户年龄']==22)&(df['利润']>100000)]
df_age_22_sale
数据排序
使用sort_values函数排序,by后面跟排序的字段,默认为升序排列,ascending=False可将字段设为降序排列,这里将利润按照从大到小降序排列
df.sort_values(by='利润',ascending=False)
如果需要自定义排序,可以将多个字段传入列表[ ]中,ascending用来自定义字段是升序还是降序排列,比如这里分别对“省份”,“销售额”两个字段降序排列。
df.sort_values(['省份','销售额'],ascending=[False,False])
分组聚合
分组聚合是数据处理中最常用的一个功能,使用groupby函数,括号内跟分组的对象,中括号中加运算对象,比如这里计算各个区域的订单数据,由数据可得华南区域的订单数最多,有2692单,西南区域的订单数最少,有232单。
df.groupby('区域')['订单号'].count().reset_index()
如果要对同一个字段做不同的运算,可以使用.agg函数,中括号中可以添加具体需要运算的方法,比如这里分别对各个区域的利润求平均值、最大值和最小值,由数据可以看出,华北区域的平均利润是17928.7元,平均值最高,东北区域的极差最大,最大利润和最小利润都集中在东北区域。
df.groupby('区域')['利润'].agg(['mean','max','min']).round(1) .reset_index()
除此之外使用describe()函数可以快速得出描述统计结果。
df.groupby('区域')['利润'].describe()
数据可视化
使用图表可以更高效地传达数据信息,如下使用plot.bar() 函数做各个区域销售额的柱形图,由图可以看出华南区域的销售额最高,西南区域的销售额最低。
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
df.groupby('区域')['销售额'].sum().plot.bar() # 柱状图
同样,使用plot.barh()可以做出条形图。
df.groupby('区域')['销售额'].sum().sort_values().plot.barh() # 条形图
使用plot.pie函数可以看各个区域的销售额占比,其中,autopct用来设置数据标签,figsize用来设置图图片的大小,由图可以看出华南区域的销售额占比最高,西南区域的销售额占比最低,仅占比3.1%。
import matplotlib.pyplot as plt
import matplotlib.style as psl
plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号
psl.use('ggplot')
#导入数据
df_sale=df.groupby('区域')['销售额'].sum().sort_values(ascending=False).reset_index()
labels = df_sale['区域'].tolist()
explode = [0.050,0.050,0,0,0,0] # 用于突出显示特定区域
#饼图
df_sale['销售额'].plot(kind='pie',figsize=(9,6),autopct='%.1f%%',#数据标签
labels=labels,
startangle=90, #初始角度
explode=explode, # 突出显示数据
pctdistance=0.87, # 设置百分比标签与圆心的距离
textprops = {'fontsize':12, 'color':'k'}, # 设置文本标签的属性值
counterclock = False, # 是否逆时针
)
plt.title("各区域销售额占比")
数据导出
将数据分析的数据结果导出到Excel表中,可以使用to_excel函数,如果需要导出到不同的sheet中,需要提前声明一个writer对象,该对象内含导出的路径以及表格名称,将需要导出的数据赋值给变量后即可导出到本地。
如下我们将各个区域销售订单数和各个区域的销售额描述统计两个统计结果分别导出到两个sheet表中,index=False表明不显示行索引。
#声明一个对象
writer=pd.ExcelWriter(r'D:\系统桌面(勿删)\Desktop\电商销售数据分析结果.xlsx',engine='xlsxwriter')
#变量赋值
out_table1=df.groupby('区域')['订单号'].count().reset_index()
out_table2=df.groupby('区域')['销售额'].agg(['mean','max','min','sum']).reset_index()
#数据导出
out_table1.to_excel(writer,sheet_name='各区域销售订单数',index=False)
out_table2.to_excel(writer,sheet_name='各区域销售额描述统计',index=False)
#对象保存
writer.save()
#对象关闭
writer.close()
相较于Excel的复杂操作,pandas仅需几行代码即可得到数据分析结果,近乎完美,限于篇幅原因,这里仅举例pandas数据分析的常规用法,如果想要加深学习数据分析知识,不妨关注我,持续创作数据分析知识,一定能让你有所收获~#图文作者打造计划#