百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

如何使用Python中 pandas进行数据分析?

itomcoil 2025-03-12 15:54 15 浏览

毋庸置疑,pandas是Python数据分析最常用的包,其便捷的函数用法和高效的数据处理方法深受从事数据分析相关工作人员的喜爱,极大提高了数据处理的效率,作为京东的经营分析人员,也经常使用pandas进行数据分析。

下面我将带领大家速学pandas数据分析,内容包含安装pandas、数据导入、数据预览、数据排序、分组聚合、数据可视化、数据导出,使用案例教大家pandas如何实现数据分析,熟练掌握后可深入学习其他知识点,下面一起学习~

安装pandas

使用pandas的功能,需要下载pandas包,Anaconda中打开jupyterNotebook,在代码行中输入如下命令进行下载。

#下载包 
!pip install pandas

如网络慢,无法下载,可指定国内源快速下载安装,就是在下载包的命令后加-i,然后添加具体的镜像网址。

#添加镜像网址下载 
!pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

安装pands包以后,引入pandas包,起一个别名叫pd,同时查看pandas包的版本,打印结果是1.1.5版本。

# 引入 Pandas库,按惯例起别名pd 
import pandas as pd
 
#打印版本号
pd.__version__

数据导入

如何使用Python导入.xlsx文件,导入.xlsx文件的参数如下所示,关于read_excel参数比较多,只需要掌握常用的几个参数即可。

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None,usecols=None, 
              squeeze=False,dtype=None,engine=None,converters=None,true_values=None,
              false_values=None,skiprows=None,nrows=None,na_values=None,parse_dates=False,
              date_parser=None,thousands=None, comment=None, skipfooter=0, 
              convert_float=True, **kwds)

使用read_excel命令导入数据,写入路径即可导入数据,数据包含日期、订单号、区域、省份等数据字段。

import pandas as pd

df=pd.read_excel(r'D:\系统桌面(勿删)\Desktop\电商销售数据-23年8月.xlsx',parse_dates=['日期'])
df

数据预览

拿到一组数据以后,我们首先对数据做个预览,看看数据的基本特征,df.head()可以预览前5行数据,df.tail()可以预览后5行数据。

#预览前五行数据
df.head()

#预览后五行数据
df.tail() 

使用df.shape命令查看数据包含的行数和列数,打印结果为(7409, 13),表示数据有7409行,13列。

df.shape

(7409, 13)

可以使用df.columns命令对数据字段进行预览

df.columns

使用df.dtypes命令查看数据类型,其中,日期是日期型,区域为字符型,销售数为数值型。

df.dtypes

使用df.info()命令查看查看索引、数据类型和内存信息。

df.info()

对数据做基本的描述统计可以有以下特征:

  • 数据包含7409行数据,客户平均年龄为42岁,最小年龄22岁,最大年龄62岁;
  • 平均进货价格12427元,平均销售数7单,平均销售额81022元,平均利润16857元;
  • 销售数中位数为7单,销售额中位数为61850元,利润销售额为8560元。
df.describe().round(0)

数据筛选

拿到一组数据,并不是所有的数据都能符合自己的数据分析需要,就要对数据做个筛选,比如筛选出客户年龄为22岁的包括“销售数”,“销售额”,“利润”三个字段数据,可以使用[ ]进行筛选。

df_age_22=df[df['客户年龄']==22][['客户年龄','销售数','销售额','利润']] 
df_age_22

如果要添加多条件进行筛选,可以使用&符号添加多个筛选条件,比如这里同时筛选客户年龄为22岁且利润大于10万的所有客户数据,就可以分别作为筛选条件,然后使用&符号连接起来。

df_age_22_sale=df[(df['客户年龄']==22)&(df['利润']>100000)] 
df_age_22_sale

数据排序

使用sort_values函数排序,by后面跟排序的字段,默认为升序排列,ascending=False可将字段设为降序排列,这里将利润按照从大到小降序排列

df.sort_values(by='利润',ascending=False)

如果需要自定义排序,可以将多个字段传入列表[ ]中,ascending用来自定义字段是升序还是降序排列,比如这里分别对“省份”,“销售额”两个字段降序排列。

df.sort_values(['省份','销售额'],ascending=[False,False])

分组聚合

分组聚合是数据处理中最常用的一个功能,使用groupby函数,括号内跟分组的对象,中括号中加运算对象,比如这里计算各个区域的订单数据,由数据可得华南区域的订单数最多,有2692单,西南区域的订单数最少,有232单。

df.groupby('区域')['订单号'].count().reset_index()

如果要对同一个字段做不同的运算,可以使用.agg函数,中括号中可以添加具体需要运算的方法,比如这里分别对各个区域的利润求平均值、最大值和最小值,由数据可以看出,华北区域的平均利润是17928.7元,平均值最高,东北区域的极差最大,最大利润和最小利润都集中在东北区域。

df.groupby('区域')['利润'].agg(['mean','max','min']).round(1) .reset_index()

除此之外使用describe()函数可以快速得出描述统计结果。

df.groupby('区域')['利润'].describe()

数据可视化

使用图表可以更高效地传达数据信息,如下使用plot.bar() 函数做各个区域销售额的柱形图,由图可以看出华南区域的销售额最高,西南区域的销售额最低。

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

df.groupby('区域')['销售额'].sum().plot.bar() # 柱状图

同样,使用plot.barh()可以做出条形图。

df.groupby('区域')['销售额'].sum().sort_values().plot.barh() # 条形图

使用plot.pie函数可以看各个区域的销售额占比,其中,autopct用来设置数据标签,figsize用来设置图图片的大小,由图可以看出华南区域的销售额占比最高,西南区域的销售额占比最低,仅占比3.1%。

import matplotlib.pyplot as plt 
import matplotlib.style as psl

plt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签
plt.rcParams['axes.unicode_minus']=False #用来正常显示负号

psl.use('ggplot')

#导入数据
df_sale=df.groupby('区域')['销售额'].sum().sort_values(ascending=False).reset_index()
labels = df_sale['区域'].tolist()
explode = [0.050,0.050,0,0,0,0]  # 用于突出显示特定区域
#饼图
df_sale['销售额'].plot(kind='pie',figsize=(9,6),autopct='%.1f%%',#数据标签
                    labels=labels,
                    startangle=90, #初始角度
                    explode=explode, # 突出显示数据
                    pctdistance=0.87,  # 设置百分比标签与圆心的距离
                    textprops = {'fontsize':12, 'color':'k'}, # 设置文本标签的属性值
                    counterclock = False, # 是否逆时针
                   )

plt.title("各区域销售额占比")

数据导出

将数据分析的数据结果导出到Excel表中,可以使用to_excel函数,如果需要导出到不同的sheet中,需要提前声明一个writer对象,该对象内含导出的路径以及表格名称,将需要导出的数据赋值给变量后即可导出到本地。

如下我们将各个区域销售订单数和各个区域的销售额描述统计两个统计结果分别导出到两个sheet表中,index=False表明不显示行索引。

#声明一个对象 
writer=pd.ExcelWriter(r'D:\系统桌面(勿删)\Desktop\电商销售数据分析结果.xlsx',engine='xlsxwriter') 

#变量赋值 
out_table1=df.groupby('区域')['订单号'].count().reset_index() 
out_table2=df.groupby('区域')['销售额'].agg(['mean','max','min','sum']).reset_index() 

#数据导出 
out_table1.to_excel(writer,sheet_name='各区域销售订单数',index=False) 
out_table2.to_excel(writer,sheet_name='各区域销售额描述统计',index=False) 

#对象保存 
writer.save() 

#对象关闭 
writer.close()

相较于Excel的复杂操作,pandas仅需几行代码即可得到数据分析结果,近乎完美,限于篇幅原因,这里仅举例pandas数据分析的常规用法,如果想要加深学习数据分析知识,不妨关注我,持续创作数据分析知识,一定能让你有所收获~#图文作者打造计划#

相关推荐

selenium(WEB自动化工具)

定义解释Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaF...

开发利器丨如何使用ELK设计微服务中的日志收集方案?

【摘要】微服务各个组件的相关实践会涉及到工具,本文将会介绍微服务日常开发的一些利器,这些工具帮助我们构建更加健壮的微服务系统,并帮助排查解决微服务系统中的问题与性能瓶颈等。我们将重点介绍微服务架构中...

高并发系统设计:应对每秒数万QPS的架构策略

当面试官问及"如何应对每秒几万QPS(QueriesPerSecond)"时,大概率是想知道你对高并发系统设计的理解有多少。本文将深入探讨从基础设施到应用层面的解决方案。01、理解...

2025 年每个 JavaScript 开发者都应该了解的功能

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.Iteratorhelpers开发者...

JavaScript Array 对象

Array对象Array对象用于在变量中存储多个值:varcars=["Saab","Volvo","BMW"];第一个数组元素的索引值为0,第二个索引值为1,以此类推。更多有...

Gemini 2.5编程全球霸榜,谷歌重回AI王座,神秘模型曝光,奥特曼迎战

刚刚,Gemini2.5Pro编程登顶,6美元性价比碾压Claude3.7Sonnet。不仅如此,谷歌还暗藏着更强的编程模型Dragontail,这次是要彻底翻盘了。谷歌,彻底打了一场漂亮的翻...

动力节点最新JavaScript教程(高级篇),深入学习JavaScript

JavaScript是一种运行在浏览器中的解释型编程语言,它的解释器被称为JavaScript引擎,是浏览器的一部分,JavaScript广泛用于浏览器客户端编程,通常JavaScript脚本是通过嵌...

一文看懂Kiro,其 Spec工作流秒杀Cursor,可移植至Claude Code

当Cursor的“即兴编程”开始拖累项目质量,AWS新晋IDEKiro以Spec工作流打出“先规范后编码”的系统工程思维:需求-设计-任务三件套一次生成,文档与代码同步落地,复杂项目不...

「晚安·好梦」努力只能及格,拼命才能优秀

欢迎光临,浏览之前点击上面的音乐放松一下心情吧!喜欢的话给小编一个关注呀!Effortscanonlypass,anddesperatelycanbeexcellent.努力只能及格...

JavaScript 中 some 与 every 方法的区别是什么?

大家好,很高兴又见面了,我是姜茶的编程笔记,我们一起学习前端相关领域技术,共同进步,也欢迎大家关注、点赞、收藏、转发,您的支持是我不断创作的动力在JavaScript中,Array.protot...

10个高效的Python爬虫框架,你用过几个?

小型爬虫需求,requests库+bs4库就能解决;大型爬虫数据,尤其涉及异步抓取、内容管理及后续扩展等功能时,就需要用到爬虫框架了。下面介绍了10个爬虫框架,大家可以学习使用!1.Scrapysc...

12个高效的Python爬虫框架,你用过几个?

实现爬虫技术的编程环境有很多种,Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫,为什么呢?因为Python确实很适合做爬虫,丰富的第三方库十分强大,简单几行代码便可实...

pip3 install pyspider报错问题解决

运行如下命令报错:>>>pip3installpyspider观察上面的报错问题,需要安装pycurl。是到这个网址:http://www.lfd.uci.edu/~gohlke...

PySpider框架的使用

PysiderPysider是一个国人用Python编写的、带有强大的WebUI的网络爬虫系统,它支持多种数据库、任务监控、项目管理、结果查看、URL去重等强大的功能。安装pip3inst...

「机器学习」神经网络的激活函数、并通过python实现激活函数

神经网络的激活函数、并通过python实现whatis激活函数感知机的网络结构如下:左图中,偏置b没有被画出来,如果要表示出b,可以像右图那样做。用数学式来表示感知机:上面这个数学式子可以被改写:...