百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

python读excel文件最佳实践?直接请教pandas比gpt还好用

itomcoil 2025-05-10 22:32 1 浏览

前言

说到 python 读取 excel 文件,网上使用 openpyxl 的文章一大堆。我自己很少直接使用 openpyxl,一般使用 pandas 间接使用。

但如果你不希望引入 pandas,该如何轻松使用 openpyxl?到底有没有最佳实践写法?

这好办,今天就带大家看看 pandas 里面,是如何使用 openpyxl 读取 excel 文件。

不要忘记一键三连。你的点赞、收藏、关注,是我创作的动力。


本文查看的是 pandas 2.1.4 版本的代码。

使用任何能导航代码的 ide,我使用的是 vscode ,输入 pandas 的 read_excel 方法,按住 ctrl 键,鼠标点击方法,即可进入源码文件。

通过查找,你会找到一个很重要的类定义 ExcelFile :

众所周知,pandas 能指定不同的第三方库读写 excel 文件。今天我们只看 openpyxl 。进去查看,基本上所有的读取逻辑都在这个类里面。

很明显,这是读取文件的代码。由于只需要读取,设置 read only 和 data only ,能以最优性能执行。

接着是工作表相关:

有了具体的某个工作表对象,下一步就是最重要的加载数据,现在才是我们最关注的地方。到底 pandas 是如何组织代码?代码中一些奇怪的操作,是为什么?我们一一拆解。


行 612 是什么鬼?通过查 openpyxl 的文档,可以知道,原来有些程序(wps?)或库,在保存文件的时候,会写入关于工作表数据的范围最大行和列的信息。但是他们有可能会写错,通过 reset_dimensions 可以重置

接着就开始遍历读取:

同时我们注意到,行 614 和 623,这就是读取出来的所有数据,是一个 嵌套 list 结构。

但是,里面竟然有一个 while 循环?

原来,如果用户设置了一个单元格的格式,即使没有内容,也算一个有效的单元格。

此时如果只是正常遍历读取,得到的结果是

所以 while 循环就是移除这些多余的空单元格

如果这种"假单元格"出现在数据行下方:

此时就多了许多空行

所以,pandas 在遍历过程中,记录了最后有记录的行索引,遍历后截取一下就可以搞定:

看起来好像结束了?对于 pandas 来说,还没完


对于 pandas 来说,最终它会把得到的嵌套 list 数据传给 pd.DataFrame 。这里有一个前提,嵌套的每一行的列表长度必需一致才行。

但是行的长度有可能不一致。所以你会看到 pandas 的处理中,最后有一段逻辑用于补齐这些"短列表"

可以注意到,其中有3处地方在遍历 data 数据。所以,如果记录越多,这里就比较耗时。你能想到优化的方法吗?

我已经把本期涉及的代码整理好。转发、关注我,私信"python",获得本期源码和数据。

相关推荐

Python办公自动化系列篇之一:电子表格自动化(EXCEL)

作为高效办公自动化领域的主流编程语言,Python凭借其优雅的语法结构、完善的技术生态及成熟的第三方工具库集合,已成为企业数字化转型过程中提升运营效率的理想选择。该语言在结构化数据处理、自动化文档生成...

Python解决读取excel数据慢的问题

前言:在做自动化测试的时候,我思考了一个问题,就是如果我们的测试用例随着项目的推进越来越多时,我们做自动化回归的时间也就越来越长,其中影响自动化测试速度的一个原因就是测试用例的读取问题。用例越多,所消...

Python高效办公:用自动化脚本批量处理Excel

在现代办公环境中,Excel是处理数据的必备工具,但手动操作往往耗时且容易出错。幸运的是,Python提供了强大的库,如`openpyxl`和`pandas`,能够帮助我们高效地自动化处理Exc...

【第三弹】用Python实现Excel的vlookup功能

今天继续用pandas实现Excel的vlookup功能,假设我们的2个表长成这样:我们希望把Sheet2的部门匹在Sheet1的最后一列。话不多说,先上代码:importpandasaspd...

学习Pandas中操作Excel,看这一篇文章就够了

在数据分析和处理领域,Excel文件是常见的数据存储格式之一。Pandas库提供了强大的功能来读取、处理和写入Excel文件。本文将详细介绍如何使用Pandas操作Excel文件,包括读取、数据清洗、...

python学习笔记之pandas读取excel出现的列表显示不全问题

今天小编想改正一个表格,按照之前学习的首先导入模块importpandas读取目标excel文件data=pandas.read_excel("C:\\Users\\27195\\Des...

使用Python玩转Excel(python-excel)

Python读取Excel文件的方法主要有以下几种:Pandas库:Pandas是一个强大的数据处理库,它提供了方便的方法来读取和处理Excel文件。优点:Pandas是一个非常强大的数...

Python和Excel已经互通了,还不赶紧来学习一下

Excel是数据分析中最常用的工具,这篇文章将Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,...

python读excel文件最佳实践?直接请教pandas比gpt还好用

前言说到python读取excel文件,网上使用openpyxl的文章一大堆。我自己很少直接使用openpyxl,一般使用pandas间接使用。但如果你不希望引入pandas,该如...

用python实现execl表格内容的数据分析与处理

可以使用Python中的pandas库来处理Excel表格数据。以下是一个简单的例子:首先,安装pandas库:```pipinstallpandas```然后,读取Excel文件:```impo...

从入门到精通:Python处理Excel文件的实用技巧

在数据分析和处理的过程中,Excel是一种广泛使用的数据存储和交换格式。Python提供了多个强大的库来处理Excel文件,如pandas、openpyxl和xlrd等。本文将详细介绍...

Python自动化-Excel:pandas之concat

concatimportpandasaspds1=pd.Series([0,1,2],index=['A','B','C'])s2=p...

Python之Pandas使用系列(八):读写Excel文件的各种技巧

介绍:我们将学习如何使用Python操作Excel文件。我们将概述如何使用Pandas加载xlsx文件以及将电子表格写入Excel。如何将Excel文件读取到PandasDataFrame:和前面的...

Python操作Excel详细教程,值得收藏

Python操作Excel是一个非常强大的工具,它可以方便地处理Excel文件,例如读取、写入、格式化单元格等。以下是使用Python操作Excel的详细教程,以Excel文件名为example.xl...

python中pandas读取excel单列及连续多列数据

案例:想获取test.xls中C列、H列以后(当H列后列数未知时)的所有数据。importpandasaspdfile_name=r'D:\test.xls'#表格绝对...