python读excel文件最佳实践?直接请教pandas比gpt还好用
itomcoil 2025-05-10 22:32 1 浏览
前言
说到 python 读取 excel 文件,网上使用 openpyxl 的文章一大堆。我自己很少直接使用 openpyxl,一般使用 pandas 间接使用。
但如果你不希望引入 pandas,该如何轻松使用 openpyxl?到底有没有最佳实践写法?
这好办,今天就带大家看看 pandas 里面,是如何使用 openpyxl 读取 excel 文件。
不要忘记一键三连。你的点赞、收藏、关注,是我创作的动力。
本文查看的是 pandas 2.1.4 版本的代码。
使用任何能导航代码的 ide,我使用的是 vscode ,输入 pandas 的 read_excel 方法,按住 ctrl 键,鼠标点击方法,即可进入源码文件。
通过查找,你会找到一个很重要的类定义 ExcelFile :
众所周知,pandas 能指定不同的第三方库读写 excel 文件。今天我们只看 openpyxl 。进去查看,基本上所有的读取逻辑都在这个类里面。
很明显,这是读取文件的代码。由于只需要读取,设置 read only 和 data only ,能以最优性能执行。
接着是工作表相关:
有了具体的某个工作表对象,下一步就是最重要的加载数据,现在才是我们最关注的地方。到底 pandas 是如何组织代码?代码中一些奇怪的操作,是为什么?我们一一拆解。
行 612 是什么鬼?通过查 openpyxl 的文档,可以知道,原来有些程序(wps?)或库,在保存文件的时候,会写入关于工作表数据的范围最大行和列的信息。但是他们有可能会写错,通过 reset_dimensions 可以重置
接着就开始遍历读取:
同时我们注意到,行 614 和 623,这就是读取出来的所有数据,是一个 嵌套 list 结构。
但是,里面竟然有一个 while 循环?
原来,如果用户设置了一个单元格的格式,即使没有内容,也算一个有效的单元格。
此时如果只是正常遍历读取,得到的结果是
所以 while 循环就是移除这些多余的空单元格
如果这种"假单元格"出现在数据行下方:
此时就多了许多空行
所以,pandas 在遍历过程中,记录了最后有记录的行索引,遍历后截取一下就可以搞定:
看起来好像结束了?对于 pandas 来说,还没完
对于 pandas 来说,最终它会把得到的嵌套 list 数据传给 pd.DataFrame 。这里有一个前提,嵌套的每一行的列表长度必需一致才行。
但是行的长度有可能不一致。所以你会看到 pandas 的处理中,最后有一段逻辑用于补齐这些"短列表"
可以注意到,其中有3处地方在遍历 data 数据。所以,如果记录越多,这里就比较耗时。你能想到优化的方法吗?
我已经把本期涉及的代码整理好。转发、关注我,私信"python",获得本期源码和数据。
相关推荐
- Python办公自动化系列篇之一:电子表格自动化(EXCEL)
-
作为高效办公自动化领域的主流编程语言,Python凭借其优雅的语法结构、完善的技术生态及成熟的第三方工具库集合,已成为企业数字化转型过程中提升运营效率的理想选择。该语言在结构化数据处理、自动化文档生成...
- Python解决读取excel数据慢的问题
-
前言:在做自动化测试的时候,我思考了一个问题,就是如果我们的测试用例随着项目的推进越来越多时,我们做自动化回归的时间也就越来越长,其中影响自动化测试速度的一个原因就是测试用例的读取问题。用例越多,所消...
- Python高效办公:用自动化脚本批量处理Excel
-
在现代办公环境中,Excel是处理数据的必备工具,但手动操作往往耗时且容易出错。幸运的是,Python提供了强大的库,如`openpyxl`和`pandas`,能够帮助我们高效地自动化处理Exc...
- 【第三弹】用Python实现Excel的vlookup功能
-
今天继续用pandas实现Excel的vlookup功能,假设我们的2个表长成这样:我们希望把Sheet2的部门匹在Sheet1的最后一列。话不多说,先上代码:importpandasaspd...
- 学习Pandas中操作Excel,看这一篇文章就够了
-
在数据分析和处理领域,Excel文件是常见的数据存储格式之一。Pandas库提供了强大的功能来读取、处理和写入Excel文件。本文将详细介绍如何使用Pandas操作Excel文件,包括读取、数据清洗、...
- python学习笔记之pandas读取excel出现的列表显示不全问题
-
今天小编想改正一个表格,按照之前学习的首先导入模块importpandas读取目标excel文件data=pandas.read_excel("C:\\Users\\27195\\Des...
- 使用Python玩转Excel(python-excel)
-
Python读取Excel文件的方法主要有以下几种:Pandas库:Pandas是一个强大的数据处理库,它提供了方便的方法来读取和处理Excel文件。优点:Pandas是一个非常强大的数...
- Python和Excel已经互通了,还不赶紧来学习一下
-
Excel是数据分析中最常用的工具,这篇文章将Python与Excel的功能对比介绍如何使用Python通过函数式编程完成Excel中的数据处理及分析工作。在Python中pandas库用于数据处理,...
- python读excel文件最佳实践?直接请教pandas比gpt还好用
-
前言说到python读取excel文件,网上使用openpyxl的文章一大堆。我自己很少直接使用openpyxl,一般使用pandas间接使用。但如果你不希望引入pandas,该如...
- 用python实现execl表格内容的数据分析与处理
-
可以使用Python中的pandas库来处理Excel表格数据。以下是一个简单的例子:首先,安装pandas库:```pipinstallpandas```然后,读取Excel文件:```impo...
- 从入门到精通:Python处理Excel文件的实用技巧
-
在数据分析和处理的过程中,Excel是一种广泛使用的数据存储和交换格式。Python提供了多个强大的库来处理Excel文件,如pandas、openpyxl和xlrd等。本文将详细介绍...
- Python自动化-Excel:pandas之concat
-
concatimportpandasaspds1=pd.Series([0,1,2],index=['A','B','C'])s2=p...
- Python之Pandas使用系列(八):读写Excel文件的各种技巧
-
介绍:我们将学习如何使用Python操作Excel文件。我们将概述如何使用Pandas加载xlsx文件以及将电子表格写入Excel。如何将Excel文件读取到PandasDataFrame:和前面的...
- Python操作Excel详细教程,值得收藏
-
Python操作Excel是一个非常强大的工具,它可以方便地处理Excel文件,例如读取、写入、格式化单元格等。以下是使用Python操作Excel的详细教程,以Excel文件名为example.xl...
- python中pandas读取excel单列及连续多列数据
-
案例:想获取test.xls中C列、H列以后(当H列后列数未知时)的所有数据。importpandasaspdfile_name=r'D:\test.xls'#表格绝对...
- 一周热门
- 最近发表
- 标签列表
-
- ps像素和厘米换算 (32)
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)