python中的map和filter避坑指南
itomcoil 2025-05-25 13:18 15 浏览
Pythonic的方式使用map和filter
列表迭代在python中是非常pythonic的使用方式
def inc(x):
return x+1
>>> list(map(inc,range(10)))
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# pythonic way
>>> [inc(i) for i in range(10)]
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
def is_even(x): return x%2==0
>>> list(filter(is_even, range(10)))
[0, 2, 4, 6, 8]
# pythonic way
>>> [i for i in range(10) if is_even(i)]
[0, 2, 4, 6, 8]
列表迭代在python中针对迭代效率和性能是进行过定制化优化的使用方式,因此一般来说推荐这么写,不过在使用的过程中也难免踩到坑,本文希望一次性将使用注意事项讲清楚,避免采坑。
首先要明白在python中什么是值类型
在python中要想了解值类型,首先得明白以下两个:
- 什么是可变类型
- 什么是不可变类型
我们拿常见的几个类型来开场:
- string 是值类型吗?
是的,因为string是不可变类型。
- list 是值类型吗?
不是,因为list是可变类型。
- tuple是值类型吗?
是的,因为tuple是不可变类型
- iterator是值类型吗?
这个问题不好说,我拿代码来举例:
>>> a = iter((1,2,3))
>>> next(a)
1
>>> next(a)
2
>>> next(a)
3
从上述示例我们看到每次返回结果会发生变化,那么他是可变的,那么他不是值类型。
上述介绍只是一个引子,因为了解什么是可变的,什么是不可变的,什么是值类型对于资深pythoner是非常有意义的。
接下来我们从几个常见的问题来开始下面的课程。
问题1:map和filter返回的是iterator
>>> res = map(inc, range(10))
# let's check if it worked
>>> list(res)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# let's filter all even integers from res
>>> list(filter(is_even, res))
[]
如果您是一个有经验的pythonista,您可能知道哪里出错了,这是意料之中的。
以下是为什么这种是不符合预期的。如果我们使用列表推导式,就不会遇到这种情况。
>>> res=[inc(i) for i in range(10)]
# let's check if it worked
>>> res
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# let's filter all even integers from res
>>> [i for i in res if is_even(i)]
[2, 4, 6, 8, 10]
# unless you directly mutate res
# you can do more things with res.
我简化了一点,但是map和filter在调用list或tuple时返回一个迭代器。list (res)穷举迭代器,res变为空。
>>> res = map(inc, range(10))
# res returns an iterator here
>>> list(res)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# list(res) exhausts the iterator
# so you're filtering an empty iterator here
# so you get an empty list
>>> list(filter(is_even, res))
[]
你可以立即实现迭代器并存储结果到列表中。
res = list(map(inc, range(10)))
>>> list(res)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
# works fine!
>>> list(filter(is_even, res))
[2, 4, 6, 8, 10]
但是如果这么做,就会失去了map和filter的惰性加载的特性,不方便做list(map…)。
问题2:map and filter 的懒加载模式
>>> filter(is_even, [1,2,3])
<filter object at 0x0000018B347B0EB0>
这里,当你调用filter时,你是在创建一个filter对象,你不是在计算结果。你只在绝对需要的时候计算它,这是懒惰。这在函数式编程中很常见。这就是为什么这在python中是一个问题。
>>> a = [1,2,3,4]
>>> res = filter(is_even, a)
>>> a.append(10)
>>> a.append(12)
你认为过滤的结果会是什么?如果你使用list(res),你会得到什么?需要你好好想想。
答案如下:
>>> list(res)
[2, 4, 10, 12]
大多数人都能猜对答案,但这并不难。
>>> res = filter(is_even, a)
我肯定是指过滤a的值,它是[1,2,3,4]。这会导致难以追踪的bug,更重要的是,这会使你的代码难以推理。
大多数函数式语言都具有不可变性是有原因的。只有当可以保证表达式的参数每次都具有相同的含义时,才能延迟表达式的求值。
在本例中,filter(is_even, a)的结果取决于迭代器的实现时间。它取决于时间。
>>> a = [1,2,3,4]
>>> res = filter(is_even,a)
>>> a.append(10)
>>> a.append(12)
>>> a.append(14)
>>> a.append(16)
>>> list(res)
[2, 4, 10, 12, 14, 16]
这是完全相同的代码行,但结果改变了。这是另一种思考方式。
你未来的行为会影响你过去行为的结果。我们实质上是在改变过去,这使得对代码进行推理变得极为困难。
我将快速向您展示一个clojure示例。(别担心,它看起来很像python)
user=> (def a [1,2,3,4]) ; equivalent to a = [1,2,3,4]
#'user/a
user=> (def res (filter even? a)) ; even? = is_even
#'user/res
user=> (def a (concat a [10])) ; concat is similar to append
#'user/a
user=> (def a (concat a [12]))
#'user/a
user=> res
(2 4) ; isn't this what you expected?
user=> a ; proof that a is something else
(1 2 3 4 10 12)
Filter在clojure中是惰性的,但是你得到了正确的结果,即过滤[1,2,3,4]而不是[1,2,3,4,10,12]。
你无法改变过去。你可以看到为什么时间旅行可能是一个坏主意
只是为了提醒您,列表推导式解决了这些问题。
在用 map and filter的时候如何避免入坑
要解决这些问题,我们必须
返回一个值,而不是迭代器
消除惰性或确保可变性不会影响返回值。
修复第一个问题就像返回一个列表或元组一样简单。解决第二个问题更难。如果我们想要确保返回值不受可变性的影响,并试图有惰性,我们需要对输入可迭代对象做一个深度复制。
这是方法之一。
class filter:
def __init__(self,fn, iterable):
self.fn = fn
self.iterable = deepcopy(iterable)
self.res = None
def __iter__(self):
return [i for i in self.iterable if self.fn(i)]
但懒惰不仅拖延了计算,还只在需要的时候计算结果。
user=> (take 10 (map inc (range)))
(1 2 3 4 5 6 7 8 9 10)
由于map是惰性的,它只计算前10个元素。
filter实现中的deepcopy意味着我的实现不是完全懒惰的。这种实现的唯一优点是当过滤函数很昂贵时。
使用即时计算
我认为最实用的解决方案是即时地计算map和filter。
def map(fn, *iterables):
return [fn(*i) for i in zip(*iterables)]
def filter(fn, iterable):
return [i for i in iterable if fn(i)]
这样做的好处是,它可以作为python默认map和filter的替换项,如果iterable是可哈希的,那么我们甚至可以向这些函数添加lru_cache。但列表是最常用的容器,而且它们是不可哈希的,所以可能没有那么大的好处?
那么在什么场景使用呢?
可能在一些罕见的情况下,用户可能想要迭代一个无限序列或一个巨大的序列,而懒惰是必要的。在这种情况下,我们可以定义一个lazymap和lazyfilter。在我看来,让默认情况变得迫切,并强迫用户在需要时显式地使用惰性版本更好。这将减少新手使用map和filter时的意外。
我们能做得比python默认的惰性实现更好吗
实际上是可以的
class lazymap:
def __init__(self,fn, *iterables):
self.fn = fn
self.iterables = iterables
def __iter__(self):
return (self.fn(*i) for i in zip(*self.iterables))
class lazyfilter:
def __init__(self,fn, iterable):
self.fn = fn
self.iterable = iterable
def __iter__(self):
return (i for i in self.iterable if self.fn(i))
以下是为什么它更好。让我们来定义。
# taken from functionali
def take(n: int, iterable: Iterable) -> Tuple:
"""Returns the first n number of elements in iterable.
Returns an empty tuple if iterable is empty
>>> take(3, [1,2,3,4,5])
(1, 2, 3)
"""
it = iter(iterable)
accumulator = []
i = 1
while i <= n:
try:
accumulator.append(next(it))
i += 1
except StopIteration:
break
return tuple(accumulator)
现在让我们看一个带有默认python实现的示例。
>>> res = map(inc, range(100))
>>> take(5, res)
(1, 2, 3, 4, 5)
>>> take(5, res)
(6, 7, 8, 9, 10)
你不会得到相同的结果,即使它看起来是计算相同的表达式。
lazymap也是一样的。
>>> res = lazymap(inc, range(100))
>>> take(5, res)
(1, 2, 3, 4, 5)
>>> take(5, res)
(1, 2, 3, 4, 5)
>>> take(5, res)
(1, 2, 3, 4, 5)
您总是会得到相同的结果,就像在clojure或任何其他函数式编程语言中一样。
user=> (def res (map inc (range 100)))
#'user/res
user=> (take 5 res)
(1 2 3 4 5)
user=> (take 5 res)
(1 2 3 4 5)
相关推荐
- 最强聚类模型,层次聚类 !!_层次聚类的优缺点
-
哈喽,我是小白~咱们今天聊聊层次聚类,这种聚类方法在后面的使用,也是非常频繁的~首先,聚类很好理解,聚类(Clustering)就是把一堆“东西”自动分组。这些“东西”可以是人、...
- python决策树用于分类和回归问题实际应用案例
-
决策树(DecisionTrees)通过树状结构进行决策,在每个节点上根据特征进行分支。用于分类和回归问题。实际应用案例:预测一个顾客是否会流失。决策树是一种基于树状结构的机器学习算法,用于解决分类...
- Python教程(四十五):推荐系统-个性化推荐算法
-
今日目标o理解推荐系统的基本概念和类型o掌握协同过滤算法(用户和物品)o学会基于内容的推荐方法o了解矩阵分解和深度学习推荐o掌握推荐系统评估和优化技术推荐系统概述推荐系统是信息过滤系统,用于...
- 简单学Python——NumPy库7——排序和去重
-
NumPy数组排序主要用sort方法,sort方法只能将数值按升充排列(可以用[::-1]的切片方式实现降序排序),并且不改变原数组。例如:importnumpyasnpa=np.array(...
- PyTorch实战:TorchVision目标检测模型微调完
-
PyTorch实战:TorchVision目标检测模型微调完整教程一、什么是微调(Finetuning)?微调(Finetuning)是指在已经预训练好的模型基础上,使用自己的数据对模型进行进一步训练...
- C4.5算法解释_简述c4.5算法的基本思想
-
C4.5算法是ID3算法的改进版,它在特征选择上采用了信息增益比来解决ID3算法对取值较多的特征有偏好的问题。C4.5算法也是一种用于决策树构建的算法,它同样基于信息熵的概念。C4.5算法的步骤如下:...
- Python中的数据聚类及可视化分析实践
-
探索如何通过聚类分析揭露糖尿病预测数据集的特征!我们将运用Python的强力工具,深入挖掘数据,以直观的可视化揭示不同特征间的关系。一同探索聚类分析在糖尿病预测中的实践!所有这些可视化都可以通过数据操...
- 用Python来统计大乐透号码的概率分布
-
用Python来统计大乐透号码的概率分布,可以按照以下步骤进行:导入所需的库:使用Python中的numpy库生成数字序列,使用matplotlib库生成概率分布图。读取大乐透历史数据:从网络上找到大...
- python:支持向量机监督学习算法用于二分类和多分类问题示例
-
监督学习-支持向量机(SVM)支持向量机(SupportVectorMachine,简称SVM)是一种常用的监督学习算法,用于解决分类和回归问题。SVM的目标是找到一个最优的超平面,将不同类别的...
- 25个例子学会Pandas Groupby 操作
-
groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组,分组后的数据可以计算生成组的聚合值。如果我们有一个包含汽车品牌和价格信息的数据集,那么可以...
- 数据挖掘流程_数据挖掘流程主要有哪些步骤
-
数据挖掘流程1.了解需求,确认目标说一下几点思考方法:做什么?目的是什么?目标是什么?为什么要做?有什么价值和意义?如何去做?完整解决方案是什么?2.获取数据pandas读取数据pd.read.c...
- 使用Python寻找图像最常见的颜色_python 以图找图
-
如果我们知道图像或对象最常见的是哪种颜色,那么可以解决图像处理中的几个用例,例如在农业领域,我们可能需要确定水果的成熟度。我们可以简单地检查一下水果的颜色是否在预定的范围内,看看它是成熟的,腐烂的,还...
- 财务预算分析全网最佳实践:从每月分析到每天分析
-
原文链接如下:「链接」掌握本文的方法,你就掌握了企业预算精细化分析的能力,全网首发。数据模拟稍微有点问题,不要在意数据细节,先看下最终效果。在编制财务预算或业务预算的过程中,通常预算的所有数据都是按月...
- 常用数据工具去重方法_数据去重公式
-
在数据处理中,去除重复数据是确保数据质量和分析准确性的关键步骤。特别是在处理多列数据时,保留唯一值组合能够有效清理数据集,避免冗余信息对分析结果的干扰。不同的工具和编程语言提供了多种方法来实现多列去重...
- Python教程(四十):PyTorch深度学习-动态计算图
-
今日目标o理解PyTorch的基本概念和动态计算图o掌握PyTorch张量操作和自动求导o学会构建神经网络模型o了解PyTorch的高级特性o掌握模型训练和部署PyTorch概述PyTorc...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)