百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一文读懂lambda表达式

itomcoil 2025-03-04 12:44 16 浏览

作者:youngyan,腾讯PCG数据工程工程师

| 导语 Presto是我们在离线分析中经常用到的查询SQL引擎,我们经常用它来替换Hive和Spark引擎执行SQL,以解决查询速度慢的问题;然而Presto还有一个有用但大家接触不多的特点就是支持lambda表达式,lambda表达式可以实现常规的自定义逻辑。本文通过实际案例,介绍lambda表达式是什么,如何写lambda表达式实现自定义逻辑,以及哪些函数支持用lamba表达式做入参,希望能帮助到同学们,在实际工作中起到事半功倍的效果。

一、前言

Presto是Facebook研发的一种分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集,解决了Hive查询速度慢和异构数据源等问题,具有以下等特点:

  • 纯内存计算,速度快,提供交互式的查询体验;
  • 通过不同的连接器(connector)插件支持读取异构数据源,进行联邦查询;
  • 基于SQL语言,上手成本低,支持丰富的函数(如reduce函数和lambda表达式)。

公司内部的数据平台也大都支持了Presto引擎,如PCG内部的欧拉、灯塔等,我们在日常的分析中也常使用到Presto引擎来加速查询。另外,灯塔引擎支持了Presto直连查询TDW表后,我们使用这种方式轻松地配置数据看板,省去了之前需要接出到查询引擎(如Impala)的工作和成本。

前面提到了Presto支持lambda表达式,它其实是一种匿名函数,使用lambda表达式可以使得代码简单高效,提高开发效率。因为是编程中的概念,数据分析人员可能接触不多,本文将从lambda表达式是什么,如何写表达式实现自定义逻辑,以及Presto引擎的哪些函数支持lambda入参几个方面,为大家详细讲解lamda表达式的概念和应用,希望有助于数据分析人员之后常用此技能。

二、什么是lambda表达式

lambda表达式是一种匿名函数,其实就是把一段代码赋给了一个变量,最直观的作用就是使得代码变得异常简洁,我们以常用的编程语言Java和Python分别举一个例子:


不采用lambda

采用lambda

Java

Runnable runnable1=new Runnable(){
    @Override
    public void run(){
        System.out.println("Running without lambda");
    }
};
Runnable runnable2=()->System.out.println("Running from lambda");


Python


def comp(x):
    return x["age"]
li=[{"age":2,"name":"def"},{"age":,"name":"abc"}]
li=sorted(li, key=comp)

li=[{"age":,"name":"def"},{"age":1,"name":"abc"}] 
li=sorted(li, key=lambda x:x["age"])


可以看出lambda表达式提供了以下的功能:

  1. 可以把函数看作是方法参数,或者代码看作是数据;
  2. 可以在不属于任何类的情况下创建函数;
  3. lambda表达式可以像对象一样传递并按需执行。

三、如何写Presto的lambda表达式

可能因为Presto引擎是Java语言开发的,Presto的lambda表达式和Java的比较像,都是使用 -> 符号,我们看下官方给出的几个lambda表达式示例都分别实现了什么功能:

x -> x + 1 --参数加1
(x, y) -> x + y --两参数相加
x -> regexp_like(x, 'a+') --判断入参是否包含1~n个a
x -> x[1] / x[2] --数组下标1的元素除以下标2的元素
x -> IF(x > 0, x, -x) --求绝对值
x -> COALESCE(x, 0) --空值赋默认值0
x -> CAST(x AS JSON) --强转类型
x -> x + TRY(1 / 0) --通过返回null处理某种错误,如除以0

我们来看一个我在欧拉-数据洞察上实际写过的SQL逻辑,功能是判断是否有项目的在时间区间内变成了【已过会】,或者开始时间之前的最新状态是【已过会】:

到这我们基本知道lamdba表达式怎么写了。上面这段判断逻辑相对复杂,在其他引擎下可能需要自定义函数,通过lambda表达式可以实现常规的自定义函数,省去了其他引擎需要IDE开发自定义函数代码、打包上传、注册函数等步骤,下面来看下Presto哪些函数支持lambda表达式作为入参来实现简单高效的函数定义。

四、Presto支持lambda表达式的函数

整体归类下来,Presto有三种类型函数支持lambda表达式,分别是map类函数、聚合类函数、array类函数,我们分别进行介绍并给出示例。

本文中的示例在欧拉的数据洞察和DataTalk中运行成功,其他数据平台未进行验证。

1. map类函数

  • map_filter(map(K, V), function(K, V, boolean)) -> map(K, V)#

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key列表和value列表,返回值是布尔类型。该函数通过lambda表达式的逻辑可以过滤map中的某些键值对,例如想筛选map的键大于10且值为不为空的键值对:

SELECT map_filter(MAP(ARRAY[10, 20, 30], ARRAY['a', NULL, 'c']), (k, v) -> k > 10 AND v IS NOT NULL); 

结果:{30=c}  
  • map_zip_with(map(K, V1), map(K, V2), function(K, V1, V2, V3)) -> map(K, V3)#

该函数接收2个map和1个lambda表达式为参数,lambda表达式的入参是map的key以及2个map对应key的值,返回值是处理过的值。该函数可以使用lambda表达式将两个map合并打包成新的map,例如想合并两个词频统计的map,相同key的值进行相加:

SELECT map_zip_with(MAP(ARRAY['hadoop', 'flink'], ARRAY[1, 2]), MAP(ARRAY['hadoop', 'spark'], ARRAY[6, 9])
    ,(k, v1, v2) -> nvl(v1,0) + nvl(v2,0));

结果:{hadoop=7, flink=2, spark=9} 
  • transform_keys(map(K1, V), function(K1, V, K2)) -> map(K2, V)

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key和value,返回值是处理过的key。该函数可以使用lambda表达式将map的key进行转换,生成新的map,例如把key映射成枚举值:

SELECT transform_keys(MAP(ARRAY [1, 2, 3], ARRAY [34, 87, 2]), (k, v) -> 
    case k 
        when 1 then '初始化'
        when 2 then '进行中'
        when 3 then '已结束'
    end
); 

结果:{初始化=34, 进行中=87, 已结束=2} 
  • transform_values(map(K, V1), function(K, V1, V2)) -> map(K, V2)#

该函数与上面的transform_values类似,是将map的value进行转换,生成新的map,不再举例。

  • split_to_map(string, entryDelimiter, keyValueDelimiter, function(K, V1, V2, R)) → map

本来这个函数是字符串函数,因结果是map,我也将其归到map类里。该函数与Hive中的str_to_map方法功能一样,通过指定分隔符将字符串转换成map。不同的是,该函数可以指定lambda表达式来自定义处理key相同的情况,例如我们想在key相同是保留大者就可以这样写:

SELECT(split_to_map('a:1;b:2;a:3', ';', ':', (k, v1, v2) -> greatest(v1,v2))); 

结果:{a=3, b=2}

2. aggregate(聚合)类函数

  • reduce_agg(inputValue T, initialState S, inputFunction(S, T, S), combineFunction(S, S, S)) → S

该函数是reduce函数,会将所有输入值合并成单值。inputFunction是一个lambda表达式,它会获取输入值以及初始状态initialState以及当前状态,并返回一个新的状态。comblineFunction会把两个状态合并成新状态。我们用这个函数实现sum和min函数大家就知道怎么用了。

SUM:

SELECT id, reduce_agg(value, 0, (a, b) -> a + b, (a, b) -> a + b)
FROM (
    VALUES
        (1, 2), (1, 3), (1, 4),
        (2, 20), (2, 30), (2, 40)
) AS t(id, value)
GROUP BY id;

结果:
(1, 9)
(2, 90)
MIN:

SELECT id, reduce_agg(value, 999999, (a, b) -> least(a, b), (a, b) -> least(a, b))
FROM (
    VALUES
        (1, 2), (1, 3), (1, 4),
        (2, 20), (2, 30), (2, 40)
) AS t(id, value)
GROUP BY id;

结果:
(1, 2)
(2, 20)

3. array类函数

  • all_match(array(T), function(T, boolean)) → boolean#

该函数是判断是否数组的所有元素均满足某条件,此处lambda表达式需返回boolean类型。例如我们想判断数组元素是否都大于0且小于100的:

SELECT all_match(ARRAY [-1, 1, 2, 3], x -> x > 0 and x < 100)

结果:false
  • any_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里有任一元素满足条件即为true,与all_match函数用法一致,不再举例。

  • non_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里没有一个元素满足条件即为true,与all_match函数用法一致,不再举例。

  • array_sort(array(T), function(T, T, int)) -> array(T)#

该函数是数组排序函数,lambda表达式为比较器,返回-1、0、1代表前者小于、等于、大于后者。例如我们想按字符串的长度排序:

SELECT array_sort(ARRAY ['a', 'abcd', 'abc'], 
                  (x, y) -> IF(length(x) < length(y),
                               -1,
                               IF(length(x) = length(y), 0, 1)));

结果:['a', 'abc', 'abcd']
  • filter(array(T), function(T, boolean)) -> array(T)#

该函数是数组过滤函数,lambda表达式返回boolean类型,false表示元素被过滤掉。


  • find_first(array(E), function(T, boolean)) → E

该函数可按数组下标从最小开始查找,返回满足lambda表达式条件的第一个元素,不过这个函数公司Presto好像不支持。例如想查找数组中排序数组第一个大于0的元素:

SELECT find_first(ARRAY [-8,-3,1,7,9], x -> x > 0)

结果:1
  • reduce(array(T), initialState S, inputFunction(S, T, S), outputFunction(S, R)) → R

和前面介绍到的reduce_agg函数不一样的是,reduce_agg函数是行记录的聚合,reduce函数是数组的聚合。使用上类似,例如拼接数组元素到10个字符长度就不再拼接:

SELECT reduce(ARRAY ['a','bb','ccc','dddd','eeeee','ffffff'], ''
    , (s, x) -> if(length(s)>10, s, concat(s, x)), s -> s);

结果:abbcccdddd
  • transform(array(T), function(T, U)) -> array(U)

该函数是map-reduce中的map含义,可将数组通过lambda表达式的逻辑转换成另外一个数组。例如我们想把数字转换成字符串,不够5位的左侧补零:

SELECT transform(ARRAY [1, 15, 222], x -> lpad(cast(x as varchar), 5, '0'))

结果:['00001', '00015', '00222']
  • zip_with(array(T), array(U), function(T, U, R)) -> array(R)#

前面介绍的map_zip_with函数是打包两个map,这个函数是打包两个数组。例如我们想对一个数组的每个元素乘以对应的系数:

SELECT zip_with(ARRAY[2, 3, 5], ARRAY[0.5, 1.2, 0.1], (x, y) -> x * y);

结果:[1.0, 3.6, 0.5]

五、总结

本文介绍了lambda表达式是什么、Presto引擎中的写法,以及哪些高阶函数支持lambda表达式,希望可以帮助到数据分析人员在即席查询或者灯塔看板配置等场景下使用一些Presto的高阶函数,用lambda表达式书写常规的自定义逻辑,省去了其他引擎自定义函数复杂的操作步骤,从而提升工作效率。

相关推荐

编程学子看过来,竞赛刷题网站推荐

2022年编程竞赛已经公布,想要在今年取得竞赛成绩的学生,一定要把握寒假时间,学习知识的同时通过刷题,巩固所学知识,提升解题能力。小编为大家推荐几个刷题网站,想要竞赛的学生一定不要错过。USACO美国...

给大家推荐些好的c语言代码的网站

C语言,那就来推荐几个吧,部分含有C++:1、TheLinuxKernelArchives(kernel.org)Linux内核源码,仅限于C,但内核庞大,不太适合新手;2、redis(redi...

推荐几个编程入门学习网站_比较好的编程自学网站

有一些刚上大学的朋友和想对编程感兴趣的朋友经常会让我推荐学习网站,下面几个是我认为零基础学编程比较好的网站,希望大家都有收获!1.W3schoolhttp://www.w3school.com.c...

10个最值得收藏的编程学习网站_有什么学编程的网站

程序员是一个需要不断学习的职业。幸运的是,在这个互联网时代,知识就在那里,等着我们去获取。以下我列举一些免费的编程学习网站包含多个开发语言Java、php、html、javascript等多个。1、h...

6个超酷的练习算法,学习编程的网站

在不了解算法的前提下,您无法通过Google或Facebook的采访。那么为什么不现在学习。我是一位拥有15年以上经验的程序员。从高中开始的第一年,我在算法上学习和工作很多。在我毕业之前,我一直...

在线 python 编程的网站_python3在线编程,python3在线编译器,在线编辑器

以下是一些提供在线Python编程环境的网站:1.Repl.it:Repl.it提供了一个多语言在线编程平台,您可以使用它在任何地方编写、运行、共享代码。Repl.it支持多种编程语言,包括Pyth...

推荐 7 个能过招全球程序员的编程挑战网站,欢迎挑战!

作为程序员的你,是不是经常估不准自己的编程水平?下面推荐7个能过招全球程序员的编程挑战网站,助你磨练技巧,提升技能,最终问鼎代码江湖!1.HackerRank你可以参加各种编码竞赛,比如算法、数学...

盘点 20 个编程学习教程网站,建议收藏

欢迎关注@程序员柠檬橙私信回复「1024」获取海量编程学习资源!如果你想学习编程,现在互联网这么方便,不用着急报名培训班,有很多高质量的编程学习资源网站可供你学习,程序员日常浏览的技术教程网站有哪些...

Flask 数据可视化_flourish数据可视化

数据可视化是数据处理中的重要部分,前面我们了解了Flask的开发和部署,如何用Flask做数据可视化呢?今天我们来了解一下。Python语言极富表达力,并且拥有众多的数据分析库和框架,是数据...

【python 工具】selenium 浏览器操作

selenium的安装步骤:1.安装selenium,打开cmd控制台pipinstallselenium2.安装驱动程序(我这里安装的是chromedriver),用来启动chrome浏览器...

可视化爬虫工具,EasySpider软件体验

现在提起爬虫,大家可能会联想到Python语言,然后就是各种使用无头浏览器去网页上爬取数据,使用Python的过程相较于使用其他语言来说,简单了不少。但毕竟是编程语言,也需要去学习来适配各种网...

cursor+mcp+playwright,让AI给你推荐五一旅游胜地

阅读本文前提当你已了解mcp是什么,若不知,猛击:https://github.com/modelcontextprotocol/servers。最近有个小需求,根据用户输入内容,使用大模型来理解用户...

Cursor+Claude+Playwright:AI 让自动化测试效率暴涨,快到飞起!

一、引言随着AI时代的到来,软件测试变得越来越复杂,如何高效、准确地进行自动化测试成了每一个开发团队必须面对的问题。在日常工作中,测试工作常常面临各种挑战,比如功能复杂、需求频繁变更、时间紧迫等。传统...

推荐一个检测 JS 内存泄漏的神器_js内存泄漏的几种情况

大家好,我是Echa哥。作为一名Web应用程序开发者,排查和修复JavaScript代码的内存泄漏一直是最困扰我的问题之一。最近,Meta开源了一款检测JavaScript代码内存泄漏...

Python+Playwright自动化实战:高效爬虫全攻略

一、为什么选择Playwright?在信息爆炸的时代,数据获取能力直接决定内容生产效率。Playwright作为微软开源的新型自动化工具,凭借以下优势成为技术创作者的新宠:支持Chromium/Web...