百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一文读懂lambda表达式

itomcoil 2025-03-04 12:44 8 浏览

作者:youngyan,腾讯PCG数据工程工程师

| 导语 Presto是我们在离线分析中经常用到的查询SQL引擎,我们经常用它来替换Hive和Spark引擎执行SQL,以解决查询速度慢的问题;然而Presto还有一个有用但大家接触不多的特点就是支持lambda表达式,lambda表达式可以实现常规的自定义逻辑。本文通过实际案例,介绍lambda表达式是什么,如何写lambda表达式实现自定义逻辑,以及哪些函数支持用lamba表达式做入参,希望能帮助到同学们,在实际工作中起到事半功倍的效果。

一、前言

Presto是Facebook研发的一种分布式SQL查询引擎,旨在查询分布在一个或多个异构数据源上的大型数据集,解决了Hive查询速度慢和异构数据源等问题,具有以下等特点:

  • 纯内存计算,速度快,提供交互式的查询体验;
  • 通过不同的连接器(connector)插件支持读取异构数据源,进行联邦查询;
  • 基于SQL语言,上手成本低,支持丰富的函数(如reduce函数和lambda表达式)。

公司内部的数据平台也大都支持了Presto引擎,如PCG内部的欧拉、灯塔等,我们在日常的分析中也常使用到Presto引擎来加速查询。另外,灯塔引擎支持了Presto直连查询TDW表后,我们使用这种方式轻松地配置数据看板,省去了之前需要接出到查询引擎(如Impala)的工作和成本。

前面提到了Presto支持lambda表达式,它其实是一种匿名函数,使用lambda表达式可以使得代码简单高效,提高开发效率。因为是编程中的概念,数据分析人员可能接触不多,本文将从lambda表达式是什么,如何写表达式实现自定义逻辑,以及Presto引擎的哪些函数支持lambda入参几个方面,为大家详细讲解lamda表达式的概念和应用,希望有助于数据分析人员之后常用此技能。

二、什么是lambda表达式

lambda表达式是一种匿名函数,其实就是把一段代码赋给了一个变量,最直观的作用就是使得代码变得异常简洁,我们以常用的编程语言Java和Python分别举一个例子:


不采用lambda

采用lambda

Java

Runnable runnable1=new Runnable(){
    @Override
    public void run(){
        System.out.println("Running without lambda");
    }
};
Runnable runnable2=()->System.out.println("Running from lambda");


Python


def comp(x):
    return x["age"]
li=[{"age":2,"name":"def"},{"age":,"name":"abc"}]
li=sorted(li, key=comp)

li=[{"age":,"name":"def"},{"age":1,"name":"abc"}] 
li=sorted(li, key=lambda x:x["age"])


可以看出lambda表达式提供了以下的功能:

  1. 可以把函数看作是方法参数,或者代码看作是数据;
  2. 可以在不属于任何类的情况下创建函数;
  3. lambda表达式可以像对象一样传递并按需执行。

三、如何写Presto的lambda表达式

可能因为Presto引擎是Java语言开发的,Presto的lambda表达式和Java的比较像,都是使用 -> 符号,我们看下官方给出的几个lambda表达式示例都分别实现了什么功能:

x -> x + 1 --参数加1
(x, y) -> x + y --两参数相加
x -> regexp_like(x, 'a+') --判断入参是否包含1~n个a
x -> x[1] / x[2] --数组下标1的元素除以下标2的元素
x -> IF(x > 0, x, -x) --求绝对值
x -> COALESCE(x, 0) --空值赋默认值0
x -> CAST(x AS JSON) --强转类型
x -> x + TRY(1 / 0) --通过返回null处理某种错误,如除以0

我们来看一个我在欧拉-数据洞察上实际写过的SQL逻辑,功能是判断是否有项目的在时间区间内变成了【已过会】,或者开始时间之前的最新状态是【已过会】:

到这我们基本知道lamdba表达式怎么写了。上面这段判断逻辑相对复杂,在其他引擎下可能需要自定义函数,通过lambda表达式可以实现常规的自定义函数,省去了其他引擎需要IDE开发自定义函数代码、打包上传、注册函数等步骤,下面来看下Presto哪些函数支持lambda表达式作为入参来实现简单高效的函数定义。

四、Presto支持lambda表达式的函数

整体归类下来,Presto有三种类型函数支持lambda表达式,分别是map类函数、聚合类函数、array类函数,我们分别进行介绍并给出示例。

本文中的示例在欧拉的数据洞察和DataTalk中运行成功,其他数据平台未进行验证。

1. map类函数

  • map_filter(map(K, V), function(K, V, boolean)) -> map(K, V)#

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key列表和value列表,返回值是布尔类型。该函数通过lambda表达式的逻辑可以过滤map中的某些键值对,例如想筛选map的键大于10且值为不为空的键值对:

SELECT map_filter(MAP(ARRAY[10, 20, 30], ARRAY['a', NULL, 'c']), (k, v) -> k > 10 AND v IS NOT NULL); 

结果:{30=c}  
  • map_zip_with(map(K, V1), map(K, V2), function(K, V1, V2, V3)) -> map(K, V3)#

该函数接收2个map和1个lambda表达式为参数,lambda表达式的入参是map的key以及2个map对应key的值,返回值是处理过的值。该函数可以使用lambda表达式将两个map合并打包成新的map,例如想合并两个词频统计的map,相同key的值进行相加:

SELECT map_zip_with(MAP(ARRAY['hadoop', 'flink'], ARRAY[1, 2]), MAP(ARRAY['hadoop', 'spark'], ARRAY[6, 9])
    ,(k, v1, v2) -> nvl(v1,0) + nvl(v2,0));

结果:{hadoop=7, flink=2, spark=9} 
  • transform_keys(map(K1, V), function(K1, V, K2)) -> map(K2, V)

该函数接收map和lambda表达式为参数,lambda表达式的入参是map的key和value,返回值是处理过的key。该函数可以使用lambda表达式将map的key进行转换,生成新的map,例如把key映射成枚举值:

SELECT transform_keys(MAP(ARRAY [1, 2, 3], ARRAY [34, 87, 2]), (k, v) -> 
    case k 
        when 1 then '初始化'
        when 2 then '进行中'
        when 3 then '已结束'
    end
); 

结果:{初始化=34, 进行中=87, 已结束=2} 
  • transform_values(map(K, V1), function(K, V1, V2)) -> map(K, V2)#

该函数与上面的transform_values类似,是将map的value进行转换,生成新的map,不再举例。

  • split_to_map(string, entryDelimiter, keyValueDelimiter, function(K, V1, V2, R)) → map

本来这个函数是字符串函数,因结果是map,我也将其归到map类里。该函数与Hive中的str_to_map方法功能一样,通过指定分隔符将字符串转换成map。不同的是,该函数可以指定lambda表达式来自定义处理key相同的情况,例如我们想在key相同是保留大者就可以这样写:

SELECT(split_to_map('a:1;b:2;a:3', ';', ':', (k, v1, v2) -> greatest(v1,v2))); 

结果:{a=3, b=2}

2. aggregate(聚合)类函数

  • reduce_agg(inputValue T, initialState S, inputFunction(S, T, S), combineFunction(S, S, S)) → S

该函数是reduce函数,会将所有输入值合并成单值。inputFunction是一个lambda表达式,它会获取输入值以及初始状态initialState以及当前状态,并返回一个新的状态。comblineFunction会把两个状态合并成新状态。我们用这个函数实现sum和min函数大家就知道怎么用了。

SUM:

SELECT id, reduce_agg(value, 0, (a, b) -> a + b, (a, b) -> a + b)
FROM (
    VALUES
        (1, 2), (1, 3), (1, 4),
        (2, 20), (2, 30), (2, 40)
) AS t(id, value)
GROUP BY id;

结果:
(1, 9)
(2, 90)
MIN:

SELECT id, reduce_agg(value, 999999, (a, b) -> least(a, b), (a, b) -> least(a, b))
FROM (
    VALUES
        (1, 2), (1, 3), (1, 4),
        (2, 20), (2, 30), (2, 40)
) AS t(id, value)
GROUP BY id;

结果:
(1, 2)
(2, 20)

3. array类函数

  • all_match(array(T), function(T, boolean)) → boolean#

该函数是判断是否数组的所有元素均满足某条件,此处lambda表达式需返回boolean类型。例如我们想判断数组元素是否都大于0且小于100的:

SELECT all_match(ARRAY [-1, 1, 2, 3], x -> x > 0 and x < 100)

结果:false
  • any_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里有任一元素满足条件即为true,与all_match函数用法一致,不再举例。

  • non_match(array(T), function(T, boolean)) → boolean#

该函数用于数组里没有一个元素满足条件即为true,与all_match函数用法一致,不再举例。

  • array_sort(array(T), function(T, T, int)) -> array(T)#

该函数是数组排序函数,lambda表达式为比较器,返回-1、0、1代表前者小于、等于、大于后者。例如我们想按字符串的长度排序:

SELECT array_sort(ARRAY ['a', 'abcd', 'abc'], 
                  (x, y) -> IF(length(x) < length(y),
                               -1,
                               IF(length(x) = length(y), 0, 1)));

结果:['a', 'abc', 'abcd']
  • filter(array(T), function(T, boolean)) -> array(T)#

该函数是数组过滤函数,lambda表达式返回boolean类型,false表示元素被过滤掉。


  • find_first(array(E), function(T, boolean)) → E

该函数可按数组下标从最小开始查找,返回满足lambda表达式条件的第一个元素,不过这个函数公司Presto好像不支持。例如想查找数组中排序数组第一个大于0的元素:

SELECT find_first(ARRAY [-8,-3,1,7,9], x -> x > 0)

结果:1
  • reduce(array(T), initialState S, inputFunction(S, T, S), outputFunction(S, R)) → R

和前面介绍到的reduce_agg函数不一样的是,reduce_agg函数是行记录的聚合,reduce函数是数组的聚合。使用上类似,例如拼接数组元素到10个字符长度就不再拼接:

SELECT reduce(ARRAY ['a','bb','ccc','dddd','eeeee','ffffff'], ''
    , (s, x) -> if(length(s)>10, s, concat(s, x)), s -> s);

结果:abbcccdddd
  • transform(array(T), function(T, U)) -> array(U)

该函数是map-reduce中的map含义,可将数组通过lambda表达式的逻辑转换成另外一个数组。例如我们想把数字转换成字符串,不够5位的左侧补零:

SELECT transform(ARRAY [1, 15, 222], x -> lpad(cast(x as varchar), 5, '0'))

结果:['00001', '00015', '00222']
  • zip_with(array(T), array(U), function(T, U, R)) -> array(R)#

前面介绍的map_zip_with函数是打包两个map,这个函数是打包两个数组。例如我们想对一个数组的每个元素乘以对应的系数:

SELECT zip_with(ARRAY[2, 3, 5], ARRAY[0.5, 1.2, 0.1], (x, y) -> x * y);

结果:[1.0, 3.6, 0.5]

五、总结

本文介绍了lambda表达式是什么、Presto引擎中的写法,以及哪些高阶函数支持lambda表达式,希望可以帮助到数据分析人员在即席查询或者灯塔看板配置等场景下使用一些Presto的高阶函数,用lambda表达式书写常规的自定义逻辑,省去了其他引擎自定义函数复杂的操作步骤,从而提升工作效率。

相关推荐

Java 如何从一个 List 中随机获得元素

概述从一个List中随机获得一个元素是有关List的一个基本操作,但是这个操作又没有非常明显的实现。本页面主要向你展示如何有效的从List中获得一个随机的元素和可以使用的一些方法。选择一个...

想月薪过万吗?计算机安卓开发之&quot;集合&quot;

集合的总结:/***Collection*List(存取有序,有索引,可以重复)*ArrayList*底层是数组实现的,线程不安全,查找和修改快,增和删比较慢*LinkedList*底层是...

China Narrows AI Talent Gap With U.S. as Research Enters Engineering Phase: Report

ImagegeneratedbyAITMTPOST--ChinaisclosinginontheU.S.intheAIindustry-academia-research...

大促系统优化之应用启动速度优化实践

作者:京东零售宋维飞一、前言本文记录了在大促前针对SpringBoot应用启动速度过慢而采取的优化方案,主要介绍了如何定位启动速度慢的阻塞点,以及如何解决这些问题。希望可以帮助大家了解如何定位该类问...

MyEMS开源能源管理系统核心代码解读004

本期解读:计量表能耗数据规范化算法:myems/myems-normalization/meter.py代码见底部这段代码是一个用于计算和存储能源计量数据(如电表读数)的小时值的Python脚本。它主...

Java接口与抽象类:核心区别、使用场景与最佳实践

Java接口与抽象类:核心区别、使用场景与最佳实践一、核心特性对比1.语法定义接口:interface关键字定义,支持extends多继承接口javapublicinterfaceDrawabl...

超好看 vue2.x 音频播放器组件Vue-APlayer

上篇文章给大家分享了视频播放器组件vue-aliplayer,这次给大家推荐一款音频插件VueAplayer。vue-aplayer一个好看又好用的轻量级vue.js音乐播放器组件。清爽漂亮的U...

Linq 下的扩展方法太少了,MoreLinq 来啦

一:背景1.讲故事前几天看同事在用linq给内存中的两个model做左连接,用过的朋友都知道,你一定少不了一个叫做DefaultIfEmpty函数,这玩意吧,本来很流畅的from......

MapReduce过程详解及其性能优化(详细)

从JVM的角度看Map和ReduceMap阶段包括:第一读数据:从HDFS读取数据1、问题:读取数据产生多少个Mapper??Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟...

手把手教你使用scrapy框架来爬取北京新发地价格行情(实战篇)

来源:Python爬虫与数据挖掘作者:霖hero前言关于Scrapy理论的知识,可以参考我的上一篇文章,这里不再赘述,直接上干货。实战演练爬取分析首先我们进入北京新发地价格行情网页并打开开发者工具,如...

屏蔽疯狂蜘蛛,防止CPU占用100%(mumu模拟器和雷电模拟器哪个更占用cpu)

站点总是某个时间段莫名的cpu100%,资源占用也不高,这就有必要怀疑爬虫问题。1.使用"robots.txt"规范在网站根目录新建空白文件,命名为"robots.txt&#...

Web黑客近年神作Gospider:一款基于Go语言开发的Web爬虫,要收藏

小白看黑客技术文章,一定要点首小歌放松心情哈,我最爱盆栽!开始装逼!Gospider是一款运行速度非常快的Web爬虫程序,对于爱好白帽黑客的小白来说,可谓是佳作!Gospider采用厉害的Go语言开发...

用宝塔面板免费防火墙屏蔽织梦扫描网站

今天教大家在免费的基础上屏蔽织梦扫描,首先您要安装宝塔面板,然后再安装免费的防火墙插件,我用的是Nginx免费防火墙,然后打开这个插件。设置GET-URL过滤设置一条简单的宝塔面板的正则规则就可以屏蔽...

蜘蛛人再捞4千万美元 连续三周蝉联北美票房冠军

7月15日讯老马追踪票房数据的北美院线联盟今天表示,“蜘蛛人:离家日”(Spider-Man:FarFromHome)击退两部新片的挑战,连续第2周勇夺北美票房冠军,海捞4530万美元。法新...

夏天到了,需要提防扁虱,真是又小又恐怖的动物

夏天马上要到了,你知道吗,扁虱是这个夏天最危险的动物之一,很少有动物能比它还凶猛。Whenitcomestosummer'slittledangers,fewarenastiert...