从零开始学SQL进阶,数据分析师必备SQL取数技巧,建议收藏
itomcoil 2025-07-02 21:22 2 浏览
上一节给大家讲到SQL取数的一些基本内容,包含SQL简单查询与高级查询,需要复习相关知识的同学可以跳转至上一节,本节给大家讲解SQL的进阶应用,在实际过程中用途比较多的子查询与窗口函数,下面一起学习。
示例工具:MySQL8.0、Navicat Premium 12
本文讲解内容:子查询与窗口函数
适用范围:SQL进阶应用
子查询
子查询用于为主查询返回其所需数据,或者对检索数据进行进一步的限制,通常将一个查询(子查询)的结果作为另一个查询(主查询)的数据来源或判断条件,常见的子查询有WHERE子查询,HAVING子查询,FROM子查询,SELECT子查询,EXISTS子查询。
子查询是一种嵌套在其他 SQL 查询的 WHERE 子句中的查询,可以在 SELECT、INSERT、UPDATE 和 DELETE 语句中,同逻辑运算符一起使用。
使用子查询必须遵循以下几个规则:
- 子查询必须括在圆括号中。
- 子查询的 SELECT 子句中只能有一个列。
- 子查询不能使用 ORDER BY,在子查询中,GROUP BY 可以起到同 ORDER BY 相同作用。
- 返回多行数据的子查询只能同多值操作符一起使用,比如 IN 操作符。
- 子查询不能直接用在聚合函数中。
- BETWEEN 不能同子查询一起使用,但 BETWEEN 操作符可以用在子查询中。
创建数据表
通常情况下子查询都与 SELECT 语句一起使用,其基本语法如下所示:
SELECT column_name [, column_name ]
FROM table1 [, table2 ]
WHERE column_name OPERATOR (SELECT column_name [, column_name ]
FROM table1 [, table2 ]
[WHERE])
对于子查询的数据演示创建两个表,一个是薪水表,另一个是职位表,并且插入数据。
#创建薪水表SALARY
CREATE TABLE SALARY
(ID VARCHAR ( 10 ),
NAME VARCHAR ( 10 ),
AGE VARCHAR ( 10 ),
ADDRESS VARCHAR ( 10 ),
SAL INT(10) );
给薪水表插入数据,数据内容如下所示:
# 给薪水表插入数据
INSERT INTO SALARY(ID,NAME,AGE,ADDRESS,SAL) VALUES
('C001','Rmesh',35,'Ahmedabad',2000),
('C002','Khilan',25,'Delhi',1500),
('C003','Kaushik',23,'Kota',2000),
('C004','Chaitali',25,'Mumbai',6500),
('C005','Hardik',27,'Bhopal',8500),
('C006','Komal',22,'MP',4500),
('C007','Tom',26,'MP',5500),
('C008','Muffy',24,'Indore',10000);
查询所有的薪水数据如下所示:
SELECT * FROM SALARY;
同理创建一个职位表。
#创建职位表JOB
CREATE TABLE JOB
(JID VARCHAR ( 10 ),
JB VARCHAR ( 10 ));
给职位表插入数据,数据内容如下所示:
# 给职位表插入数据
INSERT INTO JOB(JID,JB) VALUES
('C001','Teacher'),
('C002','Docter'),
('C003','Teacher'),
('C004','Worker'),
('C005','Nurse'),
('C006','Teacher'),
('C007','Docter'),
('C008','Teacher');
查询所有的职位数据如下所示:
SELECT * FROM JOB;
子查询过滤
子查询最常见的使用是在WHERE子句的IN操作符中,以及用来填充计算列。先看一个简单的例子,要查询所有医生的薪水情况,这里首先在职位表中查询所有医生的JID,查询结果如下:
SELECT JID
FROM JOB
WHERE JB='Docter';
然后在薪水表中查询ID为'C002','C007'的薪水情况,查询结果如下:
SELECT SAL
FROM SALARY
WHERE ID IN('C002','C007');
这里使用子查询更加简便,子查询从内向外依次处理,在下面的SELECT语句中,MySQL实际上执行了两个操作,首先查询返回两个ID号:C002和C007。
然后,这两个值以IN操作符要求的逗号分隔的格式传递给外部查询的WHERE子句,可以看到输出的结果是正确的,并且与前面WHERE子句所返回的值相同。
SELECT SAL
FROM SALARY
WHERE ID IN(SELECT JID
FROM JOB
WHERE JB='Docter');
使用子查询查询薪水大于8000的员工的所有信息,首先内部查询薪水大于8000的ID,然后外部使用一个WHERE查询即可得到结果。
SELECT *
FROM SALARY
WHERE ID IN (SELECT ID
FROM SALARY
WHERE SAL > 8000);
作为计算字段使用子查询
使用子查询的另一方法是创建计算字段,创建计算字段需要使用聚合函数,例如count,sum,avg,max,min等,这里首先计算平均薪水作为一个内查询,然后在外部使用WHERE子句进行查询,得出薪资比平均薪资低的员工的所有信息。
SELECT * FROM SALARY
WHERE SAL < (SELECT AVG(SAL)
FROM SALARY);
除使用WHERE过滤,还可以使用HAVING过滤,HAVING子句对分组统计函数进行过滤,也可以在HAVING子句中使用子查询,要查询薪资最高的人及其薪资情况,首先内部查询最高工资,然后外部以人名分组后使用HAVING子句过滤,查询结果如下。
SELECT NAME,SAL
FROM SALARY
GROUP BY NAME
HAVING SAL = (SELECT MAX(SAL)
FROM SALARY);
窗口函数
窗口函数与数据分组功能相似,可指定数据窗口进行统计分析,但窗口函数与数据分组又有所区别,窗口函数对每个组返回多行,而数据分组对每个组只返回一行;窗口函数指定分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化,而数据分组是针对所有数据进行统计,窗口函数的写法如下。
<窗口函数> over (partition by <用于分组的列名>order by <用于排序的列名>)
窗口函数主要有两种,一种是专用窗口函数,包括rank、dense_rank、row_number等。另一种是聚合函数,包括sum、avg、count、max、min等,下面逐一介绍窗口函数的五个功能,分别是聚合、排序、极值、移动、切片,下面一起来学习。
创建表
首先创建一个金额表,年份、姓名、国家设置为字符串类型,交易金额设置为整型。
#创建金额表pay
CREATE TABLE pay
(year VARCHAR ( 10 ),
name VARCHAR ( 10 ),
country VARCHAR ( 10 ),
payment INT(10) );
给金额表插入数值。
# 给金额表插入数据
INSERT INTO pay(year,name,country,payment) VALUES
(2017,'Lining','China',1119),
(2018,'Lining','China',1176),
(2018,'Zhaoqi','China',1388),
(2019,'Zhaoqi','China',1597),
(2018,'Jackie','USA',1028),
(2019,'Jackie','USA',1934),
(2020,'Jackie','USA',1837),
(2017,'Tom','India',1578),
(2018,'Tom','India',1329),
(2019,'Tom','India',1578),
(2020,'Tom','India',1399);
将所有的数据查询出来结果如下所示。
SELECT * from pay;
一、聚合
1、计算列表总金额
SELECT *, SUM(payment) OVER() as Total_payment from pay;
计算当前列表的总金额可以使用窗口函数,sum是求和,over()中不添加参数,则对所有数据进行求和,输出的结果都是15963。
2、计算各国家总金额
SELECT *, SUM(payment) OVER() as Total_payment,
SUM(payment) OVER(PARTITION by country) as country_payment
from pay;
计算各国家总金额就要对各个国家分组,这里分组使用的是PARTITION by,PARTITION by的功能与GROUP BY的功能类似,指定按照那一列进行分组,用country分组求和,则每个country的输出结果一致。
3、按国家降序累加求和金额
SELECT *, SUM(payment) OVER() as Total_payment,SUM(payment) OVER(PARTITION by country) as country_payment,
SUM(payment) OVER(PARTITION by country ORDER BY payment DESC) as order_payment
from pay;
这里使用SQL中常用的向下累计求和的方法,当使用order by时,没有rows between则意味着窗口是从起始行到当前行,所以对不同国家进行累加求和操作。
4、不同国家人数计数
count()用于计数,与前面sum的用法基本一致,可以用count(distinct country)进行去重,如果用partition by进行分组,则分组后再计数。
SELECT *, COUNT(name) OVER() as Total_people,
COUNT(name) OVER(PARTITION by country) as country_people
from pay;
5、 不同国家平均金额
SELECT *, AVG(payment) OVER() as avg_payment,
AVG(payment) OVER(PARTITION by country) as country_ayg_payment
from pay;
使用avg聚合函数的用法与前面的聚合运算用法一致,PARTITION by同样用来分组,这里分组后求均值。
6、各国家最低金额
SELECT *, MAX(payment) OVER() as Max_payment,
MIN(payment) OVER(PARTITION by country) as country_min_payment
from pay;
这里MAX(payment)函数对整个数据计算最大值,使用PARTITION by对于不同的国家分组后然后计算最小值。
二、排序
1、各国家按金额排序
使用窗口函数排序,会使用到三个函数,row_number,rank,dense_rank,他们的使用区别如下:
- row_number从1开始,按照顺序,生成分组内记录的序列;
- rank生成数据项在分组中的排名,排名相等会在名次中留下空位;
- dense_rank生成数据项在分组中的排名,排名相等会在名词中不会留下空位。
SELECT *,
ROW_NUMBER()OVER(ORDER BY payment DESC) as '顺序排序',
RANK()OVER(ORDER BY payment DESC) as '秩排序',
DENSE_RANK()over(ORDER BY payment DESC) as '数据排序'
from pay;
row_number函数,按照行记录的顺序来排序,此处从1到11按顺序排列;rank函数,在排名相等会在名次中留下空位,此处共同排名为第4名,同时忽略第5名,继续往下排列;dense_rank排名相等会在名词中不会留下空位此处共同排名为第4名,不忽略第5名,继续往下排列。
三、极值
1、当前行金额最高的人
first_value截止当前行的第一个,last_value截止当前行的最后一个。
select *,
first_value(name)over(order by payment desc) as max_id,
first_value(name)over(order by payment asc) as min_id,
last_value(name)over(order by payment desc) as min_id_1,
last_value(name)over(partition by country order by payment desc rows between unbounded preceding and unbounded following) as level_min_id
from pay;
first_value按分组排序后取范围内第1个值,last_value取最后1个值,因为默认窗口的关系,last_value会随着窗口的改变而改变,所以一般不用last_value,如果要用,则改变窗口为所有行,此处用来查询当前金额最大的人,以及截至当前金额最小的人。
四、移动
1、按国家分组金额排名前1位和后1位人名
lag和lead是按照排序规则,取前多少位和后多少位,参数有3个,第1个是要取出来的列,第2个移动多少位,第3个是如果取不到,赋予的值,默认取不到是NULL。
select *,
lag(name,1,null)over(partition by country order by payment desc) as lag_id,
lead(name,1,'0')over(partition by country order by payment desc) as lead_id
from pay;
五、切片
1、按金额切片
ntile(n)用于将分组数据按照顺序切分成N片,返回当前切片值,ntile把有序分区中的行分发到指定数据的组中,各个组有编号,编号从1开始,对于每一行,ntile返回此行所属的组的编号,ntile(3)表示将表切分为3组,ntile可以分组排序后切分,表示对当前的组内进行切分后排序。
select *,
ntile(3) over(order by payment desc) as total_part,
ntile(2)over(partition by country order by payment desc) as level_part
from pay;
内容实用,就转发分享一下吧
商业数据分析系列文章持续更新中~
相关推荐
- MariaDB开窗函数(开窗函数max)
-
在使用GROUPBY子句时,总是需要将筛选的所有数据进行分组操作,它的分组作用域是整张表。分组以后,为每个组只返回一行。而使用基于窗口的操作,类似于分组,但却可以对这些"组"(即窗口...
- 你还不知道什么是MySQL窗口函数?(mysql5.7窗口函数)
-
MySQL中的窗口函数是一类用来在某一部分查询结果上进行计算的函数,这些函数的用法与普通的聚合函数如SUM、AVG、COUNT类似,但是与聚合函数不同的是,窗口函数不会讲多行数据合并成一行结果,而是...
- 精通88道题包你面试通过BAT-精简版-不得不收藏!
-
J2SE基础1.九种基本数据类型的大小,以及他们的封装类。2.Switch能否用string做参数?3.equals与==的区别。4.Object有哪些公用方法?5.Java的四种引用,强弱...
- Transact-SQL学习笔记21——排名窗口函数
-
将OVER()子句和排名函数连用,就是排名窗口函数,它们只能用在SELECT子句或ORDERBY子句之后。如果放在SELECT之后,它运行的逻顺序在DISTINCT之前。逻辑处理顺序如下:SE...
- MySQL8 窗口函数是真的省事!(mysql中的窗口函数)
-
@[toc]MySQL9已经出来了,MySQL8相信也慢慢走进各位小伙伴的工作中了。MySQL8还是有很多重量级变化的,一些底层优化大家在使用中有时候不易察觉,但是有一些用法,还是带给我们耳目一...
- Lodash 这 20 个方法,既高级又超级实用!
-
一、安全操作篇1._.get:防御性取值2._.set:智能路径赋值3._.invoke:安全方法调用二、集合处理篇4._.keyBy:快速对象映射5._.orderBy:多条件排序6._...
- Oracle有哪些常见的函数?(oracle常用函数有哪些)
-
恢复删除的数据insertinto'表名'select*from'表名'asofTIMESTAMPTO_TIMESTAMP("当前时间...
- excel的高级用法——宏,原来如此实用
-
使用excel时,直接手动计算或者输入公式,你会感到很苦恼或者操作很繁琐,如果使用vba直接输出结果,虽然效率很高,但是不够直观。excel宏最方便的用法是作为公式里的函数使用,打开宏编辑器,编写一个...
- 7 RDD常用算子(2)(rd算法)
-
filter()deffilter(f:T=>Boolean):RDD[T]函数说明将数据根据指定的规则进行筛选过滤,符合规则的数据保留,不符合规则的数据丢弃。当数据进行筛选过滤后,分...
- 从零开始学SQL进阶,数据分析师必备SQL取数技巧,建议收藏
-
上一节给大家讲到SQL取数的一些基本内容,包含SQL简单查询与高级查询,需要复习相关知识的同学可以跳转至上一节,本节给大家讲解SQL的进阶应用,在实际过程中用途比较多的子查询与窗口函数,下面一起学习。...
- SQL窗口函数知多少?(sql窗口怎么执行)
-
我们在日常工作中是否经常会遇到需要排名的情况,比如:每个部门按业绩来排名,每人按绩效排名,对部门销售业绩前N名的进行奖励等。面对这类需求,我们就需要使用sql的高级功能——窗口函数。一、什么是窗口函数...
- SQL开窗函数讲解,让查询统计更简单
-
用了这么多关系型数据库产品,开源的商业的,如:Oracle、MySql(注意5.7以上版本才可以使用)、SqlServer、postgreSQL。如果从应用角度来看,谁都逃离不了增删改查;而查又是难点...
- mysql窗口函数(mysql窗口函数rank)
-
MySQL窗口函数是一种高级的SQL函数,它可以进行一些比较复杂的数据分析和处理。与传统的聚合函数不同,窗口函数不会合并行,而是根据特定的条件为每行分配一个值。MySQL窗口函数可以用来计算每...
- 一文讲懂SQL窗口函数 大厂必考知识点
-
大家好,我是宁一。今天是我们的第24课:窗口函数。窗口函数,也叫OLAP(OnlineAnallyticalProcessing,联机分析处理),可以对数据库数据进行实时分析处理。窗口函数是数据分...
- C++20 四大特性之一:Module 特性详解
-
C++20最大的特性是什么?最大的特性是迄今为止没有哪一款编译器完全实现了所有特性。文章来源:网易云信有人认为C++20是C++11以来最大的一次改动,甚至比C++11还要大。本文仅介绍...
- 一周热门
- 最近发表
- 标签列表
-
- ps图案在哪里 (33)
- super().__init__ (33)
- python 获取日期 (34)
- 0xa (36)
- super().__init__()详解 (33)
- python安装包在哪里找 (33)
- linux查看python版本信息 (35)
- python怎么改成中文 (35)
- php文件怎么在浏览器运行 (33)
- eval在python中的意思 (33)
- python安装opencv库 (35)
- python div (34)
- sticky css (33)
- python中random.randint()函数 (34)
- python去掉字符串中的指定字符 (33)
- python入门经典100题 (34)
- anaconda安装路径 (34)
- yield和return的区别 (33)
- 1到10的阶乘之和是多少 (35)
- python安装sklearn库 (33)
- dom和bom区别 (33)
- js 替换指定位置的字符 (33)
- python判断元素是否存在 (33)
- sorted key (33)
- shutil.copy() (33)