Hive 四种排序函数与开窗函数

阅读量：240 次

发布时间：2019-03-01

本文共 885 字，大约阅读时间需要 2 分钟。

Hive排序与窗口函数详解

Hive排序方法

在Hive中，数据排序主要通过以下几种方式实现：

全局排序 (order by): 使用 order by 对所有数据进行排序，且 reduce 函数仅有一个。

自定义排序 (sort by): 在 sort by 内部定义排序逻辑。

分区排序 (distribute by): 根据指定字段进行数据分区，并对存储字段进行排序。

聚集排序 (cluster by): 当分区条件与排序条件相同时，使用 cluster by。

分组排序 (group by): 用于单纯的分组操作，通常与聚合函数配合使用。

分区查询 (partition by): 用于辅助查询，缩小数据范围，加速检索并对数据进行管理。

Hive窗口函数

Hive 提供多种窗口函数，主要用于聚合和分析任务，以下是常用窗口函数及其用途：

over(): 用于定义窗口范围，常用于后续聚合函数。

row_number(): 为排序后的数据生成唯一行号，不含重复序号。

rank(): 计算数据的排名，相同数据可设置为密集排名（DENSE_RANK()）。

LAG(): 获取窗口内前面的值（默认为前一个值）。

LEAD(): 获取窗口内后面的值（默认为后一个值）。

LAST_VALUE(): 获取分组内排序后的最后一个值。

FIRST_VALUE(): 获取分组内排序后的第一个值。

PRECEDING(): 获取窗口内前面所有值。

FOLLOWING(): 获取窗口内后面所有值。

CURRENT ROW(): 获取当前行数据。

窗口函数与分析函数的区别

窗口函数：针对每个分组返回多行数据。

分析函数：针对每个分组返回一行数据。

窗口函数应用场景

窗口函数广泛应用于以下场景：

分区排序：用于对数据进行排序。

动态 Group By：根据数据分布动态分组。

Top N：获取排序后的前 N 行数据。

累计计算：计算窗口内数据的累计值。

层次查询：实现多层次的数据检索。

寄语

“温故而知新，可以为师矣。”

“keep up the good work。”

转载地址：http://uxnv.baihongyu.com/

你可能感兴趣的文章

oracle中sql查询上月、本月、上周、本周、昨天、今天的数据！

查看>>

oracle中sql的case语句运用--根据不同条件去排序！

Oracle中序列的操作以及使用前对序列的初始化

查看>>

oracle中新建用户和赋予权限

查看>>

Oracle中的NVL,NVL2,NULLIF以及COALESCE函数使用

查看>>

Oracle中的rownum 和rowid的用法和区别

查看>>

oracle中的大小写、字符、dual、数字、处理、日期、函数、显/隐式、时间、条件表达式case、decode、to_date、to_char、sysdate

查看>>

oracle中表和视图的区别,oracle中常用表和视图

查看>>

oracle之表空间(tablespace)、方案(schema)、段(segment)、区(extent)、块(block)

oracle优化器analyzed,Oracle 学习之性能优化(十三) 索引

oracle典型安装失败,安装oracle 10失败

查看>>

Oracle内存结构详解（四）--Oracle SGA其他组成部分

查看>>

Oracle函数与存储过程和程序包

查看>>