博客
关于我
Hive 四种排序函数与开窗函数
阅读量:240 次
发布时间:2019-03-01

本文共 885 字,大约阅读时间需要 2 分钟。

Hive排序与窗口函数详解

Hive排序方法

在Hive中,数据排序主要通过以下几种方式实现:

  • 全局排序 (order by): 使用 order by 对所有数据进行排序,且 reduce 函数仅有一个。
  • 自定义排序 (sort by): 在 sort by 内部定义排序逻辑。
  • 分区排序 (distribute by): 根据指定字段进行数据分区,并对存储字段进行排序。
  • 聚集排序 (cluster by): 当分区条件与排序条件相同时,使用 cluster by
  • 分组排序 (group by): 用于单纯的分组操作,通常与聚合函数配合使用。
  • 分区查询 (partition by): 用于辅助查询,缩小数据范围,加速检索并对数据进行管理。

Hive窗口函数

Hive 提供多种窗口函数,主要用于聚合和分析任务,以下是常用窗口函数及其用途:

  • over(): 用于定义窗口范围,常用于后续聚合函数。
  • row_number(): 为排序后的数据生成唯一行号,不含重复序号。
  • rank(): 计算数据的排名,相同数据可设置为密集排名(DENSE_RANK())。
  • LAG(): 获取窗口内前面的值(默认为前一个值)。
  • LEAD(): 获取窗口内后面的值(默认为后一个值)。
  • LAST_VALUE(): 获取分组内排序后的最后一个值。
  • FIRST_VALUE(): 获取分组内排序后的第一个值。
  • PRECEDING(): 获取窗口内前面所有值。
  • FOLLOWING(): 获取窗口内后面所有值。
  • CURRENT ROW(): 获取当前行数据。

窗口函数与分析函数的区别

  • 窗口函数:针对每个分组返回多行数据。
  • 分析函数:针对每个分组返回一行数据。

窗口函数应用场景

窗口函数广泛应用于以下场景:

  • 分区排序:用于对数据进行排序。
  • 动态 Group By:根据数据分布动态分组。
  • Top N:获取排序后的前 N 行数据。
  • 累计计算:计算窗口内数据的累计值。
  • 层次查询:实现多层次的数据检索。
  • 寄语

    “温故而知新,可以为师矣。”

    “keep up the good work。”

    转载地址:http://uxnv.baihongyu.com/

    你可能感兴趣的文章
    Objective-C实现求曲线在某点的导数(附完整源码)
    查看>>
    Objective-C实现求最大公约数 (GCD)的算法(附完整源码)
    查看>>
    Objective-C实现求梯形面积公式(附完整源码)
    查看>>
    Objective-C实现求模逆算法(附完整源码)
    查看>>
    Objective-C实现求正弦(附完整源码)
    查看>>
    Objective-C实现求矩阵对角线元素之和(附完整源码)
    查看>>
    Objective-C实现汉密尔顿循环算法(附完整源码)
    查看>>
    Objective-C实现波利比乌斯密码算法(附完整源码)
    查看>>
    Objective-C实现波雷费密码算法(附完整源码)
    查看>>
    Objective-C实现洗牌移位密码算法(附完整源码)
    查看>>
    Objective-C实现测试信用卡号码有效性credit card validator的算法(附完整源码)
    查看>>
    Objective-C实现海伦公式(附完整源码)
    查看>>
    Objective-C实现海伦公式(附完整源码)
    查看>>
    Objective-C实现消息队列(附完整源码)
    查看>>
    Objective-C实现消息队列(附完整源码)
    查看>>
    Objective-C实现深度优先搜索迭代算法(附完整源码)
    查看>>
    Objective-C实现深度优先搜索递归算法(附完整源码)
    查看>>
    Objective-C实现混合关键字密码算法(附完整源码)
    查看>>
    Objective-C实现混沌算法(附完整源码)
    查看>>
    Objective-C实现温度转换算法(附完整源码)
    查看>>