博客
关于我
Hive 四种排序函数与开窗函数
阅读量:240 次
发布时间:2019-03-01

本文共 885 字,大约阅读时间需要 2 分钟。

Hive排序与窗口函数详解

Hive排序方法

在Hive中,数据排序主要通过以下几种方式实现:

  • 全局排序 (order by): 使用 order by 对所有数据进行排序,且 reduce 函数仅有一个。
  • 自定义排序 (sort by): 在 sort by 内部定义排序逻辑。
  • 分区排序 (distribute by): 根据指定字段进行数据分区,并对存储字段进行排序。
  • 聚集排序 (cluster by): 当分区条件与排序条件相同时,使用 cluster by
  • 分组排序 (group by): 用于单纯的分组操作,通常与聚合函数配合使用。
  • 分区查询 (partition by): 用于辅助查询,缩小数据范围,加速检索并对数据进行管理。

Hive窗口函数

Hive 提供多种窗口函数,主要用于聚合和分析任务,以下是常用窗口函数及其用途:

  • over(): 用于定义窗口范围,常用于后续聚合函数。
  • row_number(): 为排序后的数据生成唯一行号,不含重复序号。
  • rank(): 计算数据的排名,相同数据可设置为密集排名(DENSE_RANK())。
  • LAG(): 获取窗口内前面的值(默认为前一个值)。
  • LEAD(): 获取窗口内后面的值(默认为后一个值)。
  • LAST_VALUE(): 获取分组内排序后的最后一个值。
  • FIRST_VALUE(): 获取分组内排序后的第一个值。
  • PRECEDING(): 获取窗口内前面所有值。
  • FOLLOWING(): 获取窗口内后面所有值。
  • CURRENT ROW(): 获取当前行数据。

窗口函数与分析函数的区别

  • 窗口函数:针对每个分组返回多行数据。
  • 分析函数:针对每个分组返回一行数据。

窗口函数应用场景

窗口函数广泛应用于以下场景:

  • 分区排序:用于对数据进行排序。
  • 动态 Group By:根据数据分布动态分组。
  • Top N:获取排序后的前 N 行数据。
  • 累计计算:计算窗口内数据的累计值。
  • 层次查询:实现多层次的数据检索。
  • 寄语

    “温故而知新,可以为师矣。”

    “keep up the good work。”

    转载地址:http://uxnv.baihongyu.com/

    你可能感兴趣的文章
    OSG学习:纹理映射(三)——立方图纹理映射
    查看>>
    OSG学习:纹理映射(二)——一维/二维/简单立方图纹理映射
    查看>>
    OSG学习:纹理映射(五)——计算纹理坐标
    查看>>
    OSG学习:纹理映射(六)——灯光
    查看>>
    OSG学习:纹理映射(四)——三维纹理映射
    查看>>
    OSG:从源码看Viewer::run() 一
    查看>>
    osi 负载均衡
    查看>>
    OSI七层模型与TCP/IP五层模型(转)
    查看>>
    OSI七层模型与TCP/IP四层与五层模型详解
    查看>>
    OSI七层模型的TCP/IP模型都有哪几层和他们的对应关系?
    查看>>
    OSI操作系统(NETBASE第八课)
    查看>>
    OSM数据如何下载使用(地图数据篇.11)
    查看>>
    OSPF 四种设备角色:IR、ABR、BR、ASBR
    查看>>
    OSPF 四种路由类型:Intra Area、Inter Area、第一、二类外部路由
    查看>>
    OSPF 学习
    查看>>
    OSPF 支持的网络类型:广播、NBMA、P2MP和P2P类型
    查看>>