博客
关于我
Hive 四种排序函数与开窗函数
阅读量:240 次
发布时间:2019-03-01

本文共 885 字,大约阅读时间需要 2 分钟。

Hive排序与窗口函数详解

Hive排序方法

在Hive中,数据排序主要通过以下几种方式实现:

  • 全局排序 (order by): 使用 order by 对所有数据进行排序,且 reduce 函数仅有一个。
  • 自定义排序 (sort by): 在 sort by 内部定义排序逻辑。
  • 分区排序 (distribute by): 根据指定字段进行数据分区,并对存储字段进行排序。
  • 聚集排序 (cluster by): 当分区条件与排序条件相同时,使用 cluster by
  • 分组排序 (group by): 用于单纯的分组操作,通常与聚合函数配合使用。
  • 分区查询 (partition by): 用于辅助查询,缩小数据范围,加速检索并对数据进行管理。

Hive窗口函数

Hive 提供多种窗口函数,主要用于聚合和分析任务,以下是常用窗口函数及其用途:

  • over(): 用于定义窗口范围,常用于后续聚合函数。
  • row_number(): 为排序后的数据生成唯一行号,不含重复序号。
  • rank(): 计算数据的排名,相同数据可设置为密集排名(DENSE_RANK())。
  • LAG(): 获取窗口内前面的值(默认为前一个值)。
  • LEAD(): 获取窗口内后面的值(默认为后一个值)。
  • LAST_VALUE(): 获取分组内排序后的最后一个值。
  • FIRST_VALUE(): 获取分组内排序后的第一个值。
  • PRECEDING(): 获取窗口内前面所有值。
  • FOLLOWING(): 获取窗口内后面所有值。
  • CURRENT ROW(): 获取当前行数据。

窗口函数与分析函数的区别

  • 窗口函数:针对每个分组返回多行数据。
  • 分析函数:针对每个分组返回一行数据。

窗口函数应用场景

窗口函数广泛应用于以下场景:

  • 分区排序:用于对数据进行排序。
  • 动态 Group By:根据数据分布动态分组。
  • Top N:获取排序后的前 N 行数据。
  • 累计计算:计算窗口内数据的累计值。
  • 层次查询:实现多层次的数据检索。
  • 寄语

    “温故而知新,可以为师矣。”

    “keep up the good work。”

    转载地址:http://uxnv.baihongyu.com/

    你可能感兴趣的文章
    oracle中sql查询上月、本月、上周、本周、昨天、今天的数据!
    查看>>
    oracle中sql的case语句运用--根据不同条件去排序!
    查看>>
    Oracle中Transate函数的使用
    查看>>
    oracle中关于日期问题的汇总!
    查看>>
    Oracle中常用的语句
    查看>>
    Oracle中序列的操作以及使用前对序列的初始化
    查看>>
    oracle中新建用户和赋予权限
    查看>>
    Oracle中的NVL,NVL2,NULLIF以及COALESCE函数使用
    查看>>
    Oracle中的rownum 和rowid的用法和区别
    查看>>
    oracle中的大小写、字符、dual、数字、处理、日期、函数、显/隐式、时间、条件表达式case、decode、to_date、to_char、sysdate
    查看>>
    oracle中表和视图的区别,oracle中常用表和视图
    查看>>
    oracle之表空间(tablespace)、方案(schema)、段(segment)、区(extent)、块(block)
    查看>>
    Oracle从11g导出后导入10g
    查看>>
    oracle从备份归档日志的方法集中回收
    查看>>
    oracle优化器analyzed,Oracle 学习之 性能优化(十三) 索引
    查看>>
    Oracle修改字段类型
    查看>>
    Oracle修改表或者字段的注释
    查看>>
    oracle典型安装失败,安装oracle 10失败
    查看>>
    Oracle内存结构详解(四)--Oracle SGA其他组成部分
    查看>>
    Oracle函数与存储过程和程序包
    查看>>