博客
关于我
Hive 四种排序函数与开窗函数
阅读量:240 次
发布时间:2019-03-01

本文共 885 字,大约阅读时间需要 2 分钟。

Hive排序与窗口函数详解

Hive排序方法

在Hive中,数据排序主要通过以下几种方式实现:

  • 全局排序 (order by): 使用 order by 对所有数据进行排序,且 reduce 函数仅有一个。
  • 自定义排序 (sort by): 在 sort by 内部定义排序逻辑。
  • 分区排序 (distribute by): 根据指定字段进行数据分区,并对存储字段进行排序。
  • 聚集排序 (cluster by): 当分区条件与排序条件相同时,使用 cluster by
  • 分组排序 (group by): 用于单纯的分组操作,通常与聚合函数配合使用。
  • 分区查询 (partition by): 用于辅助查询,缩小数据范围,加速检索并对数据进行管理。

Hive窗口函数

Hive 提供多种窗口函数,主要用于聚合和分析任务,以下是常用窗口函数及其用途:

  • over(): 用于定义窗口范围,常用于后续聚合函数。
  • row_number(): 为排序后的数据生成唯一行号,不含重复序号。
  • rank(): 计算数据的排名,相同数据可设置为密集排名(DENSE_RANK())。
  • LAG(): 获取窗口内前面的值(默认为前一个值)。
  • LEAD(): 获取窗口内后面的值(默认为后一个值)。
  • LAST_VALUE(): 获取分组内排序后的最后一个值。
  • FIRST_VALUE(): 获取分组内排序后的第一个值。
  • PRECEDING(): 获取窗口内前面所有值。
  • FOLLOWING(): 获取窗口内后面所有值。
  • CURRENT ROW(): 获取当前行数据。

窗口函数与分析函数的区别

  • 窗口函数:针对每个分组返回多行数据。
  • 分析函数:针对每个分组返回一行数据。

窗口函数应用场景

窗口函数广泛应用于以下场景:

  • 分区排序:用于对数据进行排序。
  • 动态 Group By:根据数据分布动态分组。
  • Top N:获取排序后的前 N 行数据。
  • 累计计算:计算窗口内数据的累计值。
  • 层次查询:实现多层次的数据检索。
  • 寄语

    “温故而知新,可以为师矣。”

    “keep up the good work。”

    转载地址:http://uxnv.baihongyu.com/

    你可能感兴趣的文章
    Oracle用游标删除重复数据
    查看>>
    Tomcat学习总结(19)—— 为什么首选Tomcat作为JavaWeb应用服务器?
    查看>>
    oracle的内置函数
    查看>>
    Oracle的存储结构
    查看>>
    Oracle的聚合函数group by结合CUBE和ROLLUP的使用
    查看>>
    Oracle监听配置、数据库实例配置等
    查看>>
    Oracle知识补充
    查看>>
    Oracle笔记(十三) 视图、同义词、索引
    查看>>
    Oracle笔记(十) 约束
    查看>>
    【BOOST C++字串专题07】 Boost.Format
    查看>>
    oracle系列(六)OEM与常见故障处理
    查看>>
    Oracle系列:安装Oracle RAC数据库(二)
    查看>>
    oracle系统 介绍,ORACLE数据库管理系统介绍
    查看>>
    Thymeleaf模板引擎的编写
    查看>>
    oracle获取数据库表、字段、注释、约束等
    查看>>
    ThreeJS入门(163):THREE.TextureLoader 知识详解,示例代码
    查看>>
    Oracle表的操作
    查看>>
    Oracle表空间、用户的创建及导入导出
    查看>>
    oracle表空间查询维护命令大全之三(暂时表空间)史上最全
    查看>>
    oracle表访问方式
    查看>>