本文共 721 字,大约阅读时间需要 2 分钟。
1.全局排序 order by(只有一个reduce,对所有数据进行排序) 只要使用 order by ,reduce只有一个。
2.sort by 内部有序 3.distribute by 分区字段 store by 排序字段 4.cluster by:当分区条件和排序条件相同使用cluster by . 5.group by:对检索的数据进行单纯的分组,一般和聚合函数一起使用。 6.partition by:用来辅助查询,缩小查询范围,加快数据的检索速度和对数据按照一定的规格和条件进行管理。over():over是用于数据的分区和排序,主要使用在聚合函数后边使用
row_number(): 对排序后的每行生成一个行号,且不存在重复的序号位 rank():排名函数 DENSE_RANK() 相同排序不跳序号位(允许并排次序): LAG:落后N 个值 (默认落后1个值) 用于统计窗口内往上第n行值 LEAD:比LAG快N个值 用于统计窗口内往下第n行值 LAST_VALUE:取分组内排序后,截止到当前行,最后一个值 FIRST_VALUE:取分组内排序后,截止到当前行,第一个值 PRECEDING:往前 FOLLOWING:往后 CURRENT ROW:当前行(1)用于分区排序
(2)动态Group By (3)Top N (4)累计计算 (5)层次查询 窗口函数与分析函数 区别: 窗口函数:对于每个组返回多行, 聚合函数:而聚合函数对于每个组只返回一行
转载地址:http://uxnv.baihongyu.com/