Flink中对keyBy的探究_dinghua_xuexi的专栏
0 摘要 在Flink实时流数据处理中,经常用到keyBy算子, 虽然能够大致不差的使用它,实现自己的需求。然而这个算子到底做了什么事情,心里一直没有底。这篇文章算是对keyBy算子稍微深入一点的探究。 1 Spark中的按key分组操作 对于经常使用spark的同学而言,分组操作数据,那是再熟悉不过。比如groupBy, reduceBy, aggregateBy等一系列算子。基本思路都是指定key之后, 将相同key的元素集合到一个集合里面,形成一个新的集合元素,然后对每个key对应的元素集合进行操作 1.1 准备数据 1.2 spark分组操作处理数据 下面的操作以groupBy算子为例,分组后,输出结果数据,观察结果数据结构 def main(args: Array[String])...阅读全文