spark 2.x的rpc目前只剩下netty的实现。spark-RPC主要包含三个模块:RpcEnv:RPC调用的环境,消息通过RPCEnv决...

是否需要对key提前进行排序。从逻辑角度来讲,Shuffle 过程就是一个 GroupByKey 的过程,两者没有本质区别。只是 MapRedu...

上一节的sparkContext中提到了taskScheduler的启动来看看scheduler是怎么建立的:private def creat...

thrift远程调用的过程client->Protocol->transport->io--server<-protoc...

背景:计算实时保费需要用到保单表和明细表以及4长维表,spark struct stream 调优之前计算所需10分钟。这严重超过了预期的限制因...

基于ZK的HA切换原理在讲解ZKFC进程的组成部分之前,我们需要了解HDFS如何依赖ZK实现切换操作的。首先我们需要了解一下什么是ZK以及ZK有...

我们经常会在sql中使用select count(distinct xx) from xxx 来计算一列中到底有多少个值。但是sql往往计算的很...

history的jvm配置安装:启动时堆外内存不够启动报错,原因是需要38G direct memory,但是只配了25G,不够Not enou...

查询的方式druid的查询是主要是通过的curl提交相关的请求到broker,broker通过将请求发送给实时以及离线的节点,最后将结果进行me...