北极星的光

spark 2.x的rpc目前只剩下netty的实现。spark-RPC主要包含三个模块：RpcEnv:RPC调用的环境，消息通过RPCEnv决...

是否需要对key提前进行排序。从逻辑角度来讲，Shuffle 过程就是一个 GroupByKey 的过程，两者没有本质区别。只是 MapRedu...

上一节的sparkContext中提到了taskScheduler的启动来看看scheduler是怎么建立的：private def creat...

thrift远程调用的过程client->Protocol->transport->io--server<-protoc...

背景：计算实时保费需要用到保单表和明细表以及4长维表，spark struct stream 调优之前计算所需10分钟。这严重超过了预期的限制因...

基于ZK的HA切换原理在讲解ZKFC进程的组成部分之前，我们需要了解HDFS如何依赖ZK实现切换操作的。首先我们需要了解一下什么是ZK以及ZK有...

我们经常会在sql中使用select count(distinct xx) from xxx 来计算一列中到底有多少个值。但是sql往往计算的很...

history的jvm配置安装：启动时堆外内存不够启动报错，原因是需要38G direct memory，但是只配了25G，不够Not enou...

查询的方式druid的查询是主要是通过的curl提交相关的请求到broker，broker通过将请求发送给实时以及离线的节点，最后将结果进行me...