Danner Blog

Took the sourest lemon that life has to offer and turned it into something resembling lemonade.

Redis 初体验

简介 Redis 是一种基于键值对( key - value) 的 NoSQL 数据库,面向快速执行场景。 Redis 的数据结构有 String、hash、list、set、zset、Bitmaps、HyperLogLog、GEO,常用的是前四种。 Redis 提供了简单的事务功能,将一组需要一起执行的命令放到 multi 和 exec 两个命令之间。multi 命令代表事务开...

kafka 笔记

核心术语 Producer:生产者,生产中常为 flume Consumer:消费者,生产中常为 ss/sss/flink/ 容错性的消费机制: 一个消费组内共享一个公共的消费 group id; 组内所有的消费者协调在一起消费指定 Topic 的所有分区; 每个分区只能由一个消费...

Spark on YARN 加速启动

背景 Spark on YARN 每次启动时会将本地的 spark jar 和 conf 上传到 HDFS,这样会消耗很长的时间 [hadoop@danner000 jars]$ spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster spark-example...

Azkaban 入门

https://azkaban.readthedocs.io/en/latest/getStarted.html# 安装 https://azkaban.readthedocs.io/en/latest/getStarted.html#building-from-source 参考上面官方文档,下载编译安装即可。 在启动之前,先配个用户: <!-- conf...

SparkSQL 访问 Hive

SQL

https://spark.apache.org/docs/latest/sql-data-sources-hive-tables.html Metastore hive 启动 bin/hive --service metastore 。默认监听 9083 端口 [hadoop@danner000 ~]$ ps -ef| grep hive hadoop 123666...

Hadoop 支持 lzo 压缩

Hadoop 中最常用的压缩方式 LZO,因为它支持分割,压缩/解压速度也比较快,合理的压缩率 (关于 hadoop 压缩算法,参考压缩算法)。 但 Hadoop 本身不支持 LZO,需要另行安装。 安装依赖 [root@danner000 hadoop]# yum install -y svn ncurses-devel [root@danner000 hadoop]# yum ins...

深入理解 Zookeeper:启动和选举

Zookeeper 能实现分布式一致性在于:ZAB 协议是为分布式协调服务 Zookeeper 专门设计的一种支持崩溃恢复的原子广播协议。Zookeeper 使用一个单一的主进程(Leader) 处理客户端的所有事务请求,并采用 ZAB 的原子广播协议,将服务器数据的状态变更以事务 Proposal 的形式广播到所有副本进程(Follower)。 原子广播保证数据的有序性和容错性,崩溃恢复...

CDH 离线部署笔记

CDH 部署方式有三种: bin 在线部署,需要访问外网 rpm 离线部署,但要下载相应的依赖包,不是真正的离线部署(还是需要访问外网或私服) tar离线部署,真正的 CDH 离线部署方式 CDH离线不是分为三部分:MySQL、CM、Parcel 文件;其中 MySQL 存储元数据,CM (cloudera-manager) 是大数据集群安装部署利器, Parcel 文件...

Spark 算子剖析

算子

Spark 2.4.4 源码 Transformations https://spark.apache.org/docs/latest/rdd-programming-guide.html#transformations filter def filter(f: T => Boolean): RDD[T] = withScope { val cleanF...

Flume 自定义组件

http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.15.1/FlumeDeveloperGuide.html 本节结合官方文档和源码来尝试定义自定义组件 源码 首先来看看源码是如何组件是如何定义: TaildirSource Taildir Source 源码是 org.apache.flume.sourc...