Danner Blog

Took the sourest lemon that life has to offer and turned it into something resembling lemonade.

Executor Locality

翻译 https://www.alluxio.io/blog/top-10-tips-for-making-the-spark-alluxio-stack-blazing-fast/ Apache Spark+Alluxio 技术栈非常流行,特别是在跨S3和HDFS统一数据访问方面。此外,计算和存储分离是趋势,导致查询的延迟越来越大。Alluxio 被用作计算端虚拟存储以提高性能。但要获得...

Yarn App 资源本地化

on Yarn 程序都需要将 lib下的jar和代码jar 上传到 HDFS,在启动App前下载资源到本地,这一些列的操作很耗时 该如何节省程序启动时间? 本地化:将远程资源复制/下载到本地文件系统的过程。不再总是远程访问资源,而是将其复制到本地计算机,然后可以在本地访问该计算机。 本地资源:表示运行容器所需的文件/库。NodeManager 负责在启动容器之前对资源进行本地化。对于每...

Flink SQL join 实现

demo object JoinExplainSql { def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironment.getExecutionEnvironment val settings = EnvironmentSettings.newInstance() ....

Hive SQL 获取血缘关系

资料参考 饿了么元数据管理实践之路 Hive SQL血缘关系解析与应用 Hive SQL 元数据血缘管理 hive字段级血缘关系实现

Flink Kafka Exactly Once 深入理解

参考资料 Flink Kafka Connector 与 Exactly Once 剖析

Kafka 幂等性和事务

参考资料 Kafka 事务性之幂等性实现

【译】An Overview of End-to-End Exactly-Once Processing in Apache Flink® (with Apache Kafka, too!)

原文地址:https://www.ververica.com/blog/end-to-end-exactly-once-processing-apache-flink-apache-kafka 2017年12月,Apache Flink 1.4.0 发布。此版本包含一个对于流处理来说的重大特性:TwoPhaseCommitSinkFunction,它利用二阶段提交协议使 Flink 程序实...

ClickHouse 学习资料

源码分析 Clickhouse源码导读 【Clickhouse】源码架构 Dive into ClickHouse ClickHouse内核分析-MergeTree的Merge和Mutation机制 ClickHouse内核分析-MergeTree的存储结构和查询加速 ClickHouse内核分析-ZooKeeper在分布式集群中的作用以及ReplicatedMergeTree表...

【译】FLIP_132 Temporal Table DDL and Temporal Table Join

FLIP-132 Temporal Table DDL and Temporal Table Join 当维表可以使用 changelog 的方式获取时,支持 eventtime 的 join org.apache.flink.table.planner.plan.nodes.exec.stream.StreamExecTemporalJoin org.apache.fl...

bitmap 学习

参考资料 基数估计探秘:Linear Counting与Flajolet-Martin算法 再谈基数估计之HyperLogLog算法 布隆过滤器(Bloom Filter)原理及Guava中的具体实现 高效压缩位图RoaringBitmap的原理与应用 ClickHouse遇见RoaringBitmap