Danner Blog

Took the sourest lemon that life has to offer and turned it into something resembling lemonade.

大数据姿势收藏

存储 计算 数据倾斜 漫谈千亿级数据优化实践:数据倾斜(纯干货) Hadoop基础-MapReduce的数据倾斜解决方案 传输

Hive 安装及元数据表

Hive 的元数据需要保存在 MySQL,先安装 MySQL。 MySQL 安装 mysql yum -y install mysql-server mysql 启动 mysql /etc/init.d/mysqld start chkconfig mysqld on 设置 mysql 的 root 用户密码 mysqladmin -u root...

Hive

简介 Hive 是一种用 类SQL 语句来协助读写、管理那些存储在分布式存储系统上大数据集,构建在 Hadoop 之上的的数据仓库工具。 特点  Hive 最大的特点是通过 类SQL 来分析大数据,而避免了写 MapReduce 程序来分析数据,这样使得分析数据更容易。  数据是存储在 HDFS 上的,Hive 本身并不提供数据的存储功能  Hive 将数据映射成数据...

Flume

http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.15.1/FlumeUserGuide.html 简介 Flume 是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输系统。它的数据流模型为Source -> Channel -> Sink,其事务机制保证消息传递的可靠性。 Even...

Hadoop

HDFS HDFS 是分布式系统 Hadoop 的文件系统。 NameNode edits:编辑日志,客户端对目录和文件的写操作首先被写到 edit 日志中,如:创建文件、删除文件等。 fsimage:文件系统元数据检查点镜像文件,保存了文件系统中所有的目录和文件信息,如:一个目录下有那些子目录、子文件、文件名,文件副本数,文件由哪些块组成等。 内存镜像信息 = fsi...

谈谈对Word2Vec理解

Word2Vec

背景 在讨论 Word2Vec 之前,必然是要说到 Embedding。刚开始接触 Embedding 时,很难描述它究竟是干什么的。我们不妨这么来理解:在机器学习中,我们需要对现实的问题建模来实现问题的求解;建模的输入是数值,而现实中遇到的都是符号(word、movie、food…);那么在解决问题时,需要将符号转换成数值 - 这个过程叫 Embedding 即符号用 Vector 来表...

机器学习之线性回归

线性回归

机器学习概念 有监督学习 给定数据集 D 并给定数据标签 y;以 ImageNet 数据集为例,给定一副图片并标注图片所属类别(猫、狗…)。有监督学习在机器学习中占比很大,常见的有:KNN、线性回归、逻辑回归、决策树、SVM。虽然有监督学习很大占比,但其数据标签的获取会产生很大的占比(数以百万计的数标注),现在已经有很大规模数据标注服务。 无监督学习 对比有监督学习,无监督学习中数据...

Zookeeper

简介 Zookeeper 是一个高可用的分布式数据管理和协调框架,并且能够很好的保证分布式环境中数据的一致性。在越来越多的分布式系统(Hadoop、HBase、Kafka)中,Zookeeper 都作为核心组件使用。 Zookeeper 结构 Following: 处理客户端非事物请求并向客户端返回结果 将事物请求转发给Leader ...

Hadoop 集群创建

Hadoop 集群创建粗略笔记

设置hostname、ip 先更改,对应的网络名称便于后续维护(每台机子都要执行): sudo gedit /etc/sysconfig/network TWORKING=yes HOSTNAME=danner000 在namenode 的主机设置hostname和ip: vi /etc/hosts 192.168.22.147 danner000 192.16...

Git指令整理(转载)

不适合阅读的整理的一些个人常用的 Git 指令

随便整理的一些自用的Git指令 GitHub创建仓库提示代码 echo "# 项目名" >> README.md git init git add README.md git commit -m "first commit" git remote add origin git@github.com:qiubaiying/项目名.git git push -u orig...