阿飞的博客 | Danner Blog

大数据姿势收藏

存储计算数据倾斜漫谈千亿级数据优化实践：数据倾斜（纯干货） Hadoop基础-MapReduce的数据倾斜解决方案传输

Posted by danner on August 20, 2017

Hive 安装及元数据表

Hive 的元数据需要保存在 MySQL，先安装 MySQL。 MySQL 安装 mysql yum -y install mysql-server mysql 启动 mysql /etc/init.d/mysqld start chkconfig mysqld on 设置 mysql 的 root 用户密码 mysqladmin -u root...

Posted by danner on May 3, 2017

Hive

简介 Hive 是一种用类SQL 语句来协助读写、管理那些存储在分布式存储系统上大数据集，构建在 Hadoop 之上的的数据仓库工具。特点 Hive 最大的特点是通过类SQL 来分析大数据，而避免了写 MapReduce 程序来分析数据，这样使得分析数据更容易。数据是存储在 HDFS 上的，Hive 本身并不提供数据的存储功能 Hive 将数据映射成数据...

Posted by danner on May 2, 2017

Flume

http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.15.1/FlumeUserGuide.html 简介 Flume 是一个分布式的、可靠的、高可用的海量日志采集、聚合和传输系统。它的数据流模型为Source -> Channel -> Sink，其事务机制保证消息传递的可靠性。 Even...

Posted by danner on May 2, 2017

Hadoop

HDFS HDFS 是分布式系统 Hadoop 的文件系统。 NameNode edits：编辑日志，客户端对目录和文件的写操作首先被写到 edit 日志中，如：创建文件、删除文件等。 fsimage：文件系统元数据检查点镜像文件，保存了文件系统中所有的目录和文件信息，如：一个目录下有那些子目录、子文件、文件名，文件副本数，文件由哪些块组成等。内存镜像信息 = fsi...

Posted by danner on April 6, 2017

谈谈对Word2Vec理解

Word2Vec

背景在讨论 Word2Vec 之前，必然是要说到 Embedding。刚开始接触 Embedding 时，很难描述它究竟是干什么的。我们不妨这么来理解：在机器学习中，我们需要对现实的问题建模来实现问题的求解；建模的输入是数值，而现实中遇到的都是符号(word、movie、food…)；那么在解决问题时，需要将符号转换成数值 - 这个过程叫 Embedding 即符号用 Vector 来表...

Posted by daner on April 1, 2017

机器学习之线性回归

线性回归

机器学习概念有监督学习给定数据集 D 并给定数据标签 y；以 ImageNet 数据集为例，给定一副图片并标注图片所属类别(猫、狗…)。有监督学习在机器学习中占比很大，常见的有：KNN、线性回归、逻辑回归、决策树、SVM。虽然有监督学习很大占比，但其数据标签的获取会产生很大的占比(数以百万计的数标注)，现在已经有很大规模数据标注服务。无监督学习对比有监督学习，无监督学习中数据...

Posted by daner on March 29, 2017

Zookeeper

简介 Zookeeper 是一个高可用的分布式数据管理和协调框架，并且能够很好的保证分布式环境中数据的一致性。在越来越多的分布式系统（Hadoop、HBase、Kafka）中，Zookeeper 都作为核心组件使用。 Zookeeper 结构 Following：处理客户端非事物请求并向客户端返回结果将事物请求转发给Leader ...

Posted by danner on March 26, 2017

Hadoop 集群创建

Hadoop 集群创建粗略笔记

设置hostname、ip 先更改，对应的网络名称便于后续维护(每台机子都要执行)： sudo gedit /etc/sysconfig/network TWORKING=yes HOSTNAME=danner000 在namenode 的主机设置hostname和ip： vi /etc/hosts 192.168.22.147 danner000 192.16...

Posted by daner on February 16, 2017

Git指令整理(转载)

不适合阅读的整理的一些个人常用的 Git 指令

随便整理的一些自用的Git指令 GitHub创建仓库提示代码 echo "# 项目名" >> README.md git init git add README.md git commit -m "first commit" git remote add origin git@github.com:qiubaiying/项目名.git git push -u orig...

Posted by BY on February 15, 2016

Danner Blog