HBase基本概念和使用 2018-06-16| HBase | HBase HBase简介HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。
HBase是基于列的而不是基于行的模式。
面向列:面向列(族)的存储和权限控制,列(族)独立检索。
稀疏:对于为空(null)的列,并不占用存储空间,因此,表的设计非常的稀疏。
HBase的角色HM ...
Read more Flume之Log4J Appender:采集log4j日志到控制台 2018-06-14| Flume | Flume Flume采集log4j日志目标:使用flume采集log4j日志,在logger控制台输出,即log4j日志 => Log4J Appender。
Mock代码及log4j.propertiesJava Mock数据的代码如下:
1package com.ivinx.flume;23impo ...
Read more Flume的概念、部署和使用 2018-06-12| Flume | Flume Flume简介官网:http://flume.apache.org/
官方描述:
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving l ...
Read more MapReduce编程实现JSON格式数据的ETL清洗 2018-06-11| Hadoop | Hadoop 问题背景使用MR编程,实现对JSON格式的数据进行ETL。
代码实现此处使用Gson解析JSON格式的数据。
Gson是Google公司发布的一个开放源代码的Java库,主要用途为序列化Java对象为JSON字符串,或反序列化JSON字符串成Java对象。
Gson的Github地址:https:/ ...
Read more MapReduce编程实现Group By 2018-06-10| Hadoop | Hadoop 问题背景假设数据源为emp表,现在要求将表中的数据按照deptno来分组。
如果是在Hive上的话,可以用SQL轻易的解决,但是今天我们另辟蹊径,尝试使用MR代码的方式实现。
emp表字段:empno,ename,job,mgr,hiredate,sal,comm,deptno
输出格式:deptn ...
Read more MapReduce编程解决DataSkew数据倾斜问题 2018-06-09| Hadoop | Hadoop 问题背景假设数据文件如下:
hello hadoophello sparkhello sparkhello hadoophello flinkhello hadoophello worldhello flink…
当要实现WordCount时,就容易产 ...
Read more Hadoop的API使用:文件重命名 2018-06-08| Hadoop | Hadoop 问题背景假设HDFS上日志文件的形式如下:
/logs/20171011/188.txt/logs/20171011/2sf.txt/logs/20171011/36t.txt/logs/20171012/1ns.txt/logs/20171012/2sfs.txt/logs/20171012/37 ...
Read more MapReduce在Windows上运行的坑:winutils.exe和hadoop.dll 2018-06-07| Hadoop | Hadoop Hadoop在Windows上的坑:winutils.exe和hadoop.dll在Windows电脑上运行MapReduce程序,出现以下错误:
java.io.IOException: Could not locate executable null\bin\winutils.exe in th ...
Read more Hadoop:重新格式化HDFS 2018-06-04| Hadoop | Hadoop 问题背景使用start-dfs.sh启动HDFS,但是jps看不到NameNode进程,并且NN的日志报错。
问题原因:
格式化HDFS时,没有指定hadoop.tmp.dir,默认使用的是/tmp目录。由于Linux系统/tmp目录的自动删除机制,致使file://${hadoop.tmp.dir ...
Read more Hive常用的日期函数 2018-06-02| Hive | Hive Hive日期函数Hive官网地址:http://hive.apache.org/
前置:Hive查看函数使用方法
查看month相关的函数:
show functions like '*month*'
查看add_months函数的用法:
desc function add_mon ...
Read more