HBase基本概念和使用
HBase简介HBase是一个分布式的、面向列的开源数据库,它是一个适合于非结构化数据存储的数据库。 HBase是基于列的而不是基于行的模式。 面向列:面向列(族)的存储和权限控制,列(族)独立检索。 稀疏:对于为空(null)的列,并不占用存储空间,因此,表的设计非常的稀疏。 HBase的角色HM ...
Read more
Flume之Log4J Appender:采集log4j日志到控制台
Flume采集log4j日志目标:使用flume采集log4j日志,在logger控制台输出,即log4j日志 => Log4J Appender。 Mock代码及log4j.propertiesJava Mock数据的代码如下: 1package com.ivinx.flume;23impo ...
Read more
Flume的概念、部署和使用
Flume简介官网:http://flume.apache.org/ 官方描述: Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving l ...
Read more
MapReduce编程实现JSON格式数据的ETL清洗
问题背景使用MR编程,实现对JSON格式的数据进行ETL。 代码实现此处使用Gson解析JSON格式的数据。 Gson是Google公司发布的一个开放源代码的Java库,主要用途为序列化Java对象为JSON字符串,或反序列化JSON字符串成Java对象。 Gson的Github地址:https:/ ...
Read more
MapReduce编程实现Group By
问题背景假设数据源为emp表,现在要求将表中的数据按照deptno来分组。 如果是在Hive上的话,可以用SQL轻易的解决,但是今天我们另辟蹊径,尝试使用MR代码的方式实现。 emp表字段:empno,ename,job,mgr,hiredate,sal,comm,deptno 输出格式:deptn ...
Read more
MapReduce编程解决DataSkew数据倾斜问题
问题背景假设数据文件如下: hello hadoophello sparkhello sparkhello hadoophello flinkhello hadoophello worldhello flink… 当要实现WordCount时,就容易产 ...
Read more
Hadoop的API使用:文件重命名
问题背景假设HDFS上日志文件的形式如下: /logs/20171011/188.txt/logs/20171011/2sf.txt/logs/20171011/36t.txt/logs/20171012/1ns.txt/logs/20171012/2sfs.txt/logs/20171012/37 ...
Read more
MapReduce在Windows上运行的坑:winutils.exe和hadoop.dll
Hadoop在Windows上的坑:winutils.exe和hadoop.dll在Windows电脑上运行MapReduce程序,出现以下错误: java.io.IOException: Could not locate executable null\bin\winutils.exe in th ...
Read more
Hadoop:重新格式化HDFS
问题背景使用start-dfs.sh启动HDFS,但是jps看不到NameNode进程,并且NN的日志报错。 问题原因: 格式化HDFS时,没有指定hadoop.tmp.dir,默认使用的是/tmp目录。由于Linux系统/tmp目录的自动删除机制,致使file://${hadoop.tmp.dir ...
Read more
Hive常用的日期函数
Hive日期函数Hive官网地址:http://hive.apache.org/ 前置:Hive查看函数使用方法 查看month相关的函数: show functions like '*month*' 查看add_months函数的用法: desc function add_mon ...
Read more