hadoop汇总，

和通数据库htsjk.Com2020-01-29 21:45 来源:未知阅读:7929 评论 348 热度4

标签：

hadoop汇总，

Hadoop流程框架

日志采集两种方式

Flume集群的搭建有三种方式

一个单节点搜集
几个节点去收集数据，汇总到一个Flume中
一个flume去搜集，汇总到多个flume中

用shell脚本去采集

采集Nginx日志，日志信息都写在access.log 6文件中.利用crontab定时去采集，设置天、小时、分

使用flume（1.7）工具（看一下之前的笔记内容/或者视频有问题）

在hadoop1.6版本中监控文件还有文件目录使用的属性是Spooling ， Exec Source

a1.sources = r1 
a1.sources.r1.type = TAILDIR   //这个属性是1.7才有既可以监控文件也可以监控目录
a1.sources.r1.channels = c1 
a1.sources.r1.positionFile = /var/log/flume/taildir_position.json //解决的断点续传问题，由于网络问题造成读取数据失败，以json的保存读取的文件的位置
a1.sources.r1.filegroups = f1 f2  //指定要检测的文件
a1.sources.r1.filegroups.f1 = /var/log/test1/example.log 
a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.* //可以正则表达式匹配文件位置

工作流调度器（azkaban）（有问题没有具体实施过）

目前市面上 azkaban、ooize、Zeus、Airflow

数据仓库

HIVE 这块的东西要看一遍视频啊

最后一天

hadoop Archives

将Hadoop 目录下的小文件进行进行合并，后缀名.har结尾，底层是跑了一个MR程序将文件进行的合并，-r代表复制因子；最好的解决方案就是将小文件合并以后在上传到HDFS上面

hadoop archive -archiveName test.har -p /input -r 3 /outputdir

hadoop汇总，

Hadoop流程框架

日志采集两种方式

Flume集群的搭建有三种方式

用shell脚本去采集

使用flume（1.7）工具 （看一下之前的笔记内容/或者视频有问题）

工作流调度器（azkaban）（有问题没有具体实施过）

数据仓库

最后一天

hadoop Archives

使用flume（1.7）工具（看一下之前的笔记内容/或者视频有问题）