欢迎投稿

今日深度:

hadoop汇总,

hadoop汇总,



Hadoop流程框架

日志采集两种方式

Flume集群的搭建有三种方式

  • 一个单节点搜集
  • 几个节点去收集数据,汇总到一个Flume中
  • 一个flume去搜集,汇总到多个flume中

用shell脚本去采集

  • 采集Nginx日志,日志信息都写在access.log 6文件中.利用crontab定时去采集,设置天、小时、分

使用flume(1.7)工具 (看一下之前的笔记内容/或者视频有问题)

  • 在hadoop1.6版本中监控文件还有文件目录使用的属性是Spooling , Exec Source

    a1.sources = r1 
    a1.sources.r1.type = TAILDIR   //这个属性是1.7才有既可以监控文件也可以监控目录
    a1.sources.r1.channels = c1 
    a1.sources.r1.positionFile = /var/log/flume/taildir_position.json //解决的断点续传问题,由于网络问题造成读取数据失败,以json的保存读取的文件的位置
    a1.sources.r1.filegroups = f1 f2  //指定要检测的文件
    a1.sources.r1.filegroups.f1 = /var/log/test1/example.log 
    a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.* //可以正则表达式匹配文件位置
    

工作流调度器(azkaban)(有问题没有具体实施过)

  • 目前市面上 azkaban、ooize、Zeus、Airflow

数据仓库

HIVE 这块的东西要看一遍视频啊

最后一天

hadoop Archives

  • 将Hadoop 目录下的小文件进行进行合并,后缀名.har结尾,底层是跑了一个MR程序将文件进行的合并,-r代表复制因子;最好的解决方案就是将小文件合并以后在上传到HDFS上面

    hadoop archive -archiveName test.har -p /input -r 3 /outputdir

  • *

www.htsjk.Com true http://www.htsjk.com/Hadoop/41396.html NewsArticle hadoop汇总, Hadoop流程框架 日志采集两种方式 Flume集群的搭建有三种方式 一个单节点搜集 几个节点去收集数据,汇总到一个Flume中 一个flume去搜集,汇总到多个flume中 用shell脚本去采集...
相关文章
    暂无相关文章
评论暂时关闭