hadoop汇总,
Hadoop流程框架
日志采集两种方式
Flume集群的搭建有三种方式
- 一个单节点搜集
- 几个节点去收集数据,汇总到一个Flume中
- 一个flume去搜集,汇总到多个flume中
用shell脚本去采集
- 采集Nginx日志,日志信息都写在access.log 6文件中.利用crontab定时去采集,设置天、小时、分
使用flume(1.7)工具 (看一下之前的笔记内容/或者视频有问题)
在hadoop1.6版本中监控文件还有文件目录使用的属性是Spooling , Exec Source
a1.sources = r1 a1.sources.r1.type = TAILDIR //这个属性是1.7才有既可以监控文件也可以监控目录 a1.sources.r1.channels = c1 a1.sources.r1.positionFile = /var/log/flume/taildir_position.json //解决的断点续传问题,由于网络问题造成读取数据失败,以json的保存读取的文件的位置 a1.sources.r1.filegroups = f1 f2 //指定要检测的文件 a1.sources.r1.filegroups.f1 = /var/log/test1/example.log a1.sources.r1.filegroups.f2 = /var/log/test2/.*log.* //可以正则表达式匹配文件位置
工作流调度器(azkaban)(有问题没有具体实施过)
- 目前市面上 azkaban、ooize、Zeus、Airflow
数据仓库
HIVE 这块的东西要看一遍视频啊
最后一天
hadoop Archives
将Hadoop 目录下的小文件进行进行合并,后缀名.har结尾,底层是跑了一个MR程序将文件进行的合并,-r代表复制因子;最好的解决方案就是将小文件合并以后在上传到HDFS上面
hadoop archive -archiveName test.har -p /input -r 3 /outputdir
*
本站文章为和通数据库网友分享或者投稿,欢迎任何形式的转载,但请务必注明出处.
同时文章内容如有侵犯了您的权益,请联系QQ:970679559,我们会在尽快处理。