欢迎投稿

今日深度:

Hive进阶,

Hive进阶,


授课对象:

  1. Hadoop高级、具有一定Hadoop系统使用经验
  2. 系统架构师、系统分析师、高级程序员、资深开发人员。
  3. 牵涉到大数据处理的数据中心运行、规划、设计负责人。
  4. 政府机关,金融保险、移动和互联网等大数据来源单位的负责人。
  5. 高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。
  6. 数据仓库管理人员、建模人员,分析人员和开发人员、系统管理人员、数据库管理人员以及对数据仓库感兴趣的其他人员。

 

课程大纲:

第一周:

  • Hive的安装
  • Hive的负载均衡搭建
  • Hive的访问方式
  • Hive的元数据存储到Mysql
  • Hive的数据类型
  • Hive表的创建
  • Hive加载数据
  • Hive的CLI操作介绍

第二周:hive数据定义

  • 内部表和外部表
  • 表的分区
  • 删除表
  • 修改表
  • 查询语句
  • where语句

第三周:Hive高级查询语句

  • group by操作
  • Join操作
  • Order by和Sort by
  • Union all
  • 索引

第四周:Hive的存储类型和复合数据类型

  • TextFile
  • Sequence File
  • RCFile
  • Hive的自定输入格式
  • Array
  • Map
  • Struct

第五周:Hive的内置函数和自定义UDF和UDAF实战

第六周:Hive的调优

  • explain
  • 队列设置
  • Join优化
  • 本地模式和并行执行
  • 设置Mapper和Reducer的个数
  • JVM重用
  • 索引
  • 动态分区调整
  • 推测执行
  • Hive的debug调试

第七周:hive的安全

  • Hive的hadoop安全的整合
  • 使用Hive进行验证
  • Hive的权限管理
  • 分区级别的权限
  • 自定授权

第八周:Hive的案例实战

  • nginx日志实战
  • 某公司的Hive项目

 

主讲人: 刘老师

  1. 就职于某国内领先地图软件公司,负责海量数据云平台架构的搭建、导航数据的处理和地图日志的分析。
  2. 从事3年多的Hadoop开发和维护工作。
    擅长基于Hadoop的海量数据平台的搭建,TB级数据的处理和基于Hadoop的开发和集群的维护。
    擅长MR开发,基于MR的算法开发,Hive、Hbase和Mahout的实战和成功使用案例。
  3. 2010在北京大学软件所参加“核高基”项目8-6课题的高性能EJB容器开发。
  4. 出版物及专利:
    《Hadoop应用开发技术详解》作者。
    《海量数据基于记录级别的容错》专利。

 

下载地址:http://pan.baidu.com/s/1kTvB3Bh

www.htsjk.Com true http://www.htsjk.com/hive/41341.html NewsArticle Hive进阶, 授课对象: Hadoop高级、具有一定Hadoop系统使用经验 系统架构师、系统分析师、高级程序员、资深开发人员。 牵涉到大数据处理的数据中心运行、规划、设计负责人。 政府机...
相关文章
    暂无相关文章
评论暂时关闭