方便自己系统性回忆,根据*的数量来标记重要性

* 简单了解
** 熟悉掌握
*** 需要精通

  1. Hive的介绍(*)
    • Hive和Hadoop的关系
    • Hive的特点
    • Hive的缺点
    • Hive常见的应用场景
    • Hive和mysql的区别
  2. Hive的架构(*)
  3. Hive的数据(**)
    • Hive的数据模型
    • Hive的底层如何存储Null值
    • Hive中元数据metadata和元数据商店metastore)`的作用
    • Hive有哪些保存元数据metadata的方式
    • Hive元数据存储方式中,本地模式和远程模式的区别
    • Hive的数据类型
    • Hive的隐式类型转换规则
    • Hive数据存储所使用的文件格式
    • Hive中使用的压缩算法
    • 什么是数据可分割
    • 关于压缩模式说明
  4. Hive的安装与使用(*)
    • 如何在Hive中集成HBase
    • 如何通过 HiveSQL 来直接读写 HBase
  5. Hive的分区和分桶(**)
    • 什么是Hive分区
    • Hive分区的优点
    • Hive分区的缺点
    • 什么是Hive分桶
    • 关于Hive索引的说明
    • Hive分桶的优点
    • Hive分桶的缺点
    • Hive中静态分区和动态分区的区别
    • Hive动态分区的参数设定
  6. Hive的内部表和外部表(*)
    • 什么是Hive的内部表和外部表
    • Hive内部表和外部表的区别是什么
    • 生产环境中为什么建议使用外部表
  7. Hive SQL(***)
    • Hive中的SQL如何转化成MapReduce的
    • Hive中如何查询A表中B表不存在的数据
    • Hive中有哪些连接查询以及如何使用
    • Hive中左连接和内连接的区别
    • Hive中左连接的底层原理
    • Hive查询时候 ON 和 WHERE 有什么区别
  8. Hive 函数(***)
    • 如何使用UDF/UDAF/UDTF(待完善
    • 为什么使用UDF/UDAF/UDTF(待完善
    • 你写过什么样的UDF/UDAF/UDT(待完善
    • Hive自定义函数实现了什么函数什么接口 (待完善
    • Hive中如何去重
    • Hive中排序函数的使用方式及区别
    • 其他待补充说明的函数(待完善
  9. Hive 运维(*)
    • 如何监控一个提交后的Hive状态
  10. Hive 优化(***)
    • 暂时没完成(待完善

Q.E.D.


Hi!欢迎访问 fx67ll.com 的个人博客站点!Code is my life ~