课程介绍
从安装及配置、负载均衡及调整,以及 诊断和解决部署问题等各方面了解 Hadoop 系统管理员的概念和实践;
面向需要建立或维护 Hadoop 集群的管理员。培训对象要求具备 Linux 基本知识,Hadoop相关知识不作要求。
认证考试
CCA Administrator Exam (CCA131) 管理员认证考试;
考试形式:120分钟;70%通过;基于一个预配置的Cloudera企业版集群,解决8~12个场景下的任务
培训收益
配置静态路由、数据包筛选以及网络地址转换
Hadoop分布式文件系统和MapReduce工作原理
Hadoop集群硬件配置规划
Hadoop集群网络配置规划
Hadoop集群配置及优化
如何配置NameNode HA
任何配置NameNode Federation
任何配置FairScheduler为多用户共享Hadoop集群
任何为Hadoop集群安装和实现基于Kerberos的安全性
如何维护和监测Hadoop集群
如何使用Flume加载动态产生的文件以及使用Sqoop连接关系数据库进行数据导入导出
Hive、Pig和HBase等Hadoop生态系统工具相关的系统管理工作
课程大纲
模块 |
内容 |
Apache Hadoop 介绍 | Hadoop 动机
• 基本概念 • Hadoop 核心部件 Hadoop 机群安装 • 机群管理方案 • Hadoop (CDH) 安装 |
Hadoop 分布式文件系统 (HDFS) | HDFS 特性
• 读写文件 • NameNode 内存考虑 • HDFS 安全简介 • HDFS Web UI |
YARN 上的 MapReduce 和 Spark | 计算平台在 Hadoop 里扮演的角色
• YARN:机群资源管理器 • MapReduce 概念 • Apache Spark 概念 • Yarn 上的计算平台 • YARN Web UI 及 Shell • YARN 应用运行日志 |
Hadoop 配置及服务运行日志 | 定位配置参数及进行配置变更
• 管理角色实例及添加服务 • 配置 HDFS 服务 • 配置 Hadoop 服务运行日志 • 配置 YARN 服务 |
向 HDFS 导入数据 | 使用 Flume 从外部数据源实时导入数据
• 使用 Sqoop 从关系数据库导入数据 • REST 接口 • 导入数据的最佳实践 |
Hadoop 机群规划 | 规划考虑因素
• 硬件选择 • 虚拟化选项 • 网络因素 • 节点配置 |
Hive,Impala 及 Pig 的安装及配置 | Hive
• Impala • Pig Hadoop |
客户端及 Hue | 什么是 Hadoop 客户端
• 安装及配置 Hadoop 客户端 • 安装及配置 Hue • 使用 Hue 进行身份验证及授权 |
机群高级配置
|
高级配置参数
• Hadoop 端口配置 • HDFS 机柜感知配置 • HDFS 高可靠性配置 |
Hadoop 安全 | Hadoop 安全的重要性
• Hadoop 安全性概念 • Kerberos 简介 • 使用 Kerberos 保护 Hadoop 机群 • 其他安全特性 |
资源管理 | 使用静态服务池配置 Linux cgroup
• 公平调度器 • 配置动态资源池 • YARN 内存及 CPU 设置 • Impala 查询调度 |
机群维护,监控及排错 | 检查 HDFS 状态
• 机群间复制数据 • 添加/移除机群节点 • 机群数据负载平衡 • 目录快照 • 机群升级 • Hadoop 机群排错 • 常见配置不当问题 |