Hadoop技术详解作者:(美)萨默 著,刘敏,麦耀锋,李冀蕾 等译出版时间:2013丛编项: "十二五"国家重点图书出版规划项目内容简介 Hadoop正在成为数据中心进行大型数据处理的实际标准,但市场中却一直缺少关于它的详细操作说明书Hadoop技术详解/“十二五”国家重点图书出版规划项目》作者EricSammer系Cloudera公司的首席架构师,全书将从计划、安装、配置Hadoop系统开始讲起,一直深入到系统调试、维护等方面的知识,向读者展示了Hadoop生产运行环境的详细情况。同时,《Hadoop技术详解/“十二五”国家重点图书出版规划项目》并不只是简述所有的操作工序,而是突出示范了关键部署中的关键操作。Hadoop技术详解/“十二五”国家重点图书出版规划项目》适合对大数据感兴趣的爱好者以及正在使用Hadoop系统的数据库管理员阅读使用。目录第1章 简介第2章 HDFS2.1 目标和动机2.2 设计2.3 守护进程2.4 读写数据2.4.1 数据读取流程2.4.2 数据写操作流程2.5 管理文件系统元数据2.6 NameNode的高可用性2.7 NameNode联盟2.8 访问与集成2.8.1 命令行工具2.8.2 用户空间文件系统(FUSE)2.8.3 表示状态传输(REST)的支持第3章 MapReduce3.1 MapReduce的若干阶段3.2 Hadoop MapReduce简介3.2.1 后台程序3.2.2 出错处理3.3 YARN第4章 规划一个Hadoop集群4.1 挑选Hadoop的发行版本4.1.1 Apache Hadoop4.1.2 Cloudera的Apache Hadoop发行版本4.1.3 版本和功能4.1.4 我应该使用哪个版本4.2 硬件选型4.2.1 主节点硬件的选择4.2.2 工作节点的硬件选择4.2.3 集群的大小4.2.4 刀片服务器、存储区域网络(SAN)和虚拟化4.3 操作系统的选择和准备4.3.1 部署规划4.3.2 软件4.3.3 主机名、DNS和标识4.3.4 用户、组和特权4.4 内核调整4.4.1 vm.swappiness4.4.2 vm.overcommit_memory4.5 磁盘配置4.5.1 选择文件系统4.5.2 挂载选项4.6 网络设计4.6.1 Hadoop中的网络使用:回顾4.6.2 1 Gb与10 Gb网络4.6.3 典型的网络拓扑第5章 安装和配置5.1 安装Hadoop5.1.1 Apache Hadoop5.1.2 CDH5.2 配置概述5.3 环境变量和Shell脚本5.4 日志配置5.5 HDFS5.5.1 识别和定位5.5.2 优化与调整5.5.3 格式化NameNode5.5.4 创建/tmp目录5.6 NameNode的高可靠性5.6.1 隔离(Fencing)选项5.6.2 基本配置5.6.3 自动失效备援配置5.6.4 格式化和引导NameNode启动5.7 NameNode联盟(Federation)5.8 MapReduce5.8.1 识别和定位5.8.2 优化和调整5.9 机架拓扑5.10 安全第6章 用户标识、身份验证和授权6.1 用户标识6.2 Kerberos和Hadoop6.2.1 Kerberos6.2.2 Hadoop上的Kerberos支持6.3 授权6.3.1 HDFS6.3.2 MapReduce6.3.3 其他工具和系统6.4 集成试试第7章 资源管理7.1 何谓资源管理7.2 HDFS配额7.3 MapReduce 调度器7.3.1 先进先出(FIFO)调度器7.3.2 公平调度器7.3.3 计算能力调度器(Capacity Scheduler)7.3.4 未来发展第8章 集群维护8.1 Hadoop流程管理8.1.1 用初始化脚本管理进程8.1.2 手动管理进程8.2 HDFS维护任务8.2.1 添加一个DataNode8.2.2 卸载DataNode8.2.3 用fsck来检查文件系统的一致性8.2.4 HDFS块数据均衡8.2.5 处理坏磁盘8.3 MapReduce维护任务8.3.1 添加tasktracker8.3.2 卸载tasktracker8.3.3 终结MapReduce 作业8.3.4 终结MapReduce任务8.3.5 处理列入黑名单的tasktracker第9章 故障分析与排查9.1 鉴别诊断(Differential Diagnosis)9.2 故障和问题9.2.1 人类(自己)9.2.2 配置错误9.2.3 硬件故障9.2.4 资源枯竭9.2.5 主机标识和命名9.2.6 网络分区9.3 “计算机插好了么?”9.4 治疗和护理9.5 实战案例9.5.1 神秘的瓶颈9.5.2 127.0.0.1这个地址不存在第10章 监控10.1 概览10.2 Hadoop度量(Metrics)10.2.1 Apache Hadoop 0.20.0和CDH3 (metrics1)10.2.2 Apache Hadoop 0.20.203及之后的版本、CDH4(metrics2)10.2.3 SNMP10.3 健康监控10.3.1 主机级别的检查10.3.2 所有Hadoop进程10.3.3 HDFS检查10.3.4 MapReduce检查第11章 备份与恢复11.1 数据备份11.1.1 分布式拷贝(distcp)11.1.2 并行提取数据11.2 NameNode元数据附录 弃用的配置属性 上一篇: 数据仓库与数据挖掘 下一篇: 大数据时代的商业建模