大数据科学与应用丛书 Hadoop大数据实战权威指南 作者:黄东军 出版时间:2017年版丛编项: 大数据科学与应用丛书内容简介 大数据贵在落实!本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就的部分销售数据应用大数据进行处理分析。目录目 录第一篇 大数据的基本概念和技术第1章 绪论/t31.1 时代背景/t31.1.1 全球大数据浪潮/t31.1.2 我国的大数据国家战略/t51.2 大数据的概念/t71.2.1 概念/t71.2.2 特征/t81.3 技术支撑体系/t91.3.1 概览/t91.3.2 大数据采集层/t91.3.3 大数据存储层/t101.3.4 大数据分析(处理与服务)层/t111.3.5 大数据应用层/t111.3.6 垂直视图/t131.4 大数据人才及其能力要求/t141.4.1 首席数据官/t141.4.2 数据科学家(数据分析师)/t151.4.3 大数据开发工程师/t161.4.4 大数据运维工程师/t171.5 本章小结/t17第2章 Hadoop大数据关键技术/t192.1 Hadoop生态系统/t192.1.1 架构的基本理论/t192.1.2 主要组件及其关系/t212.2 数据采集/t242.2.1 结构化数据采集工具/t242.2.2 日志文件采集工具与技术/t252.3 大数据存储技术/t292.3.1 相关概念/t292.3.2 分布式文件存储系统/t342.3.3 数据库与数据仓库/t382.4 分布式计算框架/t432.4.1 离线计算框架/t432.4.2 实时流计算平台/t502.5 数据分析平台与工具/t572.5.1 面向大数据的数据挖掘与分析工具/t572.5.2 机器学习/t612.6 本章小结/t66第二篇 Hadoop大数据平台搭建与基本应用第3章 Linux操作系统与集群搭建/t693.1 Linux操作系统/t693.1.1 概述/t693.1.2 特点/t703.1.3 Linux的组成/t723.2 Linux安装与集群搭建/t753.2.1 安装VMware Workstation/t753.2.2 在VMware上安装Linux(CentOS7)/t793.3 集群的配置/t913.3.1 设置主机名/t913.3.2 网络设置/t933.3.3 关闭防火墙/t983.3.4 安装JDK/t993.3.5 免密钥登录配置/t1023.4 Linux基本命令/t1053.5 本章小结/t112第4章 HDFS安装与基本应用/t1134.1 HDFS概述/t1134.1.1 特点/t1134.1.2 主要组件与架构/t1144.2 HDFS架构分析/t1144.2.1 数据块/t1144.2.2 NameNode/t1154.2.3 DataNode/t1164.2.4 SecondaryNameNode/t1174.2.5 数据备份/t1174.2.6 通信协议/t1184.2.7 可靠性保证/t1184.3 文件操作过程分析/t1194.3.1 读文件/t1194.3.2 写文件/t1204.3.3 删除文件/t1224.4 Hadoop HDFS安装与配置/t1224.4.1 解压Hadoop安装包/t1224.4.2 配置Hadoop环境变量/t1234.4.3 配置Yarn环境变量/t1244.4.4 配置核心组件文件/t1254.4.5 配置文件系统/t1254.4.6 配置yarn-site.xml文件/t1264.4.7 配置MapReduce计算框架文件/t1284.4.8 配置Master的slaves文件/t1294.4.9 复制Master上的Hadoop到Slave节点/t1294.5 Hadoop集群的启动/t1304.5.1 配置操作系统环境变量/t1304.5.2 创建Hadoop数据目录/t1314.5.3 格式化文件系统/t1324.5.4 启动和关闭Hadoop/t1334.5.5 验证Hadoop是否启动成功/t1334.6 Hadoop集群的基本应用/t1364.6.1 HDFS基本命令/t1364.6.2 在Hadoop集群中运行程序/t1394.7 本章小结/t141第5章 MapReduce与Yarn/t1435.1 MapReduce程序的概念/t1435.1.1 基本编程模型/t1435.1.2 计算过程分析/t1445.2 深入理解Yarn/t1475.2.1 Yarn的基本架构/t1475.2.2 Yarn的工作流程/t1515.3 在Linux平台安装Eclipse/t1525.3.1 Eclipse简介/t1535.3.2 安装并启动Eclipse/t1545.4 开发MapReduce程序的基本方法/t1555.4.1 为Eclipse安装Hadoop插件/t1565.4.2 WordCount:第一个MapReduce程序/t1605.5 本章小结/t175第6章 Hive和HBase的安装与应用/t1776.1 在CentOS7下安装MySQL/t1776.1.1 下载或复制MySQL安装包/t1776.1.2 执行安装命令/t1786.1.3 启动MySQL/t1796.1.4 登录MySQL/t1796.1.5 使用MySQL/t1816.1.6 问题与解决办法/t1826.2 Hive安装与应用/t1836.2.1 下载并解压Hive安装包/t1836.2.2 配置Hive/t1846.2.3 启动并验证Hive/t1876.2.4 Hive的基本应用/t1896.3 ZooKeeper集群安装/t1906.3.1 ZooKeeper简介/t1906.3.2 安装ZooKeeper/t1916.3.3 配置ZooKeeper/t1916.3.4 启动和测试/t1936.4 HBase的安装与应用/t1956.4.1 解压并安装HBase/t1956.4.2 配置HBase/t1966.4.3 启动并验证HBase/t1996.4.4 HBase的基本应用/t2006.4.5 应用HBase中常见问题及其解决办法/t2036.5 本章小结/t204第7章 Sqoop和Kafka的安装与应用/t2057.1 安装部署Sqoop/t2057.1.1 下载或复制Sqoop安装包/t2057.1.2 解压并安装Sqoop/t2067.1.3 配置Sqoop/t2067.1.4 启动并验证Sqoop/t2087.1.5 测试Sqoop与MySQL的连接/t2097.2 安装部署Kafka集群/t2117.2.1 下载或复制Kafka安装包/t2117.2.2 解压缩Kafka安装包/t2117.2.3 配置Kafka集群/t2117.2.4 Kafka的初步应用/t2137.3 本章小结/t218第8章 Spark集群安装与开发环境配置/t2198.1 深入理解Spark/t2198.1.1 Spark系统架构/t2198.1.2 关键概念/t2218.2 安装与配置Scala/t2248.2.1 下载Scala安装包/t2258.2.2 安装Scala/t2258.2.3 启动并应用Scala/t2268.3 Spark集群的安装与配置/t2268.3.1 安装模式/t2268.3.2 Spark的安装/t2278.3.3 启动并验证Spark/t2308.3.4 几点说明/t2348.4 开发环境安装与配置/t2368.4.1 IDEA简介/t2368.4.2 IDEA的安装/t2368.4.3 IDEA的配置/t2388.5 本章小结/t243第9章 Spark应用基础/t2459.1 Spark程序的运行模式/t2459.1.1 Spark on Yarn-cluster/t2459.1.2 Spark on Yarn-client/t2469.2 Spark应用设计/t2479.2.1 分布式估算圆周率/t2489.2.2 基于Spark MLlib的贷款风险预测/t2659.3 本章小结/t285第三篇 数据处理与项目开发术第10章 交互式数据处理/t28910.1 数据预处理/t28910.1.1 查看数据/t28910.1.2 数据扩展/t29110.1.3 数据过滤/t29210.1.4 数据上传/t29310.2 创建数据仓库/t29410.2.1 创建Hive数据仓库的基本命令/t29410.2.2 创建Hive分区表/t29610.3 数据分析/t29910.3.1 基本统计/t29910.3.2 用户行为分析/t30110.3.3 实时数据/t30310.4 本章小结/t304第11章 协同过滤推荐系统/t30511.1 推荐算法概述/t30511.1.1 基于人口统计学的推荐/t30511.1.2 基于内容的推荐/t30611.1.3 协同过滤推荐/t30711.2 协同过滤推荐算法分析/t30811.2.1 基于用户的协同过滤推荐/t30811.2.2 基于物品的协同过滤推荐/t31011.3 Spark MLlib推荐算法应用/t31211.3.1 ALS算法原理/t31211.3.2 ALS的应用设计/t31511.4 本章小结/t329第12章 销售数据分析系统/t33112.1 数据采集/t33112.1.1 在Windows下安装JDK/t33112.1.2 在Windows下安装Eclipse/t33412.1.3 将WebCollector项目导入Eclipse/t33512.1.4 在Windows下安装MySQL/t33612.1.5 连接JDBC/t33912.1.6 运行爬虫程序/t34012.2 在HBase集群上准备数据/t34212.2.1 将数据导入到MySQL/t34212.2.2 将MySQL表中的数据导入到HBase表中/t34412.3 安装Phoenix中间件/t34712.3.1 Phoenix架构/t34712.3.2 解压安装Phoenix/t34812.3.3 Phoenix环境配置/t34912.3.4 使用Phoenix/t35012.4 基于Web的前端开发/t35312.4.1 将Web前端项目导入Eclipse/t35312.4.2 安装Tomcat/t35512.4.3 在Eclipse中配置Tomcat/t35512.4.4 在Web浏览器中查看执行结果/t35912.5 本章小结/t361 上一篇: 内容算法:把内容变成价值的效率系统 闫泽华 2018年版 下一篇: 数字与网络生活导论 陈悦丽主编 2015年版