您当前的位置:首页 > 大数据科学与应用丛书 Hadoop大数据实战权威指南 黄东军 2017年版 > 下载地址1
大数据科学与应用丛书 Hadoop大数据实战权威指南 黄东军 2017年版
- 名 称:大数据科学与应用丛书 Hadoop大数据实战权威指南 黄东军 2017年版 - 下载地址1
- 类 别:计算机与网络
- 下载地址:[下载地址1]
- 提 取 码:
- 浏览次数:3
新闻评论(共有 0 条评论) |
资料介绍
大数据科学与应用丛书 Hadoop大数据实战权威指南
作者:黄东军
出版时间:2017年版
丛编项: 大数据科学与应用丛书
内容简介
大数据贵在落实!本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就的部分销售数据应用大数据进行处理分析。
目录
目 录
第一篇 大数据的基本概念和技术
第1章 绪论/t3
1.1 时代背景/t3
1.1.1 全球大数据浪潮/t3
1.1.2 我国的大数据国家战略/t5
1.2 大数据的概念/t7
1.2.1 概念/t7
1.2.2 特征/t8
1.3 技术支撑体系/t9
1.3.1 概览/t9
1.3.2 大数据采集层/t9
1.3.3 大数据存储层/t10
1.3.4 大数据分析(处理与服务)层/t11
1.3.5 大数据应用层/t11
1.3.6 垂直视图/t13
1.4 大数据人才及其能力要求/t14
1.4.1 首席数据官/t14
1.4.2 数据科学家(数据分析师)/t15
1.4.3 大数据开发工程师/t16
1.4.4 大数据运维工程师/t17
1.5 本章小结/t17
第2章 Hadoop大数据关键技术/t19
2.1 Hadoop生态系统/t19
2.1.1 架构的基本理论/t19
2.1.2 主要组件及其关系/t21
2.2 数据采集/t24
2.2.1 结构化数据采集工具/t24
2.2.2 日志文件采集工具与技术/t25
2.3 大数据存储技术/t29
2.3.1 相关概念/t29
2.3.2 分布式文件存储系统/t34
2.3.3 数据库与数据仓库/t38
2.4 分布式计算框架/t43
2.4.1 离线计算框架/t43
2.4.2 实时流计算平台/t50
2.5 数据分析平台与工具/t57
2.5.1 面向大数据的数据挖掘与分析工具/t57
2.5.2 机器学习/t61
2.6 本章小结/t66
第二篇 Hadoop大数据平台搭建与基本应用
第3章 Linux操作系统与集群搭建/t69
3.1 Linux操作系统/t69
3.1.1 概述/t69
3.1.2 特点/t70
3.1.3 Linux的组成/t72
3.2 Linux安装与集群搭建/t75
3.2.1 安装VMware Workstation/t75
3.2.2 在VMware上安装Linux(CentOS7)/t79
3.3 集群的配置/t91
3.3.1 设置主机名/t91
3.3.2 网络设置/t93
3.3.3 关闭防火墙/t98
3.3.4 安装JDK/t99
3.3.5 免密钥登录配置/t102
3.4 Linux基本命令/t105
3.5 本章小结/t112
第4章 HDFS安装与基本应用/t113
4.1 HDFS概述/t113
4.1.1 特点/t113
4.1.2 主要组件与架构/t114
4.2 HDFS架构分析/t114
4.2.1 数据块/t114
4.2.2 NameNode/t115
4.2.3 DataNode/t116
4.2.4 SecondaryNameNode/t117
4.2.5 数据备份/t117
4.2.6 通信协议/t118
4.2.7 可靠性保证/t118
4.3 文件操作过程分析/t119
4.3.1 读文件/t119
4.3.2 写文件/t120
4.3.3 删除文件/t122
4.4 Hadoop HDFS安装与配置/t122
4.4.1 解压Hadoop安装包/t122
4.4.2 配置Hadoop环境变量/t123
4.4.3 配置Yarn环境变量/t124
4.4.4 配置核心组件文件/t125
4.4.5 配置文件系统/t125
4.4.6 配置yarn-site.xml文件/t126
4.4.7 配置MapReduce计算框架文件/t128
4.4.8 配置Master的slaves文件/t129
4.4.9 复制Master上的Hadoop到Slave节点/t129
4.5 Hadoop集群的启动/t130
4.5.1 配置操作系统环境变量/t130
4.5.2 创建Hadoop数据目录/t131
4.5.3 格式化文件系统/t132
4.5.4 启动和关闭Hadoop/t133
4.5.5 验证Hadoop是否启动成功/t133
4.6 Hadoop集群的基本应用/t136
4.6.1 HDFS基本命令/t136
4.6.2 在Hadoop集群中运行程序/t139
4.7 本章小结/t141
第5章 MapReduce与Yarn/t143
5.1 MapReduce程序的概念/t143
5.1.1 基本编程模型/t143
5.1.2 计算过程分析/t144
5.2 深入理解Yarn/t147
5.2.1 Yarn的基本架构/t147
5.2.2 Yarn的工作流程/t151
5.3 在Linux平台安装Eclipse/t152
5.3.1 Eclipse简介/t153
5.3.2 安装并启动Eclipse/t154
5.4 开发MapReduce程序的基本方法/t155
5.4.1 为Eclipse安装Hadoop插件/t156
5.4.2 WordCount:第一个MapReduce程序/t160
5.5 本章小结/t175
第6章 Hive和HBase的安装与应用/t177
6.1 在CentOS7下安装MySQL/t177
6.1.1 下载或复制MySQL安装包/t177
6.1.2 执行安装命令/t178
6.1.3 启动MySQL/t179
6.1.4 登录MySQL/t179
6.1.5 使用MySQL/t181
6.1.6 问题与解决办法/t182
6.2 Hive安装与应用/t183
6.2.1 下载并解压Hive安装包/t183
6.2.2 配置Hive/t184
6.2.3 启动并验证Hive/t187
6.2.4 Hive的基本应用/t189
6.3 ZooKeeper集群安装/t190
6.3.1 ZooKeeper简介/t190
6.3.2 安装ZooKeeper/t191
6.3.3 配置ZooKeeper/t191
6.3.4 启动和测试/t193
6.4 HBase的安装与应用/t195
6.4.1 解压并安装HBase/t195
6.4.2 配置HBase/t196
6.4.3 启动并验证HBase/t199
6.4.4 HBase的基本应用/t200
6.4.5 应用HBase中常见问题及其解决办法/t203
6.5 本章小结/t204
第7章 Sqoop和Kafka的安装与应用/t205
7.1 安装部署Sqoop/t205
7.1.1 下载或复制Sqoop安装包/t205
7.1.2 解压并安装Sqoop/t206
7.1.3 配置Sqoop/t206
7.1.4 启动并验证Sqoop/t208
7.1.5 测试Sqoop与MySQL的连接/t209
7.2 安装部署Kafka集群/t211
7.2.1 下载或复制Kafka安装包/t211
7.2.2 解压缩Kafka安装包/t211
7.2.3 配置Kafka集群/t211
7.2.4 Kafka的初步应用/t213
7.3 本章小结/t218
第8章 Spark集群安装与开发环境配置/t219
8.1 深入理解Spark/t219
8.1.1 Spark系统架构/t219
8.1.2 关键概念/t221
8.2 安装与配置Scala/t224
8.2.1 下载Scala安装包/t225
8.2.2 安装Scala/t225
8.2.3 启动并应用Scala/t226
8.3 Spark集群的安装与配置/t226
8.3.1 安装模式/t226
8.3.2 Spark的安装/t227
8.3.3 启动并验证Spark/t230
8.3.4 几点说明/t234
8.4 开发环境安装与配置/t236
8.4.1 IDEA简介/t236
8.4.2 IDEA的安装/t236
8.4.3 IDEA的配置/t238
8.5 本章小结/t243
第9章 Spark应用基础/t245
9.1 Spark程序的运行模式/t245
9.1.1 Spark on Yarn-cluster/t245
9.1.2 Spark on Yarn-client/t246
9.2 Spark应用设计/t247
9.2.1 分布式估算圆周率/t248
9.2.2 基于Spark MLlib的贷款风险预测/t265
9.3 本章小结/t285
第三篇 数据处理与项目开发术
第10章 交互式数据处理/t289
10.1 数据预处理/t289
10.1.1 查看数据/t289
10.1.2 数据扩展/t291
10.1.3 数据过滤/t292
10.1.4 数据上传/t293
10.2 创建数据仓库/t294
10.2.1 创建Hive数据仓库的基本命令/t294
10.2.2 创建Hive分区表/t296
10.3 数据分析/t299
10.3.1 基本统计/t299
10.3.2 用户行为分析/t301
10.3.3 实时数据/t303
10.4 本章小结/t304
第11章 协同过滤推荐系统/t305
11.1 推荐算法概述/t305
11.1.1 基于人口统计学的推荐/t305
11.1.2 基于内容的推荐/t306
11.1.3 协同过滤推荐/t307
11.2 协同过滤推荐算法分析/t308
11.2.1 基于用户的协同过滤推荐/t308
11.2.2 基于物品的协同过滤推荐/t310
11.3 Spark MLlib推荐算法应用/t312
11.3.1 ALS算法原理/t312
11.3.2 ALS的应用设计/t315
11.4 本章小结/t329
第12章 销售数据分析系统/t331
12.1 数据采集/t331
12.1.1 在Windows下安装JDK/t331
12.1.2 在Windows下安装Eclipse/t334
12.1.3 将WebCollector项目导入Eclipse/t335
12.1.4 在Windows下安装MySQL/t336
12.1.5 连接JDBC/t339
12.1.6 运行爬虫程序/t340
12.2 在HBase集群上准备数据/t342
12.2.1 将数据导入到MySQL/t342
12.2.2 将MySQL表中的数据导入到HBase表中/t344
12.3 安装Phoenix中间件/t347
12.3.1 Phoenix架构/t347
12.3.2 解压安装Phoenix/t348
12.3.3 Phoenix环境配置/t349
12.3.4 使用Phoenix/t350
12.4 基于Web的前端开发/t353
12.4.1 将Web前端项目导入Eclipse/t353
12.4.2 安装Tomcat/t355
12.4.3 在Eclipse中配置Tomcat/t355
12.4.4 在Web浏览器中查看执行结果/t359
12.5 本章小结/t361
作者:黄东军
出版时间:2017年版
丛编项: 大数据科学与应用丛书
内容简介
大数据贵在落实!本书是一本讲解大数据实战的图书,按照“深入分析组件原理、充分展示搭建过程、详细指导应用开发”编写。全书分为三篇,第一篇为大数据的基本概念和技术,主要介绍大数据的背景、发展及关键技术;第二篇为Hadoop大数据平台搭建与基本应用,内容涉及Linux、HDFS、MapReduce、YARN、Hive、HBase、Sqoop、Kafk、Spark等;第三篇为大数据处理与项目开发,包括交互式数据处理、协同过滤推荐系统、销售数据分析系统,并就的部分销售数据应用大数据进行处理分析。
目录
目 录
第一篇 大数据的基本概念和技术
第1章 绪论/t3
1.1 时代背景/t3
1.1.1 全球大数据浪潮/t3
1.1.2 我国的大数据国家战略/t5
1.2 大数据的概念/t7
1.2.1 概念/t7
1.2.2 特征/t8
1.3 技术支撑体系/t9
1.3.1 概览/t9
1.3.2 大数据采集层/t9
1.3.3 大数据存储层/t10
1.3.4 大数据分析(处理与服务)层/t11
1.3.5 大数据应用层/t11
1.3.6 垂直视图/t13
1.4 大数据人才及其能力要求/t14
1.4.1 首席数据官/t14
1.4.2 数据科学家(数据分析师)/t15
1.4.3 大数据开发工程师/t16
1.4.4 大数据运维工程师/t17
1.5 本章小结/t17
第2章 Hadoop大数据关键技术/t19
2.1 Hadoop生态系统/t19
2.1.1 架构的基本理论/t19
2.1.2 主要组件及其关系/t21
2.2 数据采集/t24
2.2.1 结构化数据采集工具/t24
2.2.2 日志文件采集工具与技术/t25
2.3 大数据存储技术/t29
2.3.1 相关概念/t29
2.3.2 分布式文件存储系统/t34
2.3.3 数据库与数据仓库/t38
2.4 分布式计算框架/t43
2.4.1 离线计算框架/t43
2.4.2 实时流计算平台/t50
2.5 数据分析平台与工具/t57
2.5.1 面向大数据的数据挖掘与分析工具/t57
2.5.2 机器学习/t61
2.6 本章小结/t66
第二篇 Hadoop大数据平台搭建与基本应用
第3章 Linux操作系统与集群搭建/t69
3.1 Linux操作系统/t69
3.1.1 概述/t69
3.1.2 特点/t70
3.1.3 Linux的组成/t72
3.2 Linux安装与集群搭建/t75
3.2.1 安装VMware Workstation/t75
3.2.2 在VMware上安装Linux(CentOS7)/t79
3.3 集群的配置/t91
3.3.1 设置主机名/t91
3.3.2 网络设置/t93
3.3.3 关闭防火墙/t98
3.3.4 安装JDK/t99
3.3.5 免密钥登录配置/t102
3.4 Linux基本命令/t105
3.5 本章小结/t112
第4章 HDFS安装与基本应用/t113
4.1 HDFS概述/t113
4.1.1 特点/t113
4.1.2 主要组件与架构/t114
4.2 HDFS架构分析/t114
4.2.1 数据块/t114
4.2.2 NameNode/t115
4.2.3 DataNode/t116
4.2.4 SecondaryNameNode/t117
4.2.5 数据备份/t117
4.2.6 通信协议/t118
4.2.7 可靠性保证/t118
4.3 文件操作过程分析/t119
4.3.1 读文件/t119
4.3.2 写文件/t120
4.3.3 删除文件/t122
4.4 Hadoop HDFS安装与配置/t122
4.4.1 解压Hadoop安装包/t122
4.4.2 配置Hadoop环境变量/t123
4.4.3 配置Yarn环境变量/t124
4.4.4 配置核心组件文件/t125
4.4.5 配置文件系统/t125
4.4.6 配置yarn-site.xml文件/t126
4.4.7 配置MapReduce计算框架文件/t128
4.4.8 配置Master的slaves文件/t129
4.4.9 复制Master上的Hadoop到Slave节点/t129
4.5 Hadoop集群的启动/t130
4.5.1 配置操作系统环境变量/t130
4.5.2 创建Hadoop数据目录/t131
4.5.3 格式化文件系统/t132
4.5.4 启动和关闭Hadoop/t133
4.5.5 验证Hadoop是否启动成功/t133
4.6 Hadoop集群的基本应用/t136
4.6.1 HDFS基本命令/t136
4.6.2 在Hadoop集群中运行程序/t139
4.7 本章小结/t141
第5章 MapReduce与Yarn/t143
5.1 MapReduce程序的概念/t143
5.1.1 基本编程模型/t143
5.1.2 计算过程分析/t144
5.2 深入理解Yarn/t147
5.2.1 Yarn的基本架构/t147
5.2.2 Yarn的工作流程/t151
5.3 在Linux平台安装Eclipse/t152
5.3.1 Eclipse简介/t153
5.3.2 安装并启动Eclipse/t154
5.4 开发MapReduce程序的基本方法/t155
5.4.1 为Eclipse安装Hadoop插件/t156
5.4.2 WordCount:第一个MapReduce程序/t160
5.5 本章小结/t175
第6章 Hive和HBase的安装与应用/t177
6.1 在CentOS7下安装MySQL/t177
6.1.1 下载或复制MySQL安装包/t177
6.1.2 执行安装命令/t178
6.1.3 启动MySQL/t179
6.1.4 登录MySQL/t179
6.1.5 使用MySQL/t181
6.1.6 问题与解决办法/t182
6.2 Hive安装与应用/t183
6.2.1 下载并解压Hive安装包/t183
6.2.2 配置Hive/t184
6.2.3 启动并验证Hive/t187
6.2.4 Hive的基本应用/t189
6.3 ZooKeeper集群安装/t190
6.3.1 ZooKeeper简介/t190
6.3.2 安装ZooKeeper/t191
6.3.3 配置ZooKeeper/t191
6.3.4 启动和测试/t193
6.4 HBase的安装与应用/t195
6.4.1 解压并安装HBase/t195
6.4.2 配置HBase/t196
6.4.3 启动并验证HBase/t199
6.4.4 HBase的基本应用/t200
6.4.5 应用HBase中常见问题及其解决办法/t203
6.5 本章小结/t204
第7章 Sqoop和Kafka的安装与应用/t205
7.1 安装部署Sqoop/t205
7.1.1 下载或复制Sqoop安装包/t205
7.1.2 解压并安装Sqoop/t206
7.1.3 配置Sqoop/t206
7.1.4 启动并验证Sqoop/t208
7.1.5 测试Sqoop与MySQL的连接/t209
7.2 安装部署Kafka集群/t211
7.2.1 下载或复制Kafka安装包/t211
7.2.2 解压缩Kafka安装包/t211
7.2.3 配置Kafka集群/t211
7.2.4 Kafka的初步应用/t213
7.3 本章小结/t218
第8章 Spark集群安装与开发环境配置/t219
8.1 深入理解Spark/t219
8.1.1 Spark系统架构/t219
8.1.2 关键概念/t221
8.2 安装与配置Scala/t224
8.2.1 下载Scala安装包/t225
8.2.2 安装Scala/t225
8.2.3 启动并应用Scala/t226
8.3 Spark集群的安装与配置/t226
8.3.1 安装模式/t226
8.3.2 Spark的安装/t227
8.3.3 启动并验证Spark/t230
8.3.4 几点说明/t234
8.4 开发环境安装与配置/t236
8.4.1 IDEA简介/t236
8.4.2 IDEA的安装/t236
8.4.3 IDEA的配置/t238
8.5 本章小结/t243
第9章 Spark应用基础/t245
9.1 Spark程序的运行模式/t245
9.1.1 Spark on Yarn-cluster/t245
9.1.2 Spark on Yarn-client/t246
9.2 Spark应用设计/t247
9.2.1 分布式估算圆周率/t248
9.2.2 基于Spark MLlib的贷款风险预测/t265
9.3 本章小结/t285
第三篇 数据处理与项目开发术
第10章 交互式数据处理/t289
10.1 数据预处理/t289
10.1.1 查看数据/t289
10.1.2 数据扩展/t291
10.1.3 数据过滤/t292
10.1.4 数据上传/t293
10.2 创建数据仓库/t294
10.2.1 创建Hive数据仓库的基本命令/t294
10.2.2 创建Hive分区表/t296
10.3 数据分析/t299
10.3.1 基本统计/t299
10.3.2 用户行为分析/t301
10.3.3 实时数据/t303
10.4 本章小结/t304
第11章 协同过滤推荐系统/t305
11.1 推荐算法概述/t305
11.1.1 基于人口统计学的推荐/t305
11.1.2 基于内容的推荐/t306
11.1.3 协同过滤推荐/t307
11.2 协同过滤推荐算法分析/t308
11.2.1 基于用户的协同过滤推荐/t308
11.2.2 基于物品的协同过滤推荐/t310
11.3 Spark MLlib推荐算法应用/t312
11.3.1 ALS算法原理/t312
11.3.2 ALS的应用设计/t315
11.4 本章小结/t329
第12章 销售数据分析系统/t331
12.1 数据采集/t331
12.1.1 在Windows下安装JDK/t331
12.1.2 在Windows下安装Eclipse/t334
12.1.3 将WebCollector项目导入Eclipse/t335
12.1.4 在Windows下安装MySQL/t336
12.1.5 连接JDBC/t339
12.1.6 运行爬虫程序/t340
12.2 在HBase集群上准备数据/t342
12.2.1 将数据导入到MySQL/t342
12.2.2 将MySQL表中的数据导入到HBase表中/t344
12.3 安装Phoenix中间件/t347
12.3.1 Phoenix架构/t347
12.3.2 解压安装Phoenix/t348
12.3.3 Phoenix环境配置/t349
12.3.4 使用Phoenix/t350
12.4 基于Web的前端开发/t353
12.4.1 将Web前端项目导入Eclipse/t353
12.4.2 安装Tomcat/t355
12.4.3 在Eclipse中配置Tomcat/t355
12.4.4 在Web浏览器中查看执行结果/t359
12.5 本章小结/t361