您当前的位置:首页 > 图解Spark 核心技术与案例实战 > 下载地址2
图解Spark 核心技术与案例实战
- 名 称:图解Spark 核心技术与案例实战 - 下载地址2
- 类 别:计算机与网络
- 下载地址:[下载地址2]
- 提 取 码:
- 浏览次数:3
新闻评论(共有 0 条评论) |
资料介绍
图解Spark 核心技术与案例实战
出版时间:2017
内容简介
本书以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。本书从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外本书还应用了大量的图表进行说明,通过这种方式让读者能够更加直观地理解Spark 相关原理。
目录
第1章 Spark及其生态圈概述/t
1.1 Spark简介/t
1.1.1 什么是Spark/t
1.1.2 Spark与MapReduce比较/t
1.1.3 Spark的演进路线图/t
1.2 Spark生态系统/t
1.2.1 Spark Core/t
1.2.2 Spark Streaming/t
1.2.3 Spark SQL/t
1.2.4 BlinkDB/t
1.2.5 MLBase/MLlib/t
1.2.6 GraphX/t
1.2.7 SparkR/t
1.2.8 Alluxio/t
1.3 小结/t
第2章 搭建Spark实战环境/t
2.1 基础环境搭建/t
2.1.1 搭建集群样板机/t
2.1.2 配置集群环境/t
2.2 编译Spark源代码/t
2.2.1 配置Spark编译环境/t
2.2.2 使用Maven编译Spark/t
2.2.3 使用SBT编译Spark/t
2.2.4 生成Spark部署包/t
2.3 搭建Spark运行集群/t
2.3.1 修改配置文件/t
2.3.2 启动Spark/t
2.3.3 验证启动/t
2.3.4 第一个实例/t
2.4 搭建Spark实战开发环境/t
2.4.1 CentOS中部署IDEA/t
2.4.2 使用IDEA开发程序/t
2.4.3 使用IDEA阅读源代码/t
2.5 小结/t
第二篇 核心篇
第3章 Spark编程模型/t
3.1 RDD概述/t
3.1.1 背景/t
3.1.2 RDD简介/t
3.1.3 RDD的类型/t
3.2 RDD的实现/t
3.2.1 作业调度/t
3.2.2 解析器集成/t
3.2.3 内存管理/t
3.2.4 检查点支持/t
3.2.5 多用户管理/t
3.3 编程接口/t
3.3.1 RDD分区(Partitions)/t
3.3.2 RDD首选位置(PreferredLocations)/t
3.3.3 RDD依赖关系(Dependencies)/t
3.3.4 RDD分区计算(Iterator)/t
3.3.5 RDD分区函数(Partitioner)/t
3.4 创建操作/t
3.4.1 并行化集合创建操作/t
3.4.2 外部存储创建操作/t
3.5 转换操作/t
3.5.1 基础转换操作/t
3.5.2 键值转换操作/t
3.6 控制操作/t
3.7 行动操作/t
3.7.1 集合标量行动操作/t
3.7.2 存储行动操作/t
3.8 小结/t
第4章 Spark核心原理/t
4.1 消息通信原理/t
4.1.1 Spark消息通信架构/t
4.1.2 Spark启动消息通信/t
4.1.3 Spark运行时消息通信/t
4.2 作业执行原理/t
4.2.1 概述/t
4.2.2 提交作业/t
4.2.3 划分调度阶段/t
4.2.4 提交调度阶段/t
4.2.5 提交任务/t
4.2.6 执行任务/t
4.2.7 获取执行结果/t
4.3 调度算法/t
4.3.1 应用程序之间/t
4.3.2 作业及调度阶段之间/t
4.3.3 任务之间/t
4.4 容错及HA/t
4.4.1 Executor异常/t
4.4.2 Worker异常/t
4.4.3 Master异常/t
4.5 监控管理/t
4.5.1 UI监控/t
4.5.2 Metrics/t
4.5.3 REST/t
4.6 实例演示/t
4.6.1 计算年降水实例/t
4.6.2 HA配置实例/t
4.7 小结/t
第5章 Spark存储原理/t
5.1 存储分析/t
5.1.1 整体架构/t
5.1.2 存储级别/t
5.1.3 RDD存储调用/t
5.1.4 读数据过程/t
5.1.5 写数据过程/t
5.2 Shuffle分析/t
5.2.1 Shuffle简介/t
5.2.2 Shuffle的写操作/t
5.2.3 Shuffle的读操作/t
5.3 序列化和压缩/t
5.3.1 序列化/t
5.3.2/t 压缩/t
5.4 共享变量/t
5.4.1 广播变量/t
5.4.2 累加器/t
5.5 实例演示/t
5.6 小结/t
第6章 Spark运行架构/t
6.1 运行架构总体介绍/t
6.1.1 总体介绍/t
6.1.2 重要类介绍/t
6.2 本地(Local)运行模式/t
6.2.1 运行模式介绍/t
6.2.2 实现原理/t
6.3 伪分布(Local-Cluster)运行模式/t
6.3.1 运行模式介绍/t
6.3.2 实现原理/t
6.4 独立(Standalone)运行模式/t
6.4.1 运行模式介绍/t
6.4.2 实现原理/t
6.5 YARN运行模式/t
6.5.1 YARN运行框架/t
6.5.2 YARN-Client运行模式介绍/t
6.5.3 YARN-Client 运行模式实现原理/t
6.5.4 YARN-Cluster运行模式介绍/t
6.5.5 YARN-Cluster 运行模式实现原理/t
6.5.6 YARN-Client与YARN-Cluster对比/t
6.6 Mesos运行模式/t
6.6.1 Mesos介绍/t
6.6.2 粗粒度运行模式介绍/t
6.6.3 粗粒度实现原理/t
6.6.4 细粒度运行模式介绍/t
6.6.5 细粒度实现原理/t
6.6.6 Mesos粗粒度和Mesos细粒度对比/t
6.7 实例演示/t
6.7.1 独立运行模式实例/t
6.7.2 YARN-Client实例/t
6.7.3 YARN-Cluster实例/t
6.8 小结/t
第三篇 组件篇
第7章 Spark SQL/t
7.1 Spark SQL简介/t
7.1.1 Spark SQL发展历史/t
7.1.2 DataFrame/Dataset介绍/t
7.2 Spark SQL运行原理/t
7.2.1 通用SQL执行原理/t
7.2.2 SparkSQL运行架构/t
7.2.3 SQLContext运行原理分析/t
7.2.4 HiveContext介绍/t
7.3 使用Hive-Console/t
7.3.1 编译Hive-Console/t
7.3.2 查看执行计划/t
7.3.3 应用Hive-Console/t
7.4 使用SQLConsole/t
7.4.1 启动HDFS和Spark Shell/t
7.4.2 与RDD交互操作/t
7.4.3 读取JSON格式数据/t
7.4.4 读取Parquet格式数据/t
7.4.5 缓存演示/t
7.4.6 DSL演示/t
7.5 使用Spark SQL CLI/t
7.5.1 配置并启动Spark SQL CLI/t
7.5.2 实战Spark SQL CLI/t
7.6 使用Thrift Server/t
7.6.1 配置并启动Thrift Server/t
7.6.2 基本操作/t
7.6.3 交易数据实例/t
7.6.4 使用IDEA开发实例/t
7.7 实例演示/t
7.7.1 销售数据分类实例/t
7.7.2 网店销售数据统计/t
7.8 小结/t
第8章 Spark Streaming/t
8.1 Spark Streaming简介/t
8.1.1 术语定义/t
8.1.2 Spark Streaming特点/t
8.2 Spark Streaming编程模型/t
8.2.1 DStream的输入源/t
8.2.2 DStream的操作/t
8.3 Spark Streaming运行架构/t
8.3.1 运行架构/t
8.3.2 消息通信/t
8.3.3 Receiver分发/t
8.3.4 容错性/t
8.4 Spark Streaming运行原理/t
8.4.1 启动流处理引擎/t
8.4.2 接收及存储流数据/t
8.4.3 数据处理/t
8.5 实例演示/t
8.5.1 流数据模拟器/t
8.5.2 销售数据统计实例/t
8.5.3 Spark Streaming+Kafka实例/t
8.6 小结/t
第9章 Spark MLlib/t
9.1 Spark MLlib简介/t
9.1.1 Spark MLlib介绍/t
9.1.2 Spark MLlib数据类型/t
9.1.3 Spark MLlib基本统计方法/t
9.1.4 预言模型标记语言/t
9.2 线性模型/t
9.2.1 数学公式/t
9.2.2 线性回归/t
9.2.3 线性支持向量机/t
9.2.4 逻辑回归/t
9.2.5 线性最小二乘法、Lasso和岭回归/t
9.2.6 流式线性回归/t
9.3 决策树/t
9.4 决策模型组合/t
9.4.1 随机森林/t
9.4.2 梯度提升决策树/t
9.5 朴素贝叶斯/t
9.6 协同过滤/t
9.7 聚类/t
9.7.1 K-means/t
9.7.2 高斯混合/t
9.7.3 快速迭代聚类/t
9.7.4 LDA/t
9.7.5 二分K-means/t
9.7.6 流式K-means/t
9.8 降维/t
9.8.1 奇异值分解降维/t
9.8.2 主成分分析降维/t
9.9 特征提取和变换/t
9.9.1 词频―逆文档频率/t
9.9.2 词向量化工具/t
9.9.3 标准化/t
9.9.4 范数化/t
9.10 频繁模式挖掘/t
9.10.1 频繁模式增长/t
9.10.2 关联规则挖掘/t
9.10.3 PrefixSpan/t
9.11 实例演示/t
9.11.1 K-means聚类算法实例/t
9.11.2 手机短信分类实例/t
9.12 小结/t
第10章 Spark GraphX/t
10.1 GraphX介绍/t
10.1.1 图计算/t
10.1.2 GraphX介绍/t
10.1.3 发展历程/t
10.2 GraphX实现分析/t
10.2.1 GraphX图数据模型/t
10.2.2 GraphX图数据存储/t
10.2.3 GraphX图切分策略/t
10.2.4 GraphX图操作/t
10.3 实例演示/t
10.3.1 图例演示/t
10.3.2 社区发现演示/t
10.4 小结/t
第11章 SparkR/t
11.1 概述/t
11.1.1 R语言介绍/t
11.1.2 SparkR介绍/t
11.2 SparkR与DataFrame/t
11.2.1 DataFrames介绍/t
11.2.2 与DataFrame的相关操作/t
11.3 编译安装SparkR/t
11.3.1 编译安装R语言/t
11.3.2 安装SparkR运行环境/t
11.3.3 安装SparkR/t
11.3.4 启动并验证安装/t
11.4 实例演示/t
11.5 小结/t
第12章 Alluxio/t
12.1 Alluxio简介/t
12.1.1 Alluxio介绍/t
12.1.2 Alluxio系统架构/t
12.1.3 HDFS与Alluxio/t
12.2 Alluxio编译部署/t
12.2.1 编译Alluxio/t
12.2.2 单机部署Alluxio/t
12.2.3 集群模式部署Alluxio/t
12.3 Alluxio命令行使用/t
12.3.1 接口说明/t
12.3.2 接口操作示例/t
12.4 实例演示/t
12.4.1 启动环境/t
12.4.2 Alluxio上运行Spark/t
12.4.3 Alluxio上运行MapReduce/t
12.5 小结/t
本书附录部分请到博文视点网站下载www.broadview.com.cn/30236。
出版时间:2017
内容简介
本书以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。本书从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外本书还应用了大量的图表进行说明,通过这种方式让读者能够更加直观地理解Spark 相关原理。
目录
第1章 Spark及其生态圈概述/t
1.1 Spark简介/t
1.1.1 什么是Spark/t
1.1.2 Spark与MapReduce比较/t
1.1.3 Spark的演进路线图/t
1.2 Spark生态系统/t
1.2.1 Spark Core/t
1.2.2 Spark Streaming/t
1.2.3 Spark SQL/t
1.2.4 BlinkDB/t
1.2.5 MLBase/MLlib/t
1.2.6 GraphX/t
1.2.7 SparkR/t
1.2.8 Alluxio/t
1.3 小结/t
第2章 搭建Spark实战环境/t
2.1 基础环境搭建/t
2.1.1 搭建集群样板机/t
2.1.2 配置集群环境/t
2.2 编译Spark源代码/t
2.2.1 配置Spark编译环境/t
2.2.2 使用Maven编译Spark/t
2.2.3 使用SBT编译Spark/t
2.2.4 生成Spark部署包/t
2.3 搭建Spark运行集群/t
2.3.1 修改配置文件/t
2.3.2 启动Spark/t
2.3.3 验证启动/t
2.3.4 第一个实例/t
2.4 搭建Spark实战开发环境/t
2.4.1 CentOS中部署IDEA/t
2.4.2 使用IDEA开发程序/t
2.4.3 使用IDEA阅读源代码/t
2.5 小结/t
第二篇 核心篇
第3章 Spark编程模型/t
3.1 RDD概述/t
3.1.1 背景/t
3.1.2 RDD简介/t
3.1.3 RDD的类型/t
3.2 RDD的实现/t
3.2.1 作业调度/t
3.2.2 解析器集成/t
3.2.3 内存管理/t
3.2.4 检查点支持/t
3.2.5 多用户管理/t
3.3 编程接口/t
3.3.1 RDD分区(Partitions)/t
3.3.2 RDD首选位置(PreferredLocations)/t
3.3.3 RDD依赖关系(Dependencies)/t
3.3.4 RDD分区计算(Iterator)/t
3.3.5 RDD分区函数(Partitioner)/t
3.4 创建操作/t
3.4.1 并行化集合创建操作/t
3.4.2 外部存储创建操作/t
3.5 转换操作/t
3.5.1 基础转换操作/t
3.5.2 键值转换操作/t
3.6 控制操作/t
3.7 行动操作/t
3.7.1 集合标量行动操作/t
3.7.2 存储行动操作/t
3.8 小结/t
第4章 Spark核心原理/t
4.1 消息通信原理/t
4.1.1 Spark消息通信架构/t
4.1.2 Spark启动消息通信/t
4.1.3 Spark运行时消息通信/t
4.2 作业执行原理/t
4.2.1 概述/t
4.2.2 提交作业/t
4.2.3 划分调度阶段/t
4.2.4 提交调度阶段/t
4.2.5 提交任务/t
4.2.6 执行任务/t
4.2.7 获取执行结果/t
4.3 调度算法/t
4.3.1 应用程序之间/t
4.3.2 作业及调度阶段之间/t
4.3.3 任务之间/t
4.4 容错及HA/t
4.4.1 Executor异常/t
4.4.2 Worker异常/t
4.4.3 Master异常/t
4.5 监控管理/t
4.5.1 UI监控/t
4.5.2 Metrics/t
4.5.3 REST/t
4.6 实例演示/t
4.6.1 计算年降水实例/t
4.6.2 HA配置实例/t
4.7 小结/t
第5章 Spark存储原理/t
5.1 存储分析/t
5.1.1 整体架构/t
5.1.2 存储级别/t
5.1.3 RDD存储调用/t
5.1.4 读数据过程/t
5.1.5 写数据过程/t
5.2 Shuffle分析/t
5.2.1 Shuffle简介/t
5.2.2 Shuffle的写操作/t
5.2.3 Shuffle的读操作/t
5.3 序列化和压缩/t
5.3.1 序列化/t
5.3.2/t 压缩/t
5.4 共享变量/t
5.4.1 广播变量/t
5.4.2 累加器/t
5.5 实例演示/t
5.6 小结/t
第6章 Spark运行架构/t
6.1 运行架构总体介绍/t
6.1.1 总体介绍/t
6.1.2 重要类介绍/t
6.2 本地(Local)运行模式/t
6.2.1 运行模式介绍/t
6.2.2 实现原理/t
6.3 伪分布(Local-Cluster)运行模式/t
6.3.1 运行模式介绍/t
6.3.2 实现原理/t
6.4 独立(Standalone)运行模式/t
6.4.1 运行模式介绍/t
6.4.2 实现原理/t
6.5 YARN运行模式/t
6.5.1 YARN运行框架/t
6.5.2 YARN-Client运行模式介绍/t
6.5.3 YARN-Client 运行模式实现原理/t
6.5.4 YARN-Cluster运行模式介绍/t
6.5.5 YARN-Cluster 运行模式实现原理/t
6.5.6 YARN-Client与YARN-Cluster对比/t
6.6 Mesos运行模式/t
6.6.1 Mesos介绍/t
6.6.2 粗粒度运行模式介绍/t
6.6.3 粗粒度实现原理/t
6.6.4 细粒度运行模式介绍/t
6.6.5 细粒度实现原理/t
6.6.6 Mesos粗粒度和Mesos细粒度对比/t
6.7 实例演示/t
6.7.1 独立运行模式实例/t
6.7.2 YARN-Client实例/t
6.7.3 YARN-Cluster实例/t
6.8 小结/t
第三篇 组件篇
第7章 Spark SQL/t
7.1 Spark SQL简介/t
7.1.1 Spark SQL发展历史/t
7.1.2 DataFrame/Dataset介绍/t
7.2 Spark SQL运行原理/t
7.2.1 通用SQL执行原理/t
7.2.2 SparkSQL运行架构/t
7.2.3 SQLContext运行原理分析/t
7.2.4 HiveContext介绍/t
7.3 使用Hive-Console/t
7.3.1 编译Hive-Console/t
7.3.2 查看执行计划/t
7.3.3 应用Hive-Console/t
7.4 使用SQLConsole/t
7.4.1 启动HDFS和Spark Shell/t
7.4.2 与RDD交互操作/t
7.4.3 读取JSON格式数据/t
7.4.4 读取Parquet格式数据/t
7.4.5 缓存演示/t
7.4.6 DSL演示/t
7.5 使用Spark SQL CLI/t
7.5.1 配置并启动Spark SQL CLI/t
7.5.2 实战Spark SQL CLI/t
7.6 使用Thrift Server/t
7.6.1 配置并启动Thrift Server/t
7.6.2 基本操作/t
7.6.3 交易数据实例/t
7.6.4 使用IDEA开发实例/t
7.7 实例演示/t
7.7.1 销售数据分类实例/t
7.7.2 网店销售数据统计/t
7.8 小结/t
第8章 Spark Streaming/t
8.1 Spark Streaming简介/t
8.1.1 术语定义/t
8.1.2 Spark Streaming特点/t
8.2 Spark Streaming编程模型/t
8.2.1 DStream的输入源/t
8.2.2 DStream的操作/t
8.3 Spark Streaming运行架构/t
8.3.1 运行架构/t
8.3.2 消息通信/t
8.3.3 Receiver分发/t
8.3.4 容错性/t
8.4 Spark Streaming运行原理/t
8.4.1 启动流处理引擎/t
8.4.2 接收及存储流数据/t
8.4.3 数据处理/t
8.5 实例演示/t
8.5.1 流数据模拟器/t
8.5.2 销售数据统计实例/t
8.5.3 Spark Streaming+Kafka实例/t
8.6 小结/t
第9章 Spark MLlib/t
9.1 Spark MLlib简介/t
9.1.1 Spark MLlib介绍/t
9.1.2 Spark MLlib数据类型/t
9.1.3 Spark MLlib基本统计方法/t
9.1.4 预言模型标记语言/t
9.2 线性模型/t
9.2.1 数学公式/t
9.2.2 线性回归/t
9.2.3 线性支持向量机/t
9.2.4 逻辑回归/t
9.2.5 线性最小二乘法、Lasso和岭回归/t
9.2.6 流式线性回归/t
9.3 决策树/t
9.4 决策模型组合/t
9.4.1 随机森林/t
9.4.2 梯度提升决策树/t
9.5 朴素贝叶斯/t
9.6 协同过滤/t
9.7 聚类/t
9.7.1 K-means/t
9.7.2 高斯混合/t
9.7.3 快速迭代聚类/t
9.7.4 LDA/t
9.7.5 二分K-means/t
9.7.6 流式K-means/t
9.8 降维/t
9.8.1 奇异值分解降维/t
9.8.2 主成分分析降维/t
9.9 特征提取和变换/t
9.9.1 词频―逆文档频率/t
9.9.2 词向量化工具/t
9.9.3 标准化/t
9.9.4 范数化/t
9.10 频繁模式挖掘/t
9.10.1 频繁模式增长/t
9.10.2 关联规则挖掘/t
9.10.3 PrefixSpan/t
9.11 实例演示/t
9.11.1 K-means聚类算法实例/t
9.11.2 手机短信分类实例/t
9.12 小结/t
第10章 Spark GraphX/t
10.1 GraphX介绍/t
10.1.1 图计算/t
10.1.2 GraphX介绍/t
10.1.3 发展历程/t
10.2 GraphX实现分析/t
10.2.1 GraphX图数据模型/t
10.2.2 GraphX图数据存储/t
10.2.3 GraphX图切分策略/t
10.2.4 GraphX图操作/t
10.3 实例演示/t
10.3.1 图例演示/t
10.3.2 社区发现演示/t
10.4 小结/t
第11章 SparkR/t
11.1 概述/t
11.1.1 R语言介绍/t
11.1.2 SparkR介绍/t
11.2 SparkR与DataFrame/t
11.2.1 DataFrames介绍/t
11.2.2 与DataFrame的相关操作/t
11.3 编译安装SparkR/t
11.3.1 编译安装R语言/t
11.3.2 安装SparkR运行环境/t
11.3.3 安装SparkR/t
11.3.4 启动并验证安装/t
11.4 实例演示/t
11.5 小结/t
第12章 Alluxio/t
12.1 Alluxio简介/t
12.1.1 Alluxio介绍/t
12.1.2 Alluxio系统架构/t
12.1.3 HDFS与Alluxio/t
12.2 Alluxio编译部署/t
12.2.1 编译Alluxio/t
12.2.2 单机部署Alluxio/t
12.2.3 集群模式部署Alluxio/t
12.3 Alluxio命令行使用/t
12.3.1 接口说明/t
12.3.2 接口操作示例/t
12.4 实例演示/t
12.4.1 启动环境/t
12.4.2 Alluxio上运行Spark/t
12.4.3 Alluxio上运行MapReduce/t
12.5 小结/t
本书附录部分请到博文视点网站下载www.broadview.com.cn/30236。
下一篇: Adobe After Effects CC高手之路
上一篇: Node.js进阶之路