Spark快速数据处理作者:(美)凯洛 著,余璜,张磊 译出版时间:2014内容简介 Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。《Spark快速数据处理》系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。目录译者序作者简介前言第1章 安装Spark以及构建Spark集群 / 11.1 单机运行Spark / 41.2 在EC2上运行Spark / 51.3 在ElasticMapReduce上部署Spark / 111.4 用Chef(opscode)部署Spark / 121.5 在Mesos上部署Spark / 141.6 在Yarn上部署Spark / 151.7 通过SSH部署集群 / 161.8 链接和参考 / 211.9 小结 / 21 第2章 Spark shell的使用 / 232.1 加载一个简单的text文件 / 242.2 用Spark shell运行逻辑回归 / 262.3 交互式地从S3加载数据 / 282.4 小结 / 30 第3章 构建并运行Spark应用 / 313.1 用sbt构建Spark作业 / 323.2 用Maven构建Spark作业 / 363.3 用其他工具构建Spark作业 / 393.4 小结 / 39 第4章 创建SparkContext / 414.1 Scala / 434.2 Java / 434.3 Java和Scala共享的API / 444.4 Python / 454.5 链接和参考 / 454.6 小结 / 46 第5章 加载与保存数据 / 475.1 RDD / 485.2 加载数据到RDD中 / 495.3 保存数据 / 545.4 连接和参考 / 555.5 小结 / 55 第6章 操作RDD / 576.1 用Scala和Java操作RDD / 586.2 用Python操作RDD / 796.3 链接和参考 / 836.4 小结 / 84 第7章 Shark-Hive和Spark的综合运用 / 857.1 为什么用Hive/Shark / 867.2 安装Shark / 867.3 运行Shark / 887.4 加载数据 / 887.5 在Spark程序中运行HiveQL查询 / 897.6 链接和参考 / 927.7 小结 / 93 第8章 测试 / 958.1 用Java和Scala测试 / 968.2 用Python测试 / 1038.3 链接和参考 / 1048.4 小结 / 105 第9章 技巧和窍门 / 1079.1 日志位置 / 1089.2 并发限制 / 1089.3 内存使用与垃圾回收 / 1099.4 序列化 / 1109.5 IDE集成环境 / 1119.6 Spark与其他语言 / 1129.7 安全提示 / 1139.8 邮件列表 / 1139.9 链接和参考 / 1139.10 小结 / 114 上一篇: 迁移学习:理论与实践 下一篇: 命令行中的数据科学