寻路大数据:海量数据与大规模分析作者:(美)马诺切里 著; 戴志伟,许杨毅,鄢博,陈冠诚 译出版时间:2014内容简介 这是一个数据爆发的时代,更是一个数据技术爆发的时代,各行各业都在因此进行深刻的变革。如何从众多的数据技术中选择正确的工具、如何使用这些工具从海量数据中挖掘出有价值的东西,无疑是非常具有挑战性的问题。《寻路大数据:海量数据与大规模分析》作者结合自己在Google 大数据平台工作的丰富经验,阐述了数据技术的方方面面。从数据收集、共享到数据存储,从分布式数据平台、分析型数据库到数据可视化,从数据工作流构建到大规模数据分析,作者不仅进行了全面而深入的介绍,更覆盖了目前流行的各种数据技术与工具,同时对技术选型提出了指导性的建议。最后,作者对数据挑战的非技术因素进行了深刻的分析,并对数据技术的发展趋势进行了展望,引人深思。《寻路大数据:海量数据与大规模分析》对企业管理者、技术经理、数据分析师、数据应用开发人员和相关从业者都有很好的参考价值。决策者可以从中看到技术趋势,把握时代发展脉搏;数据分析人员可以看到经验的总结和工具的应用;其他从业者可以从中了解数据技术所涉及的各个方面。目录第1 部分 大数据时代指引 1第1 章 数据成功四原则 31.1 当数据成为一件“大”事 31.2 数据和单台服务器 41.3 大数据的权衡 51.3.1 构建可(限)扩展的解决方案 61.3.2 构建可(在互联网上)共享数据的系统 71.3.3 构建解决方案,而非基础设施 81.3.4 关注从数据中解放价值 81.4 大数据流水线剖析 91.5 终极数据库 101.6 总结 10第2 部分 收集和共享海量数据 13第2 章 托管和共享TB 级原始数据 152.1 文件之殇 162.1.1 共享大量文件的挑战 162.2 存储:基础设施即服务 172.2.1 网络很慢 182.3 选择合适的数据格式 182.3.1 XML :数据,描述你自己 202.3.2 JSON :程序员的选择 212.4 字符编码 222.4.1 文件转换 24XXII 目录2.5 移动中的数据:数据序列化格式 252.5.1 Apache Thrift 和Protocol Buffers 262.6 总结 27第3 章 构建基于NoSQL 的Web 应用采集众包数据 293.1 关系型数据库:命令及控制 303.1.1 关系数据库的ACID 测试 323.2 当关系型数据库遇上互联网 333.2.1 CAP 原理与BASE 343.3 非关系型数据库的模式 363.3.1 键- 值数据库 363.3.2 文档存储 383.4 为写入性能优化:Redis 403.5 在多个Redis 实例上分片 433.5.1 使用Twemproxy 自动分区 443.5.2 Redis 的替代选项 463.6 NewSQL :Codd 归来 463.7 总结 47第4 章 解决数据孤岛问题的策略 494.1 堆满术语的仓库 494.1.1 实践中的问题 514.1.2 数据合规与安全规划 524.1.3 走进数据仓库 534.1.4 数据仓库的口诀:抽取、转换和加载 544.2 Hadoop :数据仓库中的大象 554.3 数据孤岛也可能是个优点 554.3.1 专注于数据问题,而不是技术 564.3.2 鼓励员工提出他们自己的问题 574.3.3 投资沟通数据孤岛的技术 574.4 融合:数据孤岛的终结 58目录XXIII4.4.1 Luhn 的商业智能系统是否能成为现实 594.5 总结 59第3 部分 数据探究 61第5 章 使用Hadoop、Hive 和Shark 探索大规模数据集 635.1 什么是数据仓库 645.2 Apache Hive :在Hadoop 上进行交互式查询 665.2.1 Hive 用例 665.2.2 Hive 实战 675.2.3 在Hive 中使用其他数据源 715.3 Shark :以内存的速度进行查询 725.4 云中的数据仓库 735.5 总结 74第6 章 使用Google BigQuery 构建数据信息中心 776.1 分析型数据库 786.2 Dremel :均贫富 796.2.1 Dremel 与MapReduce 的不同之处 806.3 BigQuery :数据分析即服务 816.3.1 BigQuery 的查询语言 826.4 建造自己的大数据信息面板 836.4.1 授权访问BigQuery API 846.4.2 运行查询并获取结果 876.4.3 缓存查询结果 886.4.4 添加可视化图形 896.5 分析型查询引擎的未来 916.6 总结 91第7 章 探索大数据的可视化策略 937.1 警世良言:将数据翻译成故事 947.2 人类尺度 VS 机器尺度 97XXIV 目录7.2.1 交互性 977.3 开发交互式数据应用 987.3.1 使用R 和ggplot2 实现交互式可视化 987.3.2 matplotlib: Python 的2D 图形库 1007.3.3 D3.js :用于Web 的交互式可视化库 1007.4 总结 104第4 部分 构建数据流水线 107第8 章 整合:MapReduce 数据流水线 1098.1 数据流水线是什么 1098.1.1 正确的工具 1108.2 使用Hadoop Streaming 搭建数据流水线 1118.2.1 MapReduce 和数据转换 1118.2.2 最简单的流水线:stdin 到stdout 1138.3 单步MapReduce 变换 1158.3.1 从原始NVSS 数据中抽取相关信息:map 阶段 1168.3.2 合计每月出生数:reducer 阶段 1178.3.3 在本地测试MapReduce 流水线 1188.3.4 在Hadoop 集群上运行我们的MapReduce 作业 1198.4 降低复杂性:Hadoop 上Python 的MapReduce 框架 1208.4.1 使用mrjob 重写Hadoop Streaming 示例 1218.4.2 建造一个多步流水线 1228.4.3 在Elastic MapReduce 上运行mrjob 脚本 1248.4.4 其他基于Python 的MapReduce 框架 1258.5 总结 125第9 章 使用Pig 和Cascading 构建数据转换工作流 1279.1 大规模数据工作流实战 1289.2 多步MapReduce 转换真复杂 1289.2.1 Apache Pig :拒绝复杂 129目录XXV9.2.2 使用交互式Grunt shell 运行Pig 1309.2.3 过滤和优化数据工作流 1329.2.4 以批处理模式运行Pig 脚本 1329.3 Cascading :构建健壮的数据工作流应用 1339.3.1 以source 和sink 的方式思考 1349.3.2 构建Cascading 应用 1359.3.3 创建一个Cascade :一个简单的JOIN 例子 1369.3.4 在Hadoop 集群上部署Cascading 应用 1389.4 何时选择Pig 或Cascading 1399.5 总结 140第5 部分 基于大规模数据集的机器学习 141第10 章 使用Mahout 构建数据分类系统 14310.1 机器能否预测未来 14410.2 机器学习的挑战 14410.2.1 贝叶斯分类 14610.2.2 聚类 14610.2.3 推荐引擎 14810.3 Apache Mahout :可伸缩的机器学习工具 14810.3.1 使用Mahout 进行文本分类 14910.4 MLbase :分布式机器学习框架 15210.5 总结 152第6 部分 基于大规模数据集的统计分析 155第11 章 使用R 语言处理大数据集 15711.1 统计学为什么性感 15811.1.1 R 处理大型数据集的局限性 15911.1.2 R 的数据帧和矩阵 161XXVI 目录11.2 处理大数据集的策略 16211.2.1 大矩阵处理:bigmemory 和biganalytics 16211.2.2 ff: 使用大于内存的数据帧 16411.2.3 biglm :大规模数据集的线性回归 16511.2.4 RHadoop: 使用R 访问Apache Hadoop 16611.3 总结 168第12 章 使用Python 和Pandas 构建分析工作流 17112.1 数据乐园中自在的蟒蛇――Python 17212.1.1 为统计性计算选择一门语言 17212.1.2 扩展现有代码 17312.1.3 工具和测试 17412.2 用于数据处理的Python 库 17412.2.1 NumPy 17512.2.2 SciPy :Python 的科学计算库 17612.2.3 数据分析库Pandas 17812.3 构建更复杂的工作流 18212.3.1 处理损坏或丢失的记录 18412.4 iPython :科学计算工具链的最后一环 18512.4.1 在集群上并行执行iPython 18612.5 总结 190第7 部分 展望未来 191第13 章 何时选择自制、购买或外包 19313.1 功能重合的解决方案 19313.2 理解你的数据问题 19513.3 自制还是购买问题的参考手册 19713.3.1 你已经对哪些技术有所投入 19713.3.2 从小处着手 19813.3.3 规划时考虑可扩展性 198目录XXVII13.4 私人数据中心 19913.5 了解开源的成本 20113.6 一切皆服务 20213.7 总结 202第14 章 未来:数据科技的几个趋势 20514.1 Hadoop :搅局者与被搅局者 20614.2 一切皆在云中 20814.3 数据科学家的兴衰 20914.4 融合:终极数据库 21214.5 文化融合 21314.6 总结 214 上一篇: 大话数据挖掘 下一篇: 支持向量机的算法设计与分析