大数据架构和算法实现之路:电商系统的技术实战作者:黄申 著出版时间:2017内容简介本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。本书大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。目 录目 录?Contents推荐序前言引子 1篇 支持高效的运营第1章 方案设计和技术选型:分类 51.1 分类的基本概念 61.2 分类任务的处理流程 71.3 算法:朴素贝叶斯和K近邻 81.3.1 朴素贝叶斯 81.3.2 K近邻 91.4 分类效果评估 101.5 相关软件:R和Mahout 121.5.1 R简介 121.5.2 Mahout简介 131.5.3 Hadoop简介 141.6 案例实践 171.6.1 实验环境设置 171.6.2 中文分词 181.6.3 使用R进行朴素贝叶斯分类 221.6.4 使用R进行K近邻分类 371.6.5 单机环境使用Mahout运行朴素贝叶斯分类 391.6.6 多机环境使用Mahout运行朴素贝叶斯分类 471.7 更多的思考 58第2章 方案设计和技术选型:聚类 602.1 聚类的基本概念 602.2 算法:K均值和层次型聚类 612.2.1 K均值聚类 612.2.2 层次型聚类 622.3 聚类的效果评估 642.4 案例实践 662.4.1 使用R进行K均值聚类 662.4.2 使用Mahout进行K均值聚类 69第3章 方案设计和技术选型:因变量连续的回归分析 743.1 线性回归的基本概念 743.2 案例实践 763.2.1 实验环境设置 763.2.2 R中数据的标准化 783.2.3 使用R的线性回归分析 81第二篇为顾客发现喜欢的商品:基础篇第4章 方案设计和技术选型:搜索 944.1 搜索引擎的基本概念 944.1.1 相关性 954.1.2 及时性 974.2 搜索引擎的评估 1004.3 为什么不是数据库 1034.4 系统框架 1044.4.1 离线预处理 1044.4.2 在线查询 1074.5 常见的搜索引擎实现 1084.5.1 Lucene简介 1084.5.2 Solr简介 1134.5.3 Elasticsearch简介 1204.6 案例实践 1234.6.1 实验环境设置 1234.6.2 基于Solr的实现 1234.6.3 基于Elasticsearch的实现 1544.6.4 统一的搜索API 175第三篇为顾客发现喜欢的商品:高级篇第5章 方案设计和技术选型:NoSQL和搜索的整合 1955.1 问题分析 1955.2 HBase简介 1965.3 结合HBase和搜索引擎 2035.4 案例实践 2045.4.1 实验环境设置 2045.4.2 HBase的部署 2055.4.3 HBase和搜索引擎的集成 211第6章 方案设计和技术选型:查询分类和搜索的整合 2196.1 问题分析 2196.2 结合分类器和搜索引擎 2196.3 案例实践 2256.3.1 实验环境设置 2256.3.2 构建查询分类器 2266.3.3 定制化的搜索排序 2296.3.4 整合查询分类和定制化排序 236第7章 方案设计和技术选型:个性化搜索 2457.1 问题分析 2457.2 结合用户画像和搜索引擎 2457.3 案例实践 2497.3.1 用户画像的读取 2507.3.2 个性化搜索引擎 2537.3.3 结果对比 260第8章 方案设计和技术选型:搜索分片 2678.1 问题分析 2678.2 利用搜索的分片机制 2698.3 案例实践 2718.3.1 Solr路由的实现 2718.3.2 Elasticsearch路由的实现 278第9章 方案设计和技术选型:搜索提示 2839.1 问题分析 2839.2 案例实践:基础方案 2849.2.1 Solr搜索建议和拼写纠错的实现 2849.2.2 Elasticsearch搜索建议和拼写纠错的实现 2869.3 改进方案 2919.4 案例实践:改进方案 294第10章 方案设计和技术选型:推荐 30310.1 推荐系统的基本概念 30510.2 推荐的核心要素 30610.2.1 系统角色 30610.2.2 相似度 30710.2.3 相似度传播框架 30710.3 推荐系统的分类 30710.4 混合模型 31110.5 系统架构 31210.6 Mahout中的推荐算法 31310.7 电商常见的推荐系统方案 31410.7.1 电商常见的推荐系统方案 31410.7.2 相似度的计算 31710.7.3 协同过滤 31910.7.4 结果的查询 32010.8 案例实践 32110.8.1 基于内容特征的推荐 32110.8.2 基于行为特征的推荐 341第四篇 获取数据,跟踪效果第11章 方案设计和技术选型:行为跟踪 36911.1 基本概念 37011.1.1 网站的核心框架 37011.1.2 行为数据的类型 37111.1.3 行为数据的模式 37211.1.4 设计理念 37411.2 使用谷歌分析 37511.3 自行设计之Flume、HDFS和Hive的整合 37811.3.1 数据的收集——Flume简介 37811.3.2 数据的存储——Hadoop HDFS回顾 38211.3.3 批量数据分析——Hive简介 38311.3.4 Flume、HDFS和Hive的整合方案 38611.4 自行设计之Flume、Kafka和Storm的整合 38611.4.1 实时性数据分析之Kafka简介 38611.4.2 实时性数据分析之Storm简介 38811.4.3 Flume、Kafka和Storm的整合方案 39011.5 案例实践 39111.5.1 数据模式的设计 39211.5.2 实验环境设置 39211.5.3 谷歌分析实战 39411.5.4 自主设计实战之Flume、HDFS和Hive的整合 40111.5.5 自主设计实战之Flume、Kafka和Storm的整合 41011.6 更多的思考 424后记 425 上一篇: 深入Java虚拟机:JVM G1GC的算法与实现 下一篇: 精通java核心技术 [刘晓华 等编著]