计算机科学先进技术译丛 实用机器学习作者:Henrik Brink,Joseph W. Richards ... 著出版时间:2017丛编项: 计算机科学先进技术译丛内容简介 本书介绍了实用机器学习的工作流程,主要从实用角度进行了描述,没有数学公式和推导。本书涵盖了数据收集与处理、模型构建、评价和优化、特征的识别、提取和选择技术、高级特征工程、数据可视化技术以及模型的部署和安装,结合3个真实案例全面、详细地介绍了整个机器学习流程。后,还介绍了机器学习流程的扩展和大数据应用。本书可以作为程序员、数据分析师、统计学家、数据科学家解决实际问题的参考书,也可以作为机器学习爱好者学习和应用的参考书,还可以作为非专业学生的机器学习入门参考书,以及专业学生的实践参考书。目录推荐序作者序致谢译者序关于本书作者简介关于封面插图第1部分机器学习工作流程第1章什么是机器学习1.1理解机器学习1.2使用数据进行决策1.2.1传统方法1.2.2机器学习方法1.2.3机器学习的五大优势1.2.4面临的挑战1.3跟踪机器学习流程:从数据到部署1.3.1数据集合和预处理1.3.2数据构建模型1.3.3模型性能评估1.3.4模型性能优化1.4提高模型性能的高级技巧1.4.1数据预处理和特征工程1.4.2用在线算法持续改进模型1.4.3具有数据量和速度的规模化模型1.5总结1.6本章术语第2章实用数据处理2.1起步:数据收集2.1.1应包含哪些特征2.1.2如何获得目标变量的真实值2.1.3需要多少训练数据2.1.4训练集是否有足够的代表性2.2数据预处理2.2.1分类特征2.2.2缺失数据处理2.2.3简单特征工程2.2.4数据规范化2.3数据可视化2.3.1马赛克图2.3.2盒图2.3.3密度图2.3.4散点图2.4总结2.5本章术语第3章建模和预测3.1基础机器学习建模3.1.1寻找输入和目标间的关系3.1.2寻求好模型的目的3.1.3建模方法类型3.1.4有监督和无监督学习3.2分类:把数据预测到桶中3.2.1构建分类器并预测3.2.2非线性数据与复杂分类3.2.3多类别分类3.3回归:预测数值型数据3.3.1构建回归器并预测3.3.2对复杂的非线性数据进行回归3.4总结3.5本章术语第4章模型评估与优化4.1模型泛化:评估新数据的预测准确性4.1.1问题:过度拟合与乐观模型4.1.2解决方案:交叉验证4.1.3交叉验证的注意事项4.2分类模型评估4.2.1分类精度和混淆矩阵4.2.2准确度权衡与ROC曲线4.2.3多类别分类4.3回归模型评估4.3.1使用简单回归性能指标4.3.2检验残差4.4参数调整优化模型4.4.1机器学习算法和它们的调整参数4.4.2网格搜索4.5总结4.6本章术语第5章基础特征工程5.1动机:为什么特征工程很有用5.1.1什么是特征工程5.1.2使用特征工程的5个原因5.1.3特征工程与领域专业知识5.2基本特征工程过程5.2.1实例:事件推荐5.2.2处理日期和时间特征5.2.3处理简单文本特征5.3特征选择5.3.1前向选择和反向消除5.3.2数据探索的特征选择5.3.3实用特征选择实例5.4总结5.5本章术语第2部分实 际 应 用第6章案例:NYC出租车数据6.1数据:NYC出租车旅程和收费信息6.1.1数据可视化6.1.2定义问题并准备数据6.2建模6.2.1基本线性模型6.2.2非线性分类器6.2.3包含分类特征6.2.4包含日期-时间特征6.2.5模型的启示6.3总结6.4本章术语第7章高级特征工程7.1高级文本特征7.1.1词袋模型7.1.2主题建模7.1.3内容拓展7.2图像特征7.2.1简单图像特征7.2.2提取物体和形状7.3时间序列特征7.3.1时间序列数据的类型7.3.2时间序列数据的预测7.3.3经典时间序列特征7.3.4事件流的特征工程7.4总结7.5本章术语第8章NLP高级案例:电影评论情感预测8.1研究数据和应用场景8.1.1数据集初探8.1.2检查数据8.1.3应用场景有哪些8.2提取基本NLP特征并构建初始模型8.2.1词袋特征8.2.2用朴素贝叶斯算法构建模型8.2.3tf-idf算法规范词袋特征8.2.4优化模型参数8.3高级算法和模型部署的考虑8.3.1word2vec特征8.3.2随机森林模型8.4总结8.5本章术语第9章扩展机器学习流程9.1扩展前需考虑的问题9.1.1识别关键点9.1.2选取训练数据子样本代替扩展性9.1.3可扩展的数据管理系统9.2机器学习建模流程扩展9.3预测扩展9.3.1预测容量扩展9.3.2预测速度扩展9.4总结9.5本章术语第10章案例:数字显示广告10.1显示广告10.2数字广告数据10.3特征工程和建模策略10.4数据大小和形状10.5奇异值分解10.6资源估计和优化10.7建模10.8K近邻算法10.9随机森林算法10.10其他实用考虑10.11总结10.12本章术语10.13摘要和结论附录常用机器学习算法名词术语中英文对照 上一篇: 新手学编程ABC丛书 C语言编程新手自学手册 下一篇: 网络操作系统教程:Windows Server 2008管理与配置