Python数据分析与挖掘实战 作者:翟世臣出版时间: 2022年版内容简介本书以Python数据分析与挖掘的常用技术与真实案例相结合的方式,深入浅出地介绍Python数据分析与挖掘的重要内容。本书共11章,分为基础篇(第1~5章)和实战篇(第6~11章),基础篇包括数据挖掘基础、Python数据挖掘编程基础、数据探索、数据预处理、数据挖掘算法基础等基础知识;实战篇包括6个案例,分别为信用卡高风险客户识别、餐饮企业菜品关联分析、金融服务机构资金流量预测、O2O优惠券使用预测、电视产品个性化推荐,以及基于TipDM大数据挖掘建模平台实现金融服务机构资金流量预测。本书大部分章节包含实训和课后习题,通过练习和操作实践,可帮助读者巩固所学的内容。 本书可作为“1+X”证书制度试点工作中的大数据应用开发(Python)职业技能等级(高级)证书的教学和培训用书,也可作为高校数据科学或人工智能相关专业的教材,还可作为数据挖掘爱好者的自学用书。目 录基础篇第1章 数据挖掘基础 11.1 数据挖掘发展史 11.2 数据挖掘的常用方法 21.3 数据挖掘的通用流程 21.3.1 目标分析 21.3.2 数据抽取 21.3.3 数据探索 31.3.4 数据预处理 31.3.5 分析与建模 41.3.6 模型评价 41.4 常用数据挖掘工具 41.5 Python数据挖掘环境配置 5小结 7课后习题 7第2章 Python数据挖掘编程基础 92.1 Python使用入门 92.1.1 基本命令 92.1.2 判断与循环 122.1.3 函数 132.1.4 库的导入与添加 152.2 Python数据分析预处理的常用库 172.2.1 NumPy 172.2.2 pandas 172.2.3 Matplotlib 182.3 Python数据挖掘建模的常用库和框架 182.3.1 scikit-learn 182.3.2 深度学习框架 192.3.3 其他 21小结 22实训 判断、函数、类型转换的使用 22课后习题 23第3章 数据探索 243.1 数据校验 243.1.1 一致性校验 243.1.2 缺失值校验 273.1.3 异常值校验 293.2 数据特征分析 333.2.1 描述性统计分析 333.2.2 分布分析 363.2.3 对比分析 403.2.4 周期性分析 433.2.5 贡献度分析 443.2.6 相关性分析 45小结 48实训 48实训1 分布分析、描述性统计分析和贡献度分析 48实训2 对比分析、相关性分析和周期性分析 49课后习题 50第4章 数据预处理 524.1 数据清洗 524.1.1 重复值处理 524.1.2 缺失值处理 554.1.3 异常值处理 574.2 数据变换 584.2.1 简单函数变换 584.2.2 数据标准化 584.2.3 数据离散化 614.2.4 独热编码 634.3 数据合并 654.3.1 多表合并 654.3.2 分组聚合 72小结 80实训 80实训1 数据清洗 80实训2 数据变换 82实训3 数据合并 82课后习题 82第5章 数据挖掘算法基础 845.1 分类与回归 845.1.1 常用的分类与回归算法 845.1.2 分类与回归模型评价 855.1.3 线性模型 895.1.4 决策树 935.1.5 最近邻分类 975.1.6 支持向量机 995.1.7 神经网络 1015.1.8 集成算法 1075.2 聚类 1125.2.1 常用的聚类算法 1125.2.2 聚类模型评价 1145.2.3 K-Means算法 1155.2.4 密度聚类 1205.2.5 层次聚类 1235.3 关联规则 1265.3.1 常用关联规则算法 1265.3.2 Apriori算法 1275.4 智能推荐 1315.4.1 常用智能推荐算法 1315.4.2 智能推荐模型评价 1325.4.3 协同过滤推荐算法 1335.4.4 基于流行度的推荐算法 1385.5 时间序列 1395.5.1 时间序列算法 1405.5.2 时间序列的预处理 1405.5.3 平稳序列分析 1425.5.4 非平稳序列分析 144实训 152实训1 使用分类算法实现客户流失预测 152实训2 使用K-Means聚类算法实现超市顾客聚类分析 152实训3 使用Apriori算法挖掘网址间的相关关系 153实训4 使用协同过滤推荐算法实现对用户进行品牌的个性化推荐 153实训5 使用ARIMA算法实现气温预测 154课后习题 155实战篇第6章 信用卡高风险客户识别 1586.1 背景与目标 1586.1.1 背景 1586.1.2 数据说明 1596.1.3 目标 1606.2 数据探索 1616.2.1 描述性统计分析 1616.2.2 客户历史信用记录 1626.2.3 客户经济情况 1646.2.4 客户经济风险情况 1666.3 数据预处理 1696.3.1 数据清洗 1696.3.2 属性构造 1716.4 分析与建模 1746.4.1 参数寻优 1746.4.2 构建聚类模型 1766.4.3 信用卡客户风险分析 1766.5 模型评价 179小结 180实训 使用K-Means聚类算法实现运营商客户价值分析 180课后习题 181第7章 餐饮企业菜品关联分析 1827.1 背景与目标 1827.1.1 背景 1827.1.2 数据说明 1837.1.3 目标 1857.2 数据探索 1857.2.1 分析每日用餐人数和营业额 1857.2.2 分析菜品热销度 1877.3 数据预处理 1897.3.1 数据清洗 1897.3.2 属性构造 1907.4 分析与建模 1917.4.1 构建Apriori模型 1917.4.2 训练模型 1937.5 模型评价 194小结 196实训 西饼屋订单关联分析 197课后习题 197第8章 金融服务机构资金流量预测 1988.1 背景与目标 1988.1.1 背景 1988.1.2 数据说明 1998.1.3 目标 2008.2 数据预处理 2018.2.1 属性构造 2018.2.2 截取平稳部分数据 2028.2.3 周期性差分 2048.2.4 平稳性检验和白噪声检验 2058.3 分析与建模 2058.3.1 时间序列模型的定阶 2058.3.2 模型检验 2068.4 模型评价 207小结 209实训 构建ARIMA模型预测资金赎回数据 210课后习题 210第9章 O2O优惠券使用预测 2119.1 背景与目标 2119.1.1 背景 2119.1.2 数据说明 2129.1.3 目标 2129.2 数据探索 2139.2.1 描述性统计分析 2139.2.2 分析优惠形式信息 2159.2.3 分析用户消费行为信息 2169.2.4 分析商户投放优惠券信息 2189.3 数据预处理 2219.3.1 数据清洗 2219.3.2 数据变换 2229.4 分析与建模 2259.4.1 决策树分类模型 2259.4.2 梯度提升分类模型 2279.4.3 XGBoost分类模型 2289.5 模型评价 229小结 232实训 运营商客户流失预测 232课后习题 233第10章 电视产品个性化推荐 23510.1 背景与目标 23510.1.1 背景 23510.1.2 数据说明 23610.1.3 目标 23710.2 数据预处理 23810.2.1 数据清洗 23810.2.2 数据探索 24110.2.3 属性构造 24810.3 分析与建模 25110.3.1 基于物品的协同过滤推荐模型 25210.3.2 基于流行度的推荐模型 25410.4 模型评价 255小结 257实训 网页浏览个性化推荐 257课后习题 258第11章 基于TipDM大数据挖掘建模平台实现金融服务机构资金流量预测 25911.1 平台简介 25911.1.1 实训库 26111.1.2 数据连接 26111.1.3 实训数据 26111.1.4 我的实训 26211.1.5 系统算法 26211.1.6 个人算法 26411.2 快速构建金融服务机构资金流量预测实训 26511.2.1 数据源配置 26611.2.2 属性构造 26711.2.3 数据筛选 27111.2.4 周期性差分 27211.2.5 序列检验 27411.2.6 分析与建模 276小结 279实训 构建ARIMA模型预测航空公司乘客量数据 279课后习题 279 上一篇: Python Web开发项目教程:Flask版 黑马程序员 2023年版 下一篇: Python深度学习入门:从零构建CNN和RNN [美]韦德曼 2021年版