大嘴巴漫谈数据挖掘(全彩)作者:易向军 著出版时间:2014年版内容简介 《大嘴巴漫谈数据挖掘(全彩)》从最基本的概率统计学开始,全面、系统、形象而又深入地描述了数据挖掘的基础概念、应用领域以及常用算法。其中每一种数据挖掘算法都辅以通俗易懂的实例,读者能够在直观性、趣味性中学习算法的具体流程,明白算法的实现过程。通过《大嘴巴漫谈数据挖掘(全彩)》的学习,读者可以对数据挖掘的概念、应用和算法技术有一个清晰的理解和认识,并可以熟悉相关统计学的基本原理。《大嘴巴漫谈数据挖掘(全彩)》适合想从事数据挖掘方面的工作的初学者、数据分析爱好者、分析师,以及一线的数据挖掘开发人员参考阅读,也适合客户经理针对如何开展针对性的营销活动,避免客户流失而阅读学习,更适合产品经理阅读,因为针对如何预测产品的目标用户,促进用户活跃和业务有效使用,靠经验已经不行了,数据才最有说服力,更适合企业管理者将其作为一本通俗易懂的数据挖掘基础读物阅读学习,对下属的工作方向给予指导,以及适合教师学生数据挖掘课程辅导之用。目录第一境昨夜西风凋碧树。独上高楼,望尽天涯路…… 1.1数据挖掘简介 开篇点题引五问 大数据中求价值 定义概述归特点 知识决策跨领域 架构特征多形式 数据立方展多维 功能挖掘四大类 分类刻画类标识 数据聚类辨亲疏 预测未来训模型 关联源自购物篮 模型过程方法论 十大算法成经典 1.2数据挖掘应用 行业推广多应用 用户为王放心中 指导运营全周期 定位目标寻用户 精准营销成闭环 交叉产品有关联 细分用户刻画像 用户体验模型化 指标评测建体系 流失预警保用户 跟踪评估验效果 第二境衣带渐宽终不悔,为伊消得人憔悴…… 2.1概率定义 浮生难料尽偶然 一枚硬币抛正反 引出随机小试验 样本空间样本点 事件三分包万象 试验频率需频繁 次数无限值极限 描述概率定特点 古典概型等可能 事件B后A在前 求出概率称条件 独立事件A和B 抽签中奖公平性 常用概率两公式 交空并全划样本 综合状态全概率 前因后果贝叶斯 2.2随机变量 随机试验数量化 统计规律双类型 离散变量分布律 硬币抛掷是一零 分布函数连续型 函数求导得密度 高斯分布称正态 标准正态分位点 2.3数字特征 随机变量有特征 平均取值是期望 方差衡量偏离值 标准开根同量纲 变量关系协方差 相关系数相关度 研究总体要抽样 抽样分布统计量 2.4参数估计 最小二乘估参数 极大似然大概率 区间估计置信度 2.5假设检验 总体假设来检验 服从正态抽样本 统计量中验假设 弃真取伪两错误 显著检验小概率 小概率中拒绝域 检验流程出决策 已知总体方差值 检验中验均值 第三境众里寻她千百度,蓦然回首,那人却在,灯火阑珊处。 3.1关联规则 购物篮中找关联 数据事务若干项 事务空间含项集 置信支持提升度 规则源于频繁项 k项连接和剪枝 生成非空规则集 关联效果来评估 3.2决策树 决策思维成树形 分类预测工作流 原理基于信息熵 信息增益条件熵 节点拆分选特征 3.3贝叶斯 预测分类贝叶斯 类别概率要最大 分类数据新预测 3.4聚类分析 物以类聚人以群 样本变量定矩阵 R型Q型换空间 距离度量相似度 系数聚类统计量 标准样本选欧氏 层次聚合归大类 3.5神经网络 神经网络神经元 神经元中有加权 输入映射输出层 求出误差调参数 权重偏置学习率 实例分析模型流 3.6线性回归 研究身高引回归 单自变量归一元 最小二乘估回归 数据差异总离差 分为解释和误差 判定系数拟合度 多元回归建方程 回归面中展二元 求得回归系数解 衡量拟合验效果 3.7逻辑回归 因变量中二分类 二项逻辑回归式 极大似然解方程 预测分类符合率 3.8因子分析 相关变量纳因子 因子构造筑模型 因子载荷统计性 衡量信息共同度 方差贡献重要性 因子分析四步曲 构造因子求载荷 旋转因子得命名 因子组合求得分 3.9信度分析 设计问卷来调研 信度检验可靠性 3.10效度分析 结构方程协方差 测量模型内外生 结构模型潜变量 效度分析路径图 提出假设依理论 固定负荷识模型 相关阵中估参数 上一篇: 大数据的力量 下一篇: 大话数据挖掘