统计反思 用R和Stan例解贝叶斯方法 出版时间: 2019年版丛编项: 数据科学与工程技术丛书内容简介 本书以Stan统计软件为基础,以R代码为例,提供了一个实际的统计推断的基础。从贝叶斯统计方法的角度出发,介绍了统计反思的相关知识,以及一些常用的进行类似权衡的工具,展示了两个完整的*常用的计数变量回归,介绍了应对常见的单一模型无法很好地拟合观测数据的排序分类模型与零膨胀和零增广模型,提出了基于贝叶斯概率和*大熵的广义线性分层模型以及处理空间和网络自相关的高斯过程模型。 本书适合统计、数学等相关专业的高年级本科生、研究生,以及数据挖掘的从业人士阅读。目录译者序前言第1章 布拉格的泥人1 1.1 统计机器人1 1.2 统计反思41.2.1 假设检验不是模型51.2.2 测量很关键81.2.3 证伪是一种共识10 1.3 机器人工程的3种工具101.3.1 贝叶斯数据分析111.3.2 分层模型141.3.3 模型比较和信息法则15 1.4 总结16第2章 小世界和大世界18 2.1 路径花园192.1.1 计算可能性202.1.2 使用先验信息232.1.3 从计数到概率24 2.2 建立模型262.2.1 数据背景262.2.2 贝叶斯更新272.2.3 评估28 2.3 模型组成302.3.1 似然函数302.3.2 参数312.3.3 先验322.3.4 后验33 2.4 开始建模352.4.1 网格逼近362.4.2 二项逼近372.4.3 马尔可夫链蒙特卡罗40 2.5 总结41 2.6 练习41第3章 模拟后验样本43 3.1 后验分布的网格逼近抽样46 3.2 样本总结473.2.1 取值区间对应的置信度483.2.2 某个置信度下的取值区间493.2.3 点估计52 3.3 抽样预测553.3.1 虚拟数据553.3.2 模型检查57 3.4 总结61 3.5 练习61第4章 线性模型64 4.1 为什么人们认为正态分布是常态654.1.1 相加得到正态分布654.1.2 通过相乘得到正态分布674.1.3 通过相乘取对数得到正态分布674.1.4 使用高斯分布68 4.2 用来描述模型的语言70 4.3 身高的高斯模型714.3.1 数据724.3.2 模型734.3.3 网格逼近后验分布764.3.4 从后验分布中抽取样本774.3.5 用map拟合模型794.3.6 从map拟合结果中抽样82 4.4 添加预测变量844.4.1 线性模型策略854.4.2 拟合模型884.4.3 解释模型拟合结果89 4.5 多项式回归101 4.6 总结105 4.7 练习105第5章 多元线性回归108 5.1 虚假相关1105.1.1 多元回归模型的数学表达1125.1.2 拟合模型1135.1.3 多元后验分布图114 5.2 隐藏的关系122 5.3 添加变量起反作用1285.3.1 共线性1295.3.2 母乳数据中的共线性1325.3.3 后处理偏差136 5.4 分类变量1385.4.1 二项分类1395.4.2 多类别1415.4.3 加入一般预测变量1445.4.4 另一种方法:独一无二的截距144 5.5 一般最小二乘和lm1455.5.1 设计公式1455.5.2 使用lm1465.5.3 从lm公式构建map公式147 5.6 总结148 5.7 练习148第6章 过度拟合、正则化和信息法则150 6.1 参数的问题1526.1.1 更多的参数总是提高拟合度1536.1.2 参数太少也成问题156 6.2 信息理论和模型表现1586.2.1 开除天气预报员1586.2.2 信息和不确定性1616.2.3 从熵到准确度1636.2.4 从散度到偏差1656.2.5 从偏差到袋外样本167 6.3 正则化169 6.4 信息法则1716.4.1 DIC1736.4.2 WAIC1736.4.3 用DIC和WAIC估计偏差176 6.5 使用信息法则1786.5.1 模型比较1786.5.2 比较WAIC值1806.5.3 模型平均185 6.6 总结187 6.7 练习188第7章 交互效应190 7.1 创建交互效应1927.1.1 添加虚拟变量无效1957.1.2 加入线性交互效应是有效的1977.1.3 交互效应可视化1997.1.4 解释交互效应估计200 7.2 线性交互的对称性2037.2.1 布里丹的交互效应2037.2.2 国家所属大陆的影响取决于地势204 7.3 连续交互效应2057.3.1 数据2067.3.2 未中心化的模型2067.3.3 中心化且再次拟合模型2097.3.4 绘制预测图212 7.4 交互效应的公式表达214 7.5 总结215 7.6 练习215第8章 马尔可夫链蒙特卡罗218 8.1 英明的马尔可夫国王和他的岛屿王国219 8.2 马尔可夫链蒙特卡罗2218.2.1 Gibbs抽样2228.2.2 Hamiltonian蒙特卡罗222 8.3 初识HMC:map2stan2248.3.1 准备2258.3.2 模型估计2258.3.3 再次抽样2268.3.4 可视化2278.3.5 使用样本2298.3.6 检查马尔可夫链230 8.4 调试马尔可夫链2318.4.1 需要抽取多少样本2328.4.2 需要多少条马氏链2338.4.3 调试出错的马氏链2348.4.4 不可估参数236 8.5 总结238 8.6 练习239第9章 高熵和广义线性模型241 9.1 最大熵2429.1.1 高斯分布2469.1.2 二项分布248 9.2 广义线性模型2539.2.1 指数家族2549.2.2 将线性模型和分布联系起来2569.2.3 绝对和相对差别2599.2.4 广义线性模型和信息法则259 9.3 最大熵先验260 9.4 总结260第10章 计数和分类261 10.1 二项回归26210.1.1 逻辑回归:亲社会的大猩猩26210.1.2 累加二项:同样的数据,用累加后的结果27110.1.3 累加二项:研究生院录取27210.1.4 用glm拟合二项回归模型278 10.2 泊松回归27910.2.1 例子:海洋工具复杂度28110.2.2 MCMC岛屿28710.2.3 例子:曝光和抵消项288 10.3 其他计数回归29010.3.1 多项分布29010.3.2 几何分布29410.3.3 负二项和贝塔二项分布295 10.4 总结295 10.5 练习295第11章 怪物和混合模型297 11.1 排序分类变量29711.1.1 案例:道德直觉29811.1.2 通过截距描绘有序分布29911.1.3 添加预测变量303 11.2 零膨胀结果变量307 11.3 过度离散结果31011.3.1 贝塔二项模型31111.3.2 负二项或者伽马泊松分布31411.3.3 过度分散、熵和信息理论314 11.4 总结315 11.5 练习315第12章 分层模型318 12.1 案例:蝌蚪数据分层模型320 12.2 变化效应与过度拟合/拟合不足32612.2.1 建模32712.2.2 对参数赋值32812.2.3 模拟存活的蝌蚪32912.2.4 非聚合样本估计32912.2.5 部分聚合估计330 12.3 多重聚类33212.3.1 针对不同黑猩猩分层33312.3.2 两重聚类33412.3.3 更多的聚类337 12.4 分层模型后验预测33712.4.1 原类别后验预测33812.4.2 新类别后验预测33912.4.3 聚焦和分层模型342 12.5 总结345 12.6 练习345第13章 解密协方差347 13.1 变化斜率34813.1.1 模拟数据34913.1.2 模拟观测35113.1.3 变化斜率模型352 13.2 案例分析:录取率和性别35713.2.1 变化截距35713.2.2 性别对应的变化效应35813.2.3 收缩效应36013.2.4 模型比较36013.2.5 更多斜率361 13.3 案例分析:对黑猩猩数据拟合变化斜率模型361 13.4 连续变量和高斯过程36813.4.1 案例:岛屿社会工具使用和空间自相关36813.4.2 其他“距离”375 13.5 总结375 13.6 练习375第14章 缺失数据及其他378 14.1 测量误差37914.1.1 结果变量误差38114.1.2 结果变量和预测变量同时存在误差383 14.2 缺失数据38514.2.1 填补新皮层数据38514.2.2 改进填补模型38914.2.3 非随机390 14.3 总结392 14.4 练习393第15章 占星术与统计学394参考文献398 上一篇: 同济博士论丛 多复变亚纯函数及亚纯映射的唯一性定理 下一篇: 无理数的那些事儿