大数据技术丛书 实用数据分析 作者:(美)HectorCuesta 著出版时间:2014年版丛编项: 大数据技术丛书内容简介 本书共14章,主要内容包括:第1章探讨数据分析的基本原理和数据分析步骤。第2章解释如何清洗并准备好数据并介绍了数据清洗工具OpenRefine。第3章展示在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。第4章介绍如何应用朴素贝叶斯算法来区分垃圾邮件。第5章介绍了一个应用动态时间规整方法来寻找图像间相似性的项目。第6章解释如何使用随机游走算法和可视化的D3.js动画技术来模拟股票价格。第7章介绍核岭回归(KRR)的原理以及如何使用此方法和时间序列数据来预测黄金价格。第8章描述如何使用支持向量机的方法进行分类分析。第9章应用细胞自动机的方法对传染病进行建模。第10章解释如何应用Gephi从Facebook获取你的社会化媒体图谱并使之实现可视化。第11章介绍如何应用Twitter数据进行情感分析。第12章介绍使用MongoDB进行数据处理和聚合。第13章详细介绍了如何在MongoDB数据库中应用MapReduce编程模型。第14章介绍如何应用IPython和Wakari开展线上数据分析。目录Preface前言本书提供了一系列现实中将数据转化为洞察力的案例。书中覆盖了广泛的数据分析工具和算法,用于进行分类分析、聚类分析、数据可视化、数据模拟以及预测。本书的目标是帮助你了解数据从而找到相应的模式、趋势、相互关系以及洞察力。书中所包括的实用项目充分利用了MongoDB、D3.js和Python语言并采用代码片段和详细描述的方式向读者呈现本书的核心概念。本书组织结构第1章探讨数据分析的基本原理和数据分析步骤。第2章解释如何清洗并准备好数据来开展分析,同时介绍了数据清洗工具OpenRefine的使用方式。第3章展示在JavaScript可视化框架下应用D3.js语言来实现各类数据的可视化方法。第4章介绍了应用朴素贝叶斯算法(Na?ve Bayes)来区分垃圾文本的一种二元分类法。第5章展示了一个应用动态时间规整方法来寻找图像间相似性的项目。第6章解释了如何使用随机游走算法和可视化的D3.js动画技术来模拟股票价格的内容。第7章介绍核岭回归(Kernel Ridge Regression,KRR)的原理以及如何使用此方法和时间序列数据来预测黄金价格。第8章描述如何使用支持向量机的方法进行分类分析。第9章介绍了对流行病进行模拟计算的基本概念并解释如何应用细胞自动机方法、D3.js和JavaScript语言来实现对流行病爆发的模拟。第10章解释如何应用Gephi从Facebook获取你的社会化媒体图谱并使之实现可视化。第11章解释如何应用Twitter的应用程序编程接口(API)来获取Twitter的数据。读者也将看到如何改进文本分类分析方法并将其应用于情感分析。这一过程是在自然语言工具包(Natural Language Toolkit, NLTK)中应用了朴素贝叶斯算法。第12章介绍在MongoDB数据库中进行基本操作以及进行分组、过滤和聚合的方法。第13章详细介绍如何在MongoDB数据库中应用MapReduce编程模型。第14章解释了如何使用Wakari平台,同时介绍了IPython中运用Pandas进行数据处理和使用PIL图像处理库的方法。附录提供书中所使用的软件工具的详细安装信息。本书技能要求 上一篇: 大学计算机基础与应用系列立体化教材 统计数据分析基础教程习题与实验指导 [叶向 编著] 2011 下一篇: 新世纪计算机类本科规划教材 排队现象的建模、解析与模拟 [曾勇,董丽华,马建峰 编著] 2011年版