Python自然语言处理入门与实战 作者:戴程出版时间: 2022年版内容简介本书以自然语言处理常用技术与真实案例相结合的方式,深入浅出地介绍自然语言处理中的关键内容。全书共8章,内容包括导论、文本数据爬取、文本基础处理、文本进阶处理、天问一号事件中的网民评论情感分析、新闻文本分类、基于浏览记录的个性化新闻推荐,以及基于TipDM大数据挖掘建模平台实现新闻文本分类。本书各章均包含课后习题,其中前4章为选择题,后4章为操作题,可帮助读者通过练习和操作实践,巩固所学的内容。本书可作为高校数据科学、人工智能和新闻传播相关专业的教材,也可作为自然语言处理爱好者的自学用书。目 录第1章 导论1.1 自然语言处理概述1.1.1 发展历程1.1.2 研究任务1.1.3 自然语言处理与新闻传媒1.2 自然语言处理工具1.2.1 常见的自然语言处理工具1.2.2 Python与自然语言处理1.3 NLP的开发环境1.3.1 Anaconda安装1.3.2 Anaconda应用介绍小结课后习题第2章 文本数据爬取2.1 HTTP通信基础2.1.1 熟悉HTTP请求方法与过程2.1.2 熟悉常见HTTP状态码2.1.3 熟悉HTTP头部信息2.1.4 熟悉Cookie2.2 静态网页爬取2.2.1 实现HTTP请求2.2.2 网页解析2.2.3 数据存储2.3 动态网页爬取2.3.1 逆向分析爬取2.3.2 使用Selenium库爬取小结课后习题第3章 文本基础处理3.1 语料库3.1.1 语料库概述3.1.2 语料库种类与原则3.1.3 NLTK库3.1.4 语料库的获取3.1.5 语料库的构建与应用3.2 分词与词性标注3.2.1 中文分词简介3.2.2 基于规则的分词3.2.3 基于统计的分词3.2.4 中文分词工具jieba库3.2.5 词性标注简介3.2.6 词性标注规范3.2.7 jieba词性标注3.3 命名实体识别3.3.1 命名实体识别简介3.3.2 CRF模型3.3.3 命名实体识别流程3.4 关键词提取3.4.1 关键词提取技术简介3.4.2 关键词提取算法3.4.3 自动提取文本关键词小结课后习题第4章 文本进阶处理4.1 文本向量化4.1.1 文本向量化简介4.1.2 文本离散表示4.1.3 分布式表示4.1.4 Word2Vec词向量的训练4.2 文本相似度计算4.2.1 文本相似度的定义4.2.2 文本的表示4.2.3 常用文本相似度算法4.3 文本分类与聚类4.3.1 文本挖掘简介4.3.2 文本分类常用算法4.3.3 文本聚类常用算法4.3.4 文本分类与聚类的步骤4.3.5 新闻文本分类4.3.6 新闻文本聚类小结课后习题第5章 天问一号事件中的网民评论情感分析5.1 业务背景与项目目标5.1.1 业务背景5.1.2 数据说明5.1.3 分析目标5.2 分析方法与过程5.2.1 数据探索5.2.2 文本预处理5.2.3 绘制词云图5.2.4 使用朴素贝叶斯构建情感分类模型5.2.5 模型评估5.2.6 模型优化小结课后习题第6章 新闻文本分类6.1 业务背景与项目目标6.1.1 业务背景6.1.2 数据说明6.1.3 分析目标6.2 分析方法与过程6.2.1 数据采集6.2.2 数据探索6.2.3 文本预处理6.2.4 SVM模型构建6.2.5 模型评价小结课后习题第7章 基于浏览记录的个性化新闻推荐7.1 业务背景与项目目标7.1.1 业务背景7.1.2 数据说明7.1.3 分析目标…… 上一篇: Power BI数据分析与应用 孙浩 2022年版 下一篇: Scratch项目式编程实战:打造超酷大型游戏 王鸿骏 2021年版