OPENACC高性能并行编程 概念与策略作者: [美]钱德拉塞克兰出版时间: 2019年版丛编项: 高性能计算技术丛书内容简介 本书是介绍大规模并行编程OpenACC的综合实践性书籍之一。书中前3章介绍了OpenACC背后的概念和OpenACC开发工具;第4章至第7章带你了解第1个真实世界的OpenACC程序,并揭示OpenACC程序编译背后的魔力,从而引入更多概念;第8章至第10章涵盖高级主题,例如OpenACC的替代方案、底层设备交互、多设备编程和任务并行性;第11章和第12章探讨了OpenACC实现潜在新语言特性的各种研究领域。目录赞誉推荐序译者序前言致谢贡献者简介译者简介第1章 OpenACC概述 11.1 OpenACC语法 21.1.1 导语 31.1.2 子语 31.1.3 API例程与环境变量 41.2 计算构件 41.2.1 kernels 51.2.2 parallel 61.2.3 loop 71.2.4 routine 71.3 数据环境 91.3.1 数据导语 91.3.2 数据子语 101.3.3 cache导语 111.3.4 部分数据传输 111.4 总结 121.5 练习 12第2章 循环级并行性 142.1 kernels循环与parallel循环的比较 152.2 并行性的三个级别 182.2.1 gang、worker与vector子语 182.2.2 将并行性映射到硬件 192.3 其他loop构件 202.3.1 循环折叠 202.3.2 independent子语 212.3.3 seq与auto子语 222.3.4 reduction子语 232.4 总结 252.5 练习 26第3章 OpenACC编程工具 273.1 架构的通用特性 273.2 编译OpenACC代码 283.3 OpenACC应用程序的性能分析 303.3.1 性能分析层次和术语 303.3.2 性能数据获取 313.3.3 性能数据记录和显示 323.3.4 OpenACC性能分析接口 323.3.5 支持OpenACC的性能工具 333.3.6 NVIDIA性能分析工具 343.3.7 针对混合应用程序的Score-P工具基础架构 353.3.8 TAU性能系统 403.4 识别OpenACC程序中的bug 423.5 总结 443.6 练习 45第4章 使用OpenACC编写第一个程序 484.1 案例研究 484.1.1 串行代码 494.1.2 编译代码 554.2 创建一个原生的并行版本 564.2.1 找到热点 564.2.2 使用kernels安全吗 564.2.3 OpenACC实现 564.3 OpenACC程序的性能 594.4 优化的并行版本 604.4.1 减少数据移动 614.4.2 特别聪明的小改动 624.4.3 最终的结果 634.5 总结 654.6 练习 66第5章 编译OpenACC 675.1 并行性的挑战 685.1.1 并行硬件 685.1.2 映射循环 695.1.3 内存层次结构 715.1.4 归约 725.1.5 应对并行性的OpenACC 725.2 重建编译器 735.2.1 编译器可以做什么 745.2.2 编译器不能做什么 755.3 编译OpenACC 765.3.1 代码预备工作 775.3.2 调度 775.3.3 串行代码 785.3.4 用户错误 795.4 总结 805.5 练习 81第6章 最佳编程实践 836.1 通用准则 846.1.1 最大化设备计算 846.1.2 优化数据局部性 856.2 最大化设备计算 866.2.1 原子操作 866.2.2 kernels构件与parallel构件 876.2.3 运行时调优和if子语 886.3 优化数据局部性 896.3.1 最少化数据传输 896.3.2 数据复用和present子语 906.3.3 非结构化数据生命周期 916.3.4 指定数组形状 926.4 典型示例 926.4.1 背景知识:热力学报表 926.4.2 基线CPU版本的实现 936.4.3 性能分析 936.4.4 使用OpenACC进行加速 946.4.5 优化数据局部性 966.4.6 性能研究 976.5 总结 986.6 练习 98第7章 OpenACC与性能可移植性 997.1 挑战 997.2 目标架构 1007.2.1 特定平台的编译 1017.2.2 x86_64多核与NVIDIA 1017.3 OpenACC性能可移植性 1017.3.1 OpenACC内存模型 1027.3.2 内存架构 1027.3.3 代码生成 1027.3.4 性能可移植性的数据布局 1037.4 代码重构以实现性能可移植性 1037.4.1 HACCmk 1037.4.2 面向多种架构 1057.4.3 openACC在NVIDIA K20x GPU上的应用 1067.4.4 openACC在AMD Bulldozer多核上的应用 1077.5 总结 1087.6 练习 109第8章 并行编程的其他方式 1118.1 编程模型 1118.1.1 OpenACC 1138.1.2 OpenMP 1138.1.3 CUDA 1148.1.4 OpenCL 1148.1.5 C++ AMP 1158.1.6 Kokkos 1158.1.7 RAJA 1168.1.8 线程构建模块 1168.1.9 C++17 1168.1.10 Fortran 2008 1178.2 编程模型组件 1178.2.1 并行循环 1188.2.2 并行归约 1198.2.3 紧密嵌套循环 1218.2.4 分层并行性(非紧密嵌套循环) 1228.2.5 任务并行性 1248.2.6 数据分配 1258.2.7 数据传输 1268.3 案例研究 1278.3.1 串行实现 1288.3.2 OpenACC实现 1298.3.3 OpenMP实现 1308.3.4 CUDA实现 1318.3.5 Kokkos实现 1348.3.6 TBB实现 1368.3.7 一些性能数字 1388.4 总结 1408.5 练习 140第9章 OpenACC与互操作性 1429.1 在OpenACC中调用原生设备代码 1429.1.1 示例:使用DFT进行图像滤波 1439.1.2 host_data导语及use_device子语 1459.1.3 目标平台相关API例程 1479.2 在原生设备代码中调用OpenACC 1499.3 OpenACC互操作性高级话题 1499.3.1 acc_map_data 1499.3.2 在OpenACC kernel中调用CUDA设备例程 1519.4 总结 1529.5 练习 152第10章 OpenACC高级特性 15310.1 异步操作 15310.1.1 OpenACC异步编程 15510.1.2 软件流水线 16010.2 多设备编程 16810.2.1 多设备流水线 16910.2.2 OpenACC与MPI 17210.3 总结 17610.4 练习 176第11章 使用OpenACC的创新研究思路,第1部分 17711.1 神威OpenACC 17711.1.1 SW26010众核处理器 17811.1.2 神威太湖之光中的内存模型 17811.1.3 执行模型 18011.1.4 数据管理 18111.1.5 总结 18311.2 针对加速器的嵌套循环编译器转换 18411.2.1 OpenUH编译器基础架构 18511.2.2 循环调度转换 18711.2.3 循环调度的性能评估 19011.2.4 OpenUH的其他研究课题 193第12章 使用OpenACC的创新研究思路,第2部分 19412.1 一个基于导语的高性能可重构计算框架 19412.1.1 介绍 19512.1.2 OpenACC到FPGA的基线翻译 19612.1.3 用于高效FPGA编程的OpenACC扩展和优化 19812.1.4 评估 20312.1.5 总结 20712.2 使用XcalableACC编程加速集群 20712.2.1 XcalableMP介绍 20812.2.2 XcalableACC:当XcalableMP遇上OpenACC 21112.2.3 Omni编译器的实现 21312.2.4 在HA-PACS上的性能评估 21512.2.5 总结 220 上一篇: Laravel框架开发实战 黑马程序员 2021年版 下一篇: Power BI数据分析与应用 孙浩 2022年版