《Spark大数据处理：技术、应用与性能优化》

基本信息

作者： 高彦杰
丛书名：大数据技术丛书
出版社：机械工业出版社
ISBN：9787111483861
上架时间：2014-11-5
出版日期：2014 年11月
开本：16开
页码：255
版次：1-1
所属分类：

计算机 > 数据库 > 数据库存储与管理

编辑推荐

根据最新技术版本，系统、全面、详细讲解Spark的各项功能使用、原理机制、技术细节、应用方法、性能优化，已经BDAS生态系统的相关技术。

内容简介

书籍
计算机书籍

这是一本依据最新技术版本，系统、全面、详细讲解Spark的著作，作者结合自己在微软和IBM的实践经验和对Spark源代码的研究撰写而成。首先从技
术层面讲解了Spark的体系结构、工作机制、安装与部署、开发环境搭建、计算模型、Benchmark、BDAS等内容；然后从应用角度讲解了一些简单
的、有代表性的案例；最后对Spark的性能优化进行了探讨。

作译者

高彦杰毕业于中国人民大学，就职于IBM，精通Hadoop相关技术，较早接角虫并使用Spark，对Spark应用开发、Spark系统的运维和测试比较熟悉，深度阅读了Spark的源代码，了解 Spark的运行机制，擅长Spark的查询优化。

前言

　　Spark是发源于美国加州大学伯克利分校AMPLab的大数据分析平台，它立足于内存计算，从多迭代批量处理出发，兼顾数据仓库、流处理和图计算等
多种计算范式，是大数据系统领域的全栈计算平台。Spark当下已成为Apache基金会的顶级开源项目，拥有庞大的社区支持，技术也逐渐走向成熟。

　　为什么要写这本书

　　大数据还在如火如荼地发展着，突然之间，Spark就火了。还记得最开始接触Spark技术时资料匮乏，只有官方文档和源码可以作为研究学习的资料。
写一本Spark系统方面的技术书籍，是我持续了很久的一个想法。由于学习和工作较为紧张，最初只是通过几篇笔记在博客中分享自己学习Spark过程的点
滴，但是随着时间的推移，笔记不断增多，最终还是打算将笔记整理成书，也算是一个总结和分享。

　　在国外Yahoo!、Intel、Amazon、Cloudera等公司率先应用并推广Spark技术，在国内淘宝、腾讯、网易、星环等公司敢为人
先，并乐于分享。在随后的发展中，IBM、MapR、Hortonworks、微策略等公司纷纷将Spark融进现有解决方案，并加入Spark阵营。
Spark在工业界的应用也呈星火燎原之势。

　　随着Spark技术在国内的大范围落地、Spark中国峰会的召开，及各地meetup的火爆举行，开源软件Spark也因此水涨船高。随着大数据相
关技术和产业的逐渐成熟，公司生产环境往往需要同时进行多种类型的大数据分析作业：批处理、各种机器学习、流式计算、图计算、SQL查询等。在Spark
出现前，要在一个平台内同时完成以上数种大数据分析任务，就不得不与多套独立的系统打交道，这需要系统间进行代价较大的数据转储，但是这无疑会增加运维负
担。

　　在1年之前，关注Spark的人和公司不多，由于它包含的软件种类多，版本升级较快，技术较为新颖，初学者难以在有限的时间内快速掌握Spark蕴含
的价值。同时国内缺少一本实践与理论相结合的Spark书籍，很多Spark初学者和开发人员只能参考网络上零星的Spark技术相关博客，自己一点一滴
地阅读源码和文档，缓慢地学习Spark。本书也正是为了解决上面的问题而编写的。

　　本书从一个系统化的视角，秉承大道至简的主导思想，介绍Spark中最值得关注的内容，讲解Spark部署、开发实战，并结合Spark的运行机制及拓展，帮读者开启Spark技术之旅。

　　本书特色

　　本书是国内首本系统讲解Spark编程实战的书籍，涵盖Spark技术的方方面面。

　　1）对Spark的架构、运行机制、系统环境搭建、测试和调优进行深入讲解，以期让读者知其所以然。讲述Spark最核心的技术内容，以激发读者的联想，进而衍化至繁。

　　2）实战部分不但给出编程示例，还给出可拓展的应用场景。

　　3）剖析BDAS生态系统的主要组件的原理和应用，让读者充分了解Spark生态系统。

　　本书的理论和实战安排得当，突破传统讲解方式，使读者读而不厌。

　　本书中一些讲解实操部署和示例的章节，比较适合作为运维和开发人员工作时手边的书；运行机制深入分析方面的章节，比较适合架构师和Spark研究人员，可帮他们拓展解决问题的思路。

　　读者对象

　　Spark初学者

　　Spark二次开发人员

　　Spark应用开发人员

　　Spark运维工程师

　　开源软件爱好者

《Spark大数据处理：技术、应用与性能优化》

基本信息

编辑推荐

内容简介

作译者

目录

前言