《 面向大型集群高速通用数据处理的架构 》
- 大型集群高速数据处理通用架构MapReduce弹性分布式数据集(RDD)Spark批处理流式计算交互式查询机器学习
- #技术专著 #大数据计算 #论文改编 #权威著作 #开源系统 #高性能 #产业验证
- 选题分类:程序设计 软件工程
- 原版语种:英语(可提供图书翻译服务)
- 原出版地:美国
- 出版日期:2016年05月
- 页数:143页
- 图书定价:39.95 美元
- 开本:(不详)
- 内文印刷:(不详)
- 字数:(不详)
申请样书样章
您正在通过本网站在线提交出版评估申请。
若您的申请获得通过,您将可以在线对本作品的电子样书进行查看。
特别提示:
1、一旦提交本申请,则表示您承诺自愿通过成都锐拓传媒广告有限公司申请上述图书的中文版权,并承诺在申请日起18个月内,不会向任何第三方(包括但不限于图书作者、出版方及其他代理商等)申请或联系上述图书的中文简体版权。否则,我公司有权关闭您在本网站的使用权限,且不再与您进行任何业务合作,并有权要求您支付不低于人民币5000元/本的违约金,或将上述违约金直接从您的账户余额中予以扣除。
2、您通过本功能在线申请样书样章而支付的费用仅为样书样章在线查阅的费用,不代表我公司对上述图书的中文版权授权事宜向您作出任何承诺。除非发生我公司无法向您提交样书或样章的情况,否则无论最终是否与您达成中文版权的交易合作,该费用概不退还。
申请翻译样章
您正在通过本网站在线提交翻译样章申请。
若您的申请获得通过,您将可以在线对本作品的翻译样章进行查看。
特别提示:
1、一旦提交本申请,则表示您承诺自愿通过成都锐拓传媒广告有限公司申请上述图书的中文版权,并承诺在申请日起18个月内,不会向任何第三方(包括但不限于图书作者、出版方及其他代理商等)申请或联系上述图书的中文简体版权。否则,我公司有权关闭您在本网站的使用权限,且不再与您进行任何业务合作,并有权要求您支付不低于人民币5000元/本的违约金,或将上述违约金直接从您的账户余额中予以扣除。
2、您通过本功能在线申请样书样章而支付的费用仅为样书样章在线查阅的费用,不代表我公司对上述图书的中文版权授权事宜向您作出任何承诺。除非发生我公司无法向您提交样书或样章的情况,否则无论最终是否与您达成中文版权的交易合作,该费用概不退还。
版权推荐
★提出弹性分布式数据集(RDD)核心原语,在保留MapReduce优势的基础上,实现批处理、流式计算、交互式查询的融合支持。
★基于该架构实现的Spark系统,性能媲美甚至超越专用系统,且容错性更强,已在产业界得到广泛应用与验证。
内容简介
与此同时,数据处理对速度与复杂度的要求也在不断提升。除简单的查询任务外,机器学习、图分析这类复杂算法的应用场景正变得越来越普遍;除批处理模式外,为支持机构及时做出决策,实时数据流的流式分析也成为刚需。未来的计算平台不仅需要支撑传统工作负载的集群扩展,还必须兼容这些新兴应用场景。
本书改编自2014年美国计算机协会博士论文奖的获奖论文,提出了一种能够高效处理新兴数据处理工作负载的集群计算系统架构。早期的集群计算系统(如MapReduce)仅支持批处理模式,而本架构在保留MapReduce可扩展性与容错性优势的基础上,新增了对流式计算与交互式查询的支持。多数已投入使用的系统仅支持简单的单次遍历计算(如SQL查询),而本架构则进一步拓展至机器学习等复杂分析任务所需的多次遍历算法。此外,不同于针对部分工作负载设计的专用系统,本架构支持多种计算模式的融合,能够催生出流式计算与批处理深度结合的新型高价值应用。
我们通过对MapReduce架构进行简单扩展,引入了名为弹性分布式数据集(RDD)的数据共享原语,便实现了上述全部特性。实践证明,这一设计足以支撑各类多样化的工作负载。我们在开源系统Spark中实现了RDD,并通过模拟与真实工作负载完成了性能验证。结果显示,Spark在多个领域的性能均达到或超越了专用系统,同时具备更强的容错能力,且支持多种工作负载的融合运行。最后,我们还从理论建模与系统实现两个维度,验证了RDD设计的通用性。
此版论文对全文内容进行了勘误修订,并新增了一个章节,专门介绍2014年以来Apache Spark在产业界的发展历程。此外,本书还完善了文字编辑、版式设计,并为参考文献补充了相关链接。
作者介绍
于2007年获得滑铁卢大学学士学位,2013年获得加州大学伯克利分校博士学位。就读伯克利分校期间,他与斯科特·申克尔、扬·斯托伊卡合作,致力于云计算、网络技术与大规模数据处理领域的研究。在整个研究生涯中,他为Apache Hadoop、Mesos、Spark等多个开源项目作出了重要贡献。目前,马泰·扎哈里亚担任麻省理工学院助理教授,同时兼任数据砖公司(Databricks)首席技术官,该公司由Apache Spark的创始团队组建而成。
相关推荐
★提出弹性分布式数据集(RDD)核心原语,在保留MapReduce优势的基础上,实现批处理、流式计算、交互式查询的融合支持。
★基于该架构实现的Spark系统,性能媲美甚至超越专用系统,且容错性更强,已在产业界得到广泛应用与验证。





