汇聚社区经验精华,阐述配置Hadoop集群运行最优MapReduce作业的方法
Key Features
- 原理与实践相结合,通过原理讲解影响MapReduce性能的因素
- 透过实例一步步地教读者如何发现性能瓶颈并消除瓶颈,如何识别系统薄弱环节并改善薄弱环节
- 讲解过程中融合了作者在优化实践过程中积累的丰富经验,具有很强的针对性
- 既覆盖了系统层面的优化又覆盖程序层面的优化
Book Description
大数据时代,MapReduce的重要性不言而喻。Hadoop作为MapReduce框架的一个实现,受到业界广泛的认同,并被广泛部署和应用。尽管Hadoop为数据开发工程师入门和编程提供了极大便利,但构造一个真正满足性能要求的MapReduce程序并不简单。数据量巨大是大数据工作的现实问题,而对低响应时间的要求则时常困扰着数据开发工程师。本书采用原理与实践相结合的方式,通过原理讲解影响MapReduce性能的因素,透过实例一步步地教读者如何发现性能瓶颈并消除瓶颈,如何识别系统薄弱环节并改善薄弱环节,讲解过程中融合了作者在优化实践过程中积累的丰富经验,具有很强的针对性。读完本书,能让读者对Hadoop具有更强的驾驭能力,从而构造出性能最优的MapReduce程序。
Hadoop性能问题既是程序层面的问题,也是系统层面的问题。本书既覆盖了系统层面的优化又覆盖了程序层面的优化,非常适合Hadoop管理员和有经验的数据开发工程师阅读。对于初学者,本书第1章也作了必要的技术铺垫,避免对后面章节的理解产生梯度。
What you will learn
- 量化Hadoop集群的节点配置
- 利用Hadoop MapReduce性能计数器判断资源瓶颈
- 正确设置mapper和reducer的数量
- 使用压缩技术和Combiner优化map和reduce任务的吞吐量和代码量
- 理解各种调优属性以及优化集群的最佳实践
- 判断Hadoop集群的薄弱环节
- 了解影响MapReduce性能的因素
Who this book is for
对于Hadoop系统管理员、开发人员、MapReduce使用者或者初学者而言,本书是优化集群和应用程序的最佳选择。读者不必事先具备创建MapReduce应用程序的知识,但具备这些知识有助于增进对概念的理解,更有助于理解MapReduce类模板代码片段。
Table of Contents
- 了解Hadoop MapReduce
- Hadoop参数概述
- 检测系统瓶颈
- 识别资源薄弱环节
- 强化map和reduce任务
- 优化MapReduce任务
- 最佳实践与建议
Loading...
Loading...
Loading...

