单选题
- (单选题, 3分)下列哪个不属于Hadoop的特性?
A 成本高
B 高可靠性
C 高容错性
D 运行在Linux平台上
正确答案: A
- (单选题, 3分)Hadoop框架中最核心的设计是什么?
A 为海量数据提供存储的HDFS和对数据进行计算的MapReduce
B 提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务
C Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中
D Hadoop被视为事实上的大数据处理标准
正确答案: A
- (单选题, 3分)在一个基本的Hadoop集群中,DataNode主要负责什么?
A 负责执行由JobTracker指派的任务
B 协调数据计算任务
C 负责协调集群中的数据存储
D 存储被拆分的数据块
正确答案: D
- (单选题, 3分)在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?
A 帮助NameNode收集文件系统运行的状态信息
B 负责执行由JobTracker指派的任务
C 协调数据计算任务
D 负责协调集群中的数据存储
正确答案: A
- (单选题, 3分)在Hadoop项目结构中,HDFS指的是什么?
A 分布式文件系统
B 分布式并行编程模型
C 资源管理和调度器
D Hadoop上的数据仓库
正确答案: A
- (单选题, 3分)在Hadoop项目结构中,MapReduce指的是什么?
A 分布式并行编程模型
B 流计算框架
C Hadoop上的工作流管理系统
D 提供分布式协调一致性服务
正确答案: A
多选题
- (多选题, 4分)一个基本的Hadoop集群中的节点主要包括什么?
A DataNode:存储被拆分的数据块
B JobTracker:协调数据计算任务
C TaskTracker:负责执行由JobTracker指派的任务
D SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
正确答案: ABCD
- (多选题, 4分)下列关于Hadoop的描述,哪些是正确的?
A 为用户提供了系统底层细节透明的分布式基础架构
B 具有很好的跨平台特性
C 可以部署在廉价的计算机集群中
D 曾经被公认为行业大数据标准开源软件
正确答案: ABCD
- (多选题, 4分)Hadoop集群的整体性能主要受到什么因素影响?
A CPU性能
B 内存
C 网络
D 存储容量
正确答案: ABCD
- (多选题, 4分)下列关于Hadoop的描述,哪些是错误的?
A 只能支持一种编程语言
B 具有较差的跨平台特性
C 可以部署在廉价的计算机集群中
D 曾经被公认为行业大数据标准开源软件
正确答案: AB
简答题
- (简答题, 10分)试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。
正确答案:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。
- (简答题, 10分)试述Hadoop在各个领域的应用情况。
正确答案:Hadoop已经在各个领域得到了广泛的应用,互联网领域是其应用的主阵地,具体如下:1、雅虎公司于2007年在Sunnyvale总部建立了M45(一个包含了4000个处理器和1.5PB容量的Hadooop集群系统);2、Facebook主要将Hadoop平台用于日志处理,推荐系统和数据仓库等方面;3、国内Hadoop的公司主要有:百度、淘宝、网易、华为、中国移动等。淘宝主要用于数据魔方、量子统计、推荐系统、排行榜等;百度主要使用Hadoop用于日志的存储和统计、网页数据的分析和挖掘、商业分析、在线数据反馈、网页聚类等;华为是Hadoop的使用者,也是Hadoop技术的重要推动者。
- (简答题, 10分)试述Hadoop具有哪些特性。
正确答案:1、高可靠性:采用冗余数据存储方式,即使一个副本发生故障,其他副本也可以保证正常对外提供服务;2、高效性:是一个并行分布式计算平台,能够高效处理PB级数据;3、高可扩展性:Hadoop的设计目标是可以高效稳定地运行在廉价的计算机集群上,可以扩展到数以千计的计算机节点上;;4、高容错性:采用冗余数据存储方式,自动保存数据的多个副本,并且能够自动将失败的任务进行重新分配;5、成本低:Hadoop采用廉价计算机集群,成本较低,普通用户也很容易用自己的PC机搭建Hadoop运行环境;6、运行在Linux操作系统上:是基于Java开发的,可以较好地运行在Linux操作系统上;7、支持多种编程语言:支持Java、C++、Python等编程语言。
- (简答题, 10分)试列举单机模式和伪分布式模式的异同点。
正确答案:一、相同点:都只在一台单机上运行。二、不同点:1、运行模式不同:单机模式是Hadoop的默认模式。这种模式在一台单机上运行,没有分布式文件系统,而是直接读写本地操作系统的文件系统。伪分布模式这种模式也是在一台单机上运行,但用不同的Java进程模仿分布式运行中的各类结点。2、配置不同:单机模式首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。伪分布模式在“单节点集群”上运行Hadoop,其中所有的守护进程都运行在同一台机器上。 3、节点交互不同:单机模式因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式在单机模式之上增加了代码调试功能,允许你检查内存使用情况,HDFS输入输出,以及其他的守护进程交互。
- (简答题, 10分)试述Hadoop生态系统以及每个部分的具体功能。
正确答案:1、HDFS:是Hadoop项目的两个核心之一,它是针对谷歌文件系统的开源实现。HDFS具有处理超大数据、流式处理、可以运行在廉价商用服务器上等优点。2、HBase:是一个提高可靠性、高性能、可伸缩、实时读写、分布式的列式数据库,一般采用HDFS作为其底层数据存储系统。3、MapReduce:是Hadoop项目的两个核心之一,是针对谷歌MapReduce的开源实现,是一种编程模型,用于大规模数据集的并行运算,它将复杂的、运行于大规模集群上的并行计算过程高度抽象为两个函数,即Map和Reduce,并允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,且将其运行于廉价的计算机集群上,完成海量数据的处理。4、Zoookepper:是针对谷歌Chubby的一个开源实现,是高效和可靠的协同工作系统,提供分布式锁之类的基本服务,用于构建分布式应用,减轻分布式应用程序所承担的协调任务。5、Hive:是一个基于Hadoop的数据仓库工具,可以用于对Hadoop文件中的数据集进行数据整理、特殊查询和分布存储。6、Pig:是一种数据流语言和运行环境,适合于使用Hadoop和MapReducce平台上查询大型半结构化数据集。7、Mahout:是Apache软件基金会旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。8、Flume:是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。 9、Sqoop:是SQL-to-Hadoop的缩写,主要用于在Hadoop和关系数据库之间交换数据,可以改进数据的互操作性。 10、Ambari:是一种基于web的工具,支持Apache Hadoop集群的安装、部署、配置和管理。
填空题
- (填空题, 4分)Hadoop的三种运行模式分别是独立(本地)模式、()和()。
正确答案:(1) 伪分布式模式(2) 完全分布式模式;分布式模式
- (填空题, 4分)配置Hadoop时,Java的路径JAVA_HOME在配置文件( )中进行设置;所有节点的HDFS路径通过fsdefualtname来设置,这个选项在配置文件( )中设置。
正确答案:(1) hadoop-env.sh(2) core-site.xml
- (填空题, 4分)Hadoop伪分布模式,通过start-dfssh运行启动后所具有的进程包括()、()和()。
正确答案:(1) NameNode(2) DataNode(3) SecondaryNameNode
- (填空题, 4分)Hadoop的核心是()和()。
正确答案:(1) HDFS;hdfs(2) MapReduce;mapreduce