标签:: big data

0

Hadoop IO

Hadoop IOhadoop提供了多种的解压缩方式,但是由于license的问题,得单独下载。 hadoop同时也对文件读写有校验,一旦出现文件错误,就会报告给namenode,namenode则不会再给别的任务派送这个文件块,同时调度其他的replica来恢复。 每个datanode会定期地检查自己的数据。 使用本地的库来进行压缩或解压可以节省很多时间,相对于通过Java实现的来说。几乎所有的

0

YARN

YARN简介YARN在hadoop 2中被引入,用于改善MapReduce,但是它也被用于支持别的计算框架。YARN提供API用于请求和使用集群资源,但这些不是直接被用户的代码使用的。 如何工作的YARN通过两种守护进程来提供它的核心服务,一个是resource manager,另一个是node managers。后者会启动和监控containers。一个container会执行一个特定程序的进程

0

HDFS

HDFS 学习HDFS文件系统具有高容错率,每个block的size为128MB,为的是减少寻址时间。整个hadoop集群中分为了Namenode和Datanode,其中Namenode保存着metadata,也就是整个HDFS文件系统的树和块信息。而Datanode则负责具体block的存取,并且周期性地向Namenode报告它所拥有的数据块。 datanode自身因为会把block复制几遍,所