Hadoop IO

Hadoop IOhadoop提供了多种的解压缩方式，但是由于license的问题，得单独下载。 hadoop同时也对文件读写有校验，一旦出现文件错误，就会报告给namenode，namenode则不会再给别的任务派送这个文件块，同时调度其他的replica来恢复。每个datanode会定期地检查自己的数据。使用本地的库来进行压缩或解压可以节省很多时间，相对于通过Java实现的来说。几乎所有的

2016

Learning

2016-06-24

YARN

YARN简介YARN在hadoop 2中被引入，用于改善MapReduce，但是它也被用于支持别的计算框架。YARN提供API用于请求和使用集群资源，但这些不是直接被用户的代码使用的。如何工作的YARN通过两种守护进程来提供它的核心服务，一个是resource manager，另一个是node managers。后者会启动和监控containers。一个container会执行一个特定程序的进程

Learning

2016-06-23

HDFS

HDFS 学习HDFS文件系统具有高容错率，每个block的size为128MB，为的是减少寻址时间。整个hadoop集群中分为了Namenode和Datanode，其中Namenode保存着metadata，也就是整个HDFS文件系统的树和块信息。而Datanode则负责具体block的存取，并且周期性地向Namenode报告它所拥有的数据块。 datanode自身因为会把block复制几遍，所

Blog

标签：: big data

Hadoop IO

YARN

HDFS