博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
HDFS的概念----大数据分析学习笔记2
阅读量:3906 次
发布时间:2019-05-23

本文共 784 字,大约阅读时间需要 2 分钟。

HDFS数据块的大小默认为128MB,其目的是为了最小化寻址开销,但也不宜过大,否则会导致作业运行速度变慢(任务数少于集群中节点的数量)。

分块的好处
(1)文件可以分开存放,不需要都放在一个磁盘上
(2)简化存储子系统的设计
(3)适用于数据备份,从而提高数据容错能力和提高可用性
两类节点
namenode管理节点
(1)管理文件系统的命名空间,维护文件系统树及树内的所有文件和目录(这些信息以命名空间镜像文件和编辑日志文件的形式永久保存在本地磁盘上)
(2)记录每个文件中各个块所在的数据节点信息
datanode工作节点
(1)存储并检索数据块
(2)定期向namenode发送他们所存储块的列表
容错机制
(1)备份,将持久状态写入NFS(远程挂载网络文件系统)
(2)运行辅助namenode,定期合并日志文件与命名空间镜像
HDFS的高可用
HDFS高可用(HA)方案就是为了解决上述问题而产生的,在HA HDFS集群中会同时运行两个Namenode,一个作为活动的Namenode(Active),一个作为备份的Namenode(Standby)。备份的Namenode的命名空间与活动的Namenode是实时同步的,所以当活动的Namenode发生故障而停止服务时,备份Namenode可以立即切换为活动状态,而不影响HDFS集群服务。
心跳机制(master/slave间也有心跳机制,这是面试的重点知识)
DataNode----->NameNode 3s 本地磁盘上block块的使用情况 1h block的report
当长时间没有发送心跳时,NameNode就判断DataNode的连接已经中断,不能继续工作了
就把他定性为”dead node”。NameNode会检查dead node中的副本数据,复制到其他的data node中。

转载地址:http://vrqen.baihongyu.com/

你可能感兴趣的文章
Axis2介绍
查看>>
全面接触java集合框架
查看>>
JAVA集合小结
查看>>
Java中的集合
查看>>
SOA、网格计算、云计算与P2P技术
查看>>
Junit4 标注总结
查看>>
Spring事务配置的五种方式
查看>>
关系型数据库性能优化总结
查看>>
IBM MQ 学习笔记
查看>>
MB与MQ简介
查看>>
MQ3
查看>>
MQ 消息列队
查看>>
eclipse的内存设置始终会提示内存溢出
查看>>
Eclipse Debug不为人知的秘密
查看>>
iBatis入门和开发环境搭建
查看>>
iBATIS入门程序六大步详解
查看>>
一个简单的iBatis入门例子
查看>>
mybatis教程
查看>>
struts2教程1
查看>>
struts2标签说明
查看>>